Можно легко увидеть, что поиск в этой компьютерной энциклопедии основан не на смысле запросов. Ведь статья ПОРОДЫ СОБАК не относится ни к одному из данных запросов, а, напротив, статья ТЕЛЕПЕРЕДАЧИ О НЕЧИСТОЙ СИЛЕ прямо соответствует запросу фрекен Бок ПЕРЕДАЧА О ЧЕРТЯХ И ПРИВИДЕНИЯХ и тем не менее не была найдена.
Похоже, что поиск основан просто на совпадениях слов в запросах и в заголовках статей. Посмотрим, какие статьи по каким запросам были найдены, и выделим совпадающие слова.
КАКИЕ ИГРУШКИ ДОРОЖЕ ВСЕГО — САМАЯ ДОРОГАЯ ПАРОВАЯ МАШИНА
ПОРОДЫ СОБАК — КОГДА УЖЕ МНЕ ПОДАРЯТ СОБАКУ
РЕЦЕПТЫ ПЕЧЕНЫХ ИЗДЕЛИЙ — КАК ПЕЧЬ ПЛЮШКИ С САХАРОМ
ГДЕ КУПИТЬ САХАР — ЧТО МОЖНО КУПИТЬ НА ТРИ ЭРЕ
ГДЕ КУПИТЬ САХАР — КАК ПЕЧЬ ПЛЮШКИ С САХАРОМ
Мы видим, что полное совпадение слов необязательно: ДОРОЖЕ и ДОРОГАЯ, СОБАК и СОБАКУ — разные последовательности букв. Может быть, достаточно совпадения части слова? Но тогда непонятно, почему по слову ПОДАРКИ не нашлась статья со словом ПОДАРЯТ, а по слову ИГРОВУЮ — статья со словом ИГРУШКИ. Можно предположить, что слова должны принадлежать к одной части речи. Но это не объясняет, почему по запросу со словом ПЕРЕДАЧА не была найдена статья со словом ТЕЛЕПЕРЕДАЧИ.
Внимательно посмотрев на выделенные слова в запросах и заголовках статей, можно заключить, что они представляют собой формы одного слова. Это и естественно: если мы вводим запрос ПОДАРОК, то нам подходит не только статья, где слово ПОДАРОК встречается ровно в этом виде, но и статьи ПОДАРКИ, СПИСОК ЛУЧШИХ ПОДАРКОВ, КАК НЕ ОСТАТЬСЯ БЕЗ ПОДАРКА и др. Мы можем даже не заметить, что слово подарок здесь встречается в разных формах: для носителя русского языка подарок, подарка, подарки, подарков — одно и то же слово. Это касается не только разных падежных форм существительных, но и степеней сравнения прилагательных (дорогой и дороже) и форм глагола. Так, например, печёный — страдательное причастие от глагола печь. По правилам, правда, оно пишется через два н: печённый, а с одним н пишется только отглагольное прилагательное, и то не всегда. По-видимому, в энциклопедии учитывается и неверное с точки зрения правил, но гораздо более распространённое написание, поскольку пользователь, вводящий запрос, легко может выбрать именно его.
Теперь понятно, почему не были отождествлены подарки и подарят, игровую и игры, телепередачи и передача: это не пары форм одного слова, а пары разных слов, хотя и однокоренных.
Отметим ещё одно: хотя в запросах фрекен Бок встречались слова как и о, статьи с этими словами не были найдены. Значит, поисковая система не учитывает служебные слова, что и понятно: они обычно не несут никакой содержательной информации (если, конечно, не считать случаев, когда лингвисты пытаются искать статьи о самих служебных словах: например, о значениях предлога о и союза как).
Мы можем переходить к выполнению задания 1. Для этого нужно в заголовке каждой статьи найти слова, совпадающие с какой-либо формой какого-либо слова в запросах.
ПЛЮШЕВЫЕ СОБАКИ — КОГДА УЖЕ МНЕ ПОДАРЯТ СОБАКУ (Малыш)
ПУСТЫНЯ САХАРА ДО НАШЕЙ ЭРЫ — КАК ПЕЧЬ ПЛЮШКИ С САХАРОМ (фрекен Бок)
Здесь мы видим ещё одно подтверждение тому, что поиск никак не учитывает смысл запроса, а только сравнивает отдельные слова. Слово САХАРА может быть и формой слова Сахара, и формой слова сахар: поскольку заголовки набраны заглавными буквами и не содержат ударения, различить эти две формы без учёта контекста невозможно.
ПУСТЫНЯ САХАРА ДО НАШЕЙ ЭРЫ — ЧТО МОЖНО КУПИТЬ НА ТРИ ЭРЕ (Карлсон)
Слово эре в запросе Карлсона может быть не только названием шведской монеты, но и формой слова эра.
УЗКИЕ АВТОМОБИЛЬНЫЕ ДОРОГИ — КОГДА УЖЕ МНЕ ПОДАРЯТ СОБАКУ (Малыш)
Написание уже чаще всего относится к частице, но оно может быть и формой сравнительной степени прилагательного узкий.
УЗКИЕ АВТОМОБИЛЬНЫЕ ДОРОГИ — САМАЯ ДОРОГАЯ ПАРОВАЯ МАШИНА (Малыш)
Написание дороги может быть формой множественного числа краткой формы прилагательного дорогой (а ударение, как мы помним, в запросах и заголовках статей не проставлено).
ПОДВИЖНЫЕ ИГРЫ В ЧЕРТЕ ГОРОДА — ПУСТЫРИ ДЛЯ ИГРЫ В ГОРОДКИ (Малыш)
Отметим, что город и городок — разные слова, а не формы одного слова.
ПОДВИЖНЫЕ ИГРЫ В ЧЕРТЕ ГОРОДА — ПЕРЕДАЧА О ЧЕРТЯХ И ПРИВИДЕНИЯХ (фрекен Бок)
Написание черте может быть формой не только слова черта, но и слова чёрт: буква «ё», как мы видели и в примере со словом печёный, в этой энциклопедии не ставится.
БУЛКИ С ТЕРТЫМ СЫРОМ — ЧТО МОЖНО КУПИТЬ НА ТРИ ЭРЕ (Карлсон)
Тёртый — страдательное причастие от глагола тереть, а три — форма повелительного наклонения того же глагола.
ТЕЛЕВЕДУЩИЙ ГОСПОДИН ПЕК — КАК ПЕЧЬ ПЛЮШКИ С САХАРОМ (фрекен Бок)
Пёк — форма прошедшего времени от глагола печь.
Итак, мы можем полностью описать устройство поиска в этой энциклопедии. Очевидно, в её базе данных хранятся все формы всех слов. Поисковая система по очереди рассматривает каждое слово в запросе пользователя, исключая служебные, и составляет список всех словарных слов, у которых есть такая форма. Например, слово МАШИНА в запросе Карлсона может быть формой существительного машина или прилагательного Машин. Затем система ищет все формы каждого из этих существительных (машина, машины, машине, ...; Машин, Машиного, Машиному, ...) в заголовках статей и в случае совпадения выдаёт соответствующую статью по данному запросу. Таким образом, мы выполнили и задание 2.
Комментарии