- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Чехов - снайпер, писатель или город?
Много Геркулесов
Что лучше - мультсериал или овсянка?
Анализатор выдачи по многозначным запросам
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Чехов - снайпер, писатель или город?
Вот отрывок из "Аквариума" Виктора Суворова
Вопросы сыплются один за другим. Времени на обдумывание
никакого. Только задумался - следует новый вопрос. Кто такой Чехов? Это
снайпер из 138-й стрелковой дивизии 62-й армии. А Достоевский? Странные
вопросы. Кто не знает Достоевского? Николай Герасимович Достоевский -
генерал-майор, начальник штаба 3-й ударной Армии. Они смеются. Это, капитан,
немного не то, чего мы хотим, но твои ответы мы принимаем...
Думаю, вы тоже улыбнулись. Не знаю, чего хотели экзаменаторы от Суворова, но все мы очень удивимся, не обнаружив в Тор10 выдачи поисковика по запросам чехов и достоевский упоминаний об Антоне Павловиче Чехове и Федоре Михайловиче Достоевском. Наличие ссылок на ресурсы о всем известных литераторах кажется вполне справедливым.
Но эти слова означают не не только писателей. Минимум, для 70 тысяч человек "Чехов" больше ассоциируется с названием родного города, они в нем живут. Для поклонников соционики Достоевский, скорее, тип личности, "этико-интуитивный интроверт", а не автор "Преступления и наказания". Нужно ли ставить в топ ссылки для социоников и тех, кто интересуется городом Чеховым? Наверное, да... при условии, что и про Антона Павловича с Федором Михайловичем не забудут.
Хорошо, продолжим. Знатоки волейбола могут вспомнить Заслуженного тренера СССР Олега Сергеевича Чехова; многие гости Санкт-Петербурга останавливаются в современном отеле "Достоевский" на Владимирском проспекте. Ссылки на эти данные тоже нужно в первую десятку?.. Почему бы и нет, кажется, свободное место еще осталось.
Логика подсказывает, если мы хотим сделать хороший поиск для максимального количества пользователей, омонимию и полисемию нужно в выдаче "раскрывать". Т.е. показывать данные для пользователей, имеющих в виду разные значения запроса:
- Достоевский - писатель,
- Достоевский - соционический тип,
- Достоевский - отель и т.п.
При этом, чем популярнее возможное значение запроса-омонима, тем более заметным должно быть место на странице результатов поиска для соответствующей этому значению информации.
- Достоевский - писатель. / Самое важное значение, потому что всем известное.
- Достоевский - соционический тип. / Менее важное, менее известное значение, но соционикой интересуются повсеместно.
- Достоевский - отель. / Еще менее важное значение, менее известное, локализовано в одном месте.
Казалось бы, все не так уж сложно, налицо и идея, и структура выдачи. Но попробуйте на основании такой логики решить задачу, что и как надо показывать в результатах поиска в ответ на запрос геркулес.
Много "Геркулесов"
Для справки. "Геркулес (Hercules)" - это... новосибирская компания, продающая шпатлевку и клей для бассейнов. Компания из Донецка, которая делает пельмени и мороженое. Предприятие из Санкт-Петербурга, производящее двери и мебель. Пивной ресторан в Калининграде. Спортивный клуб в Питере. Яхтенный порт Финском заливе. Общество с ограниченной ответственностью в Серпухове. Транспортная компания в Москве. Группа московских компаний по ремонту квартир. Универсам в Подольске. Футбольный клуб в Испании. Американский производитель автошин. ОАО из Клина, выпускающее комбикорма. Рынок в Ростове-на-Дону. Спортшкола самбо в Уфе. Транспортная компания в Твери. Немецкая фирма по производству станков для обработки валков. Торговая фирма в Рязани. Торговый дом в Барнауле. Фирма-автоперевозчик в Самаре. Компания по производству хлебцов в Санкт-Петербурге. Торговый дом в Екатеринбурге. Саратовская мебельноторговооптовая компания. Магазин стройматериалов в Москве. Бельгийская компания-дистрибьютор химпрома. Московская компания-эвакуатор. Столовая в Нагатино-Садовниках. Школа на Петровке в Москве. Спортзал в Норильске. Магазин для бодибилдеров в Кирове. Порт в Монако. Тренажерный зал в Краснодаре. Французская фирма по производству электроники. Отель в городе Филираки (о-в Родос). Спортивный центр в Новосибирске.
Итого насчитали 35 компаний и разного рода местных заведений, которые можно посетить.
А также "Геркулес (Hercules)" - это... сорт брюссельской капусты. Мультфильм Уолта Диснея. Фильм Роджера Янга. Военно-транспортный самолет компании "Локхид". Литой диск. Английский казематный броненосец. Многоканальный усилитель. Стихотворение Державина. Овсяные хлопья. Созвездие Северного полушария. Двухмачтовая парусно-моторная гафельная шхуна. Компьютерная игра. Жук. Одноручковый смеситель. Марка сухих строительных смесей. Универсальные платформенные весы. Огнестойкий костюм. Программа настройки операционных систем Windows. Фильм Люка Бонди. Мифологический герой (Геракл). Сорт садовой гейхеры (многолетний цветок). Шины. Приставка к детскому спортивному тренажеру. Кличка английского дога, самой большой собаки в мире, по версии Книги рекордов Гиннесса. Кличка гибрида льва и тигрицы, который был зарегистрирован как самый крупный из живущих на Земле представителей семейства кошачьих, по версии той же Книги рекордов Гиннесса. Опора для трубного материала. Компактные звуковые колонки. Низковольтное комплектное устройство распределения. Высокопроизводительный запайщик лотков. Бак-септик. Город в США, штат Калифорния. Санки. Безвоздушный краскораспылительный аппарат. Печь-камин. Мотоцикл. Спортивное питание. Мультсериал Фила Вайнштейна. Кресло для руководителя. Лунный кратер. Палатка. Катер. Никнейм автожурналиста Александра Михайлова. Скульптура в Эрмитаже. Каучуковая расческа. Модель ProLAN-cервера. Жидкостный строительный уровень. Торт. Детская кроватка. Онлайн-журнал. Американский зенитно-ракетный комплекс. Кодовое наименование операции по высадке немецкого парашютного десанта на Мальту весной 1942 г. Столовый сорт винограда. Деэмульгатор. Фильм Луиджи Коцци. Наклейка. Сорт кустарниковых роз. Мужское имя. Прозвище американского баса-баритона Уильяма Шимелла. Котел. Восьмиканальная звуковая карта. Мастер-класс бодибилдерши Елены Шпортун. Рассказ Варлама Шаламова. Бумажный журнал.
Еще 63 "геркулеса", которые можно потрогать, почитать, послушать, посмотреть, поесть, понюхать и много чего еще. В сумме почти 100 вариантов значений слова, которые может иметь в виду пользователь с таким запросом. Скорее всего, и это еще далеко не полный список. Например, в отображаемой по запросу Тор1000 Яндекса не нашлось ссылки с упоминанием "Геркулеса", в котором служил самый известный советский миллионер Александр Иванович Корейко (И. Ильф, Е. Петров "Золотой теленок").
Правило usability говорит, что доступ к любой информации на сайте должен находиться не дальше, чем в трех кликах от главной страницы. Попробуйте представить, каким образом можно обеспечить выполнение этого правила в поисковых системах, чтобы после ввода запроса пользователь в 1-3 клика легко мог добраться и до рецептов из овсяных хлопьев, и до рассказа Шаламова, и до адреса спортзала в Норильске и до остальных 90+ возможных значений. Посмотрите, можно ли это сделать сегодня с помощью обычной выдачи Яндекса, Google и других поисковиков.
В таком сравнении слова Евгения Трофименко "ну, так и выдача - тоже непонятно какая" иллюстрируют привычную картину, странность которой мы уже не замечаем. Мне тоже непонятно, почему Яндекс (в Казани) на первой позиции Тор10 показывает сайт новосибирской компании сухих смесей, на второй - Википедию, на четвертой сайт онлайн-журнала, еще две ссылки на компании в Донецке и Санкт-Петербурге, две ссылки про созвездие, одну про мифы, одну про мультфильм и одну на видеохостинг с примерно таким же мультфильмом и текстом на английском языке. Верю, что все это "наиболее релевантно", но логика такой выдачи непостижима.
Это не критика Яндекса, логика выдачи других систем ничуть не лучше. Попробуем сравнить подробнее.
Что лучше - мультсериал или овсянка?
Проблема корректного раскрытия смысла омонимичных и полисемичных запросов в результатах поиска существует. Раскрывать - надо, и поисковики, без сомнения, пытаются это делать. В рассмотренном примере Яндекс смог показать в Тор10 информацию о семи возможных значениях: компании-производителе сухих строительных смесей (1 ссылка), созвездии (3 ссылки), мифологическом герое (1 ссылка), мультфильме (2 ссылки), онлайн-журнале (1 ссылка), компании по производству замороженных продуктов (1 ссылка) и компании-деревообработчике (1 ссылка).
Семь разных значений из десяти возможных - это хороший показатель. Но с нашей сотней вариантов "геркулесов" набрать совершенно разные по составу десятки можно тысячами способов. Какой набор считать лучшим и почему?
С этой проблемой мы уже столкнулись в примере "Чехов-Достоевский". Лучший вариант тот, который понятен (ожидаем, логичен, справедлив, кажется естественным, осмысленным) для большинства задавших вопрос пользователей. Что напрямую зависит от известности для аудитории различных значений запроса-омонима. Предположу, что для "геркулеса" самыми известными значениями окажутся овсянка, мультсериал и античный бог-герой Геракл-Геркулес. Т.е. при любых раскладах Тор10 информация, касающаяся именно этих направлений поиска по запросу, должна быть в топовой десятке.
Проверим, есть или нет.
|
Овсянка |
Мультсериал |
Бог-герой |
Яндекс |
НЕТ |
+ |
+ |
Google |
+ |
НЕТ |
+ |
Bing |
НЕТ |
+ |
+ |
Gogo |
НЕТ |
+ |
+ |
Рамблер |
НЕТ |
+ |
НЕТ |
Yahoo |
+ |
НЕТ |
НЕТ |
Апорт |
+ |
+ |
НЕТ |
Как видим, у каждого поисковика собственный взгляд на способ раскрытия полисемии в выдаче. Яндекс, Gogo и Bing не признают овсяные хлопья достойными внимания пользователей. Google и Yahoo сочли неважным мультсериал, а Рамблер, Yahoo и Апорт не знают Геракла.
Для сравнения интересно взглянуть на сайты, хорошо представленные в большинстве поисковиков по этому запросу. Абсолютный победитель - сайт hercules.hobby.ru, найден в Тор10 всей семерки. Это сайт онлайн-журнала, посвященного бодибилдингу. Первая же строка уведомляет, "Последнее обновление 14 ноября 2001 года", впрочем, о странной логике поисковиков мы уже говорили.
Анализатор выдачи по многозначным запросам
Оценка способности поисковых систем формировать хорошую выдачу в ответ на омонимы производится по титулам и сниппетам. Поясню на примере, вот титулы Тор10 ссылок Рамблера и Яндекса в ответ на запрос лук.
Рамблер
- Арбалеты. Луки. Интернет Магазин. Информационный портал - Продажа Обзоры Видео - BALISTA.ru
- Арбалет, луки стрелы, блочный лук, луки арбалеты, продажа арбалетов, продажа луков, элитные арбалеты, луки стр...
- МаркПоинт: Арбалеты и Луки. Розничный магазин арбалетов и луков. Блочные, спортивные, классические арбалеты и луки...
- Магазин луки и арбалеты - продажа арбалетов и луков, большой выбор: спортивные арбалеты, арбалет охотничий, спортивн...
- Арбалеты | Продажа арбалетов | Арбалеты и Луки | Магазин арбалетов | Луки
- Магазин Арбалетов и Луков. Купить Арбалет. Продажа арбалетов и луков в Москве. Аксессуары и боеприпасы к арбалетам и...
- Арбалеты, луки, щиты, мишени, стрелы и аксессуары
- ИВА Pharm Company :: НТД
- Арбалеты в интернет магазине арбалетов и луков - топовые модели. Доставка за час!
- Купить арбалет: продажа арбалетов, луков, стрельба из лука, изготовить лук, охотничий арбалет, лук спортивный, м...
Яндекс
- Лук репчатый - Википедия
- Купить арбалет: продажа арбалетов, луков, стрельба из лука, изготовить лук...
- Лук, лечение луком. Лекарства из сада и огорода - vmiretrav.ru
- Арбалет, луки стрелы, блочный лук, луки арбалеты, продажа арбалетов, продажа...
- Лук репчатый - Лекарственные растения - НАРМЕД
- Стрельба из традиционного лука, классического, охотничего, спортивного...
- Лук и чеснок - красота и здоровье.
- РАЗНООБРАЗИЕ СОРТОВ ЛУКА
- МаркПоинт: Арбалеты и Луки. Розничный магазин арбалетов и луков. Блочные...
- Лук, луковый суп, лук порей, шалот, луковый пирог на Гастроном.ру
Из запроса невозможно узнать, собирается спрашивающий стрелять, выращивать, готовить или лечиться. Но Яндекс предлагает информацию для любого из возможных вариантов, Рамблер же сосредоточился исключительно на выдаче для робингудов, что соответствует ожиданиям меньшей части аудитории. Смысл омонима раскрывается из контекста. Ясно, что "стрельба из лука" и "спортивный лук" - одно, а "репчатый лук" и "зеленый лук" совсем другое. Чтобы разобраться достаточно пару секунд посмотреть на сниппеты, даже не переходя по предложенным ссылкам.
В анализаторе омонимов для каждого запроса-маркера подобраны несколько вариантов контекста, раскрывающие наиболее известные возможные значения запроса. Именно они ищутся на странице результатов поиска. Успешность выполнения задачи подсчитывается как отношение количества найденных значений к общему количеству возможных.
Результаты можно посмотреть на тест-площадке - анализатор омонимов. Рейтинг поисковых систем по этому показателю оказался без неожиданностей, Яндекс и Google традиционно в лидерах с неплохим отрывом от конкурентов.
- Google - 58,39
- Яндекс - 58,33
- Bing - 51,82
- Yahoo - 51,82
- Рамблер - 49,64
- Апорт - 47,81
- Gogo - 46,23
Добавление к сводному показателю нового анализатора на позициях поисковиков в рейтинге не отразилось.