Поисковая оптимизация
и продвижение сайтов в Интернете

Статьи и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Анализатор омонимов

Об отношении [запросы/переходы] в поисковых системах

О релевантности дополнений Яндекса и Google

Метапоиск в браузере

Люди и алгоритмы. Поисковые технологии - 2010

Два подхода к геотаргетингу в SERP


Омонимия и полисемия в результатах поиска


Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"

Дублирующие ссылки в выдаче

Порнография как объект поиска

Поисковый спам - примеры плохих идей

Коэффициент дублирования

Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи

Кластеризация as is

Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен

Проблема выбора экспертов

Предисловие ненаписанной книги



Ежегодная конференция Internet Business Conference Russia 2014

Ежегодная конференция для бизнеса IBC Russia 2014 пройдет в Москве 27-28 ноября.
В программе конференции три потока: веб-технологии для бизнеса, интернет-реклама и digital-стратегии, поисковая оптимизация и продвижение. Впервые на конференции добавлены практикумы для выполнения практических заданий!

Успейте зарегистрироваться до повышения стоимости!


Запрос на услуги по продвижению сайтов

Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.

* — поля обязательные для заполнения
** — заполните хотя бы одно из полей

ГлавнаяРассылка о поискеОмонимия и полисемия в результатах поиска

Выпуск 22. Омонимия и полисемия в результатах поиска

Проблемы качества поиска
== выпуск 22 ==


  АШМАНОВ и ПАРТНЕРЫ

ОМОНИМИЯ И ПОЛИСЕМИЯ
в результатах поиска

От редактора
О проблемах формирования выдачи по омонимичным запросам
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

Главная новость дня - Google запустил региональный поиск в России. Способ реализации отличается от Яндекса, региональный блок жестко ставится на 5-8 позиции выдачи. На скриншотах это хорошо видно, см. записи.

Скорее всего, сейчас все работает в режиме тестирования, еще заметны "детские" ошибки: неверно определяется Екатеринбург, в Санкт-Петербурге вообще не работает. Но тенденция очевидна - запустили и анализируют отклик по ссылкам нового блока. Скорее всего, в будущем передвинут эти ссылки на первые позиции.

Хочется отметить, что Яндекс объявил о старте поиска с учетом региона ("Арзамас") всего четыре месяца назад, 12 октября 2009 года. Гугл среагировал почти мгновенно.

Ввод геотаргетинга в выдачу поисковиков-лидеров значительно уменьшает шансы на успех систем, которые еще не освоили эту технологию. Поисковая аудитория Рамблера, Мейла и др. в 2010 году начнет стремительно таять, если эти компании не предпримут каких-то корректирующих ситуацию действий. Про анализ регионального поиска будет следующий выпуск рассылки, а пока...

* * *

...продолжаем тему сравнения качества поиска разных поисковых систем. На днях в блоге Евгения Трофименко прочел интересную заметку, цитирую.

Насчет алгоритмов и прочего обучения. Поисковики такие поисковики. Они такие думают, что достаточно набрать побольше разных факторов, оценки асессоров насобирать, натравить обучалки. Обучалки, жадные, всю эту кучу данных зохавают и родят Формулу. Чудесным Образом. Но я как-то думаю, что чудесным образом ничего не родится...

С тезисом про невозможность чудесного самозарождения формулы ранжирования я согласен. Также и с выводом Евгения, "ну, так и выдача - тоже непонятно какая." А вот дальше рассуждения автора кажутся менее бесспорными.

Общий мысль вот какой: Дело не в обучалках. Дело в наборе факторов. Если у вас придуман прорывный, новый фактор (пример: пейджранк в свои годы), то его хоть в обучалку загнать, хоть просто в виде ручной формулы учитывать - толк будет. И хорошо искать будет... Это я все к чему. К тому, что нет тут никакого огромного "порога входа". Просто надо пробовать. Придумай хороший набор параметров - и будешь искать хорошо. Пусть даже новичок.

Аналогия. Известен набор "параметров", с помощью которых можно построить отличный дом: кирпич, цемент, песок, вода, дерево, стекло... Но строительство всегда начинается с проекта, максимально детализированного представления о том, что именно строитель хочет получить; результат работы без плана вполне предсказуем. Есть ли подобные проекты у разработчиков поиска?..

Похоже, в деле строительства поисковой выдачи развитие проектной документации застопорилась на уровне конца прошлого века, когда перед поисковиком ставилась задача "найти все документы, в которых встречаются слова запроса, и разместить наверху списка наиболее релевантные". Сегодня для описания хорошего поиска такого определения явно недостаточно. В условиях, когда для большинства запросов находятся тысячи "содержащих слова" документов, из которых сотни вполне можно отнести к "наиболее релевантным", проблема выбора десятки лучших из лучших не сводится к отысканию Великой Формулы Ранжирования и Прорывного Фактора. Проект выдачи должен описывать прежде всего идею и структуру ответа на поисковый запрос.

Иными словами, дело не в факторах и не в формуле, дело в проекте, в точном представлении, что должно быть в выдаче и как это должно быть размещено. Формулы и факторы - вторичны.

Хорошей иллюстрацией к тезису о первичности идеи и структуры служит проблема обеспечения качественной выдачи в ответ на омонимичные и полисемичные запросы. Давайте поразмышляем вместе.

О проблемах формирования выдачи в ответ на запросы-омонимы - Андрей Иванов

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Чехов - снайпер, писатель или город?
Много Геркулесов
Что лучше - мультсериал или овсянка?
Анализатор выдачи по многозначным запросам

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

 
Чехов - снайпер, писатель или город?

Вот отрывок из "Аквариума" Виктора Суворова

Вопросы сыплются один за другим. Времени на обдумывание никакого. Только задумался - следует новый вопрос. Кто такой Чехов? Это снайпер из 138-й стрелковой дивизии 62-й армии. А Достоевский? Странные вопросы. Кто не знает Достоевского? Николай Герасимович Достоевский - генерал-майор, начальник штаба 3-й ударной Армии. Они смеются. Это, капитан, немного не то, чего мы хотим, но твои ответы мы принимаем...

Думаю, вы тоже улыбнулись. Не знаю, чего хотели экзаменаторы от Суворова, но все мы очень удивимся, не обнаружив в Тор10 выдачи поисковика по запросам чехов и достоевский упоминаний об Антоне Павловиче Чехове и Федоре Михайловиче Достоевском. Наличие ссылок на ресурсы о всем известных литераторах кажется вполне справедливым.

Но эти слова означают не не только писателей. Минимум, для 70 тысяч человек "Чехов" больше ассоциируется с названием родного города, они в нем живут. Для поклонников соционики Достоевский, скорее, тип личности, "этико-интуитивный интроверт", а не автор "Преступления и наказания". Нужно ли ставить в топ ссылки для социоников и тех, кто интересуется городом Чеховым? Наверное, да... при условии, что и про Антона Павловича с Федором Михайловичем не забудут.

Хорошо, продолжим. Знатоки волейбола могут вспомнить Заслуженного тренера СССР Олега Сергеевича Чехова; многие гости Санкт-Петербурга останавливаются в современном отеле "Достоевский" на Владимирском проспекте. Ссылки на эти данные тоже нужно в первую десятку?.. Почему бы и нет, кажется, свободное место еще осталось.

Логика подсказывает, если мы хотим сделать хороший поиск для максимального количества пользователей, омонимию и полисемию нужно в выдаче "раскрывать". Т.е. показывать данные для пользователей, имеющих в виду разные значения запроса:

  • Достоевский - писатель,
  • Достоевский - соционический тип,
  • Достоевский - отель и т.п.

При этом, чем популярнее возможное значение запроса-омонима, тем более заметным должно быть место на странице результатов поиска для соответствующей этому значению информации.

  • Достоевский - писатель. / Самое важное значение, потому что всем известное.
  • Достоевский - соционический тип. / Менее важное, менее известное значение, но соционикой интересуются повсеместно.
  • Достоевский - отель. / Еще менее важное значение, менее известное, локализовано в одном месте.

Казалось бы, все не так уж сложно, налицо и идея, и структура выдачи. Но попробуйте на основании такой логики решить задачу, что и как надо показывать в результатах поиска в ответ на запрос геркулес.

Много "Геркулесов"

Для справки. "Геркулес (Hercules)" - это... новосибирская компания, продающая шпатлевку и клей для бассейнов. Компания из Донецка, которая делает пельмени и мороженое. Предприятие из Санкт-Петербурга, производящее двери и мебель. Пивной ресторан в Калининграде. Спортивный клуб в Питере. Яхтенный порт Финском заливе. Общество с ограниченной ответственностью в Серпухове. Транспортная компания в Москве. Группа московских компаний по ремонту квартир. Универсам в Подольске. Футбольный клуб в Испании. Американский производитель автошин. ОАО из Клина, выпускающее комбикорма. Рынок в Ростове-на-Дону. Спортшкола самбо в Уфе. Транспортная компания в Твери. Немецкая фирма по производству станков для обработки валков. Торговая фирма в Рязани. Торговый дом в Барнауле. Фирма-автоперевозчик в Самаре. Компания по производству хлебцов в Санкт-Петербурге. Торговый дом в Екатеринбурге. Саратовская мебельноторговооптовая компания. Магазин стройматериалов в Москве. Бельгийская компания-дистрибьютор химпрома. Московская компания-эвакуатор. Столовая в Нагатино-Садовниках. Школа на Петровке в Москве. Спортзал в Норильске. Магазин для бодибилдеров в Кирове. Порт в Монако. Тренажерный зал в Краснодаре. Французская фирма по производству электроники. Отель в городе Филираки (о-в Родос). Спортивный центр в Новосибирске.

Итого насчитали 35 компаний и разного рода местных заведений, которые можно посетить.

А также "Геркулес (Hercules)" - это... сорт брюссельской капусты. Мультфильм Уолта Диснея. Фильм Роджера Янга. Военно-транспортный самолет компании "Локхид". Литой диск. Английский казематный броненосец. Многоканальный усилитель. Стихотворение Державина. Овсяные хлопья. Созвездие Северного полушария. Двухмачтовая парусно-моторная гафельная шхуна. Компьютерная игра. Жук. Одноручковый смеситель. Марка сухих строительных смесей. Универсальные платформенные весы. Огнестойкий костюм. Программа настройки операционных систем Windows. Фильм Люка Бонди. Мифологический герой (Геракл). Сорт садовой гейхеры (многолетний цветок). Шины. Приставка к детскому спортивному тренажеру. Кличка английского дога, самой большой собаки в мире, по версии Книги рекордов Гиннесса. Кличка гибрида льва и тигрицы, который был зарегистрирован как самый крупный из живущих на Земле представителей семейства кошачьих, по версии той же Книги рекордов Гиннесса. Опора для трубного материала. Компактные звуковые колонки. Низковольтное комплектное устройство распределения. Высокопроизводительный запайщик лотков. Бак-септик. Город в США, штат Калифорния. Санки. Безвоздушный краскораспылительный аппарат. Печь-камин. Мотоцикл. Спортивное питание. Мультсериал Фила Вайнштейна. Кресло для руководителя. Лунный кратер. Палатка. Катер. Никнейм автожурналиста Александра Михайлова. Скульптура в Эрмитаже. Каучуковая расческа. Модель ProLAN-cервера. Жидкостный строительный уровень. Торт. Детская кроватка. Онлайн-журнал. Американский зенитно-ракетный комплекс. Кодовое наименование операции по высадке немецкого парашютного десанта на Мальту весной 1942 г. Столовый сорт винограда. Деэмульгатор. Фильм Луиджи Коцци. Наклейка. Сорт кустарниковых роз. Мужское имя. Прозвище американского баса-баритона Уильяма Шимелла. Котел. Восьмиканальная звуковая карта. Мастер-класс бодибилдерши Елены Шпортун. Рассказ Варлама Шаламова. Бумажный журнал.

Еще 63 "геркулеса", которые можно потрогать, почитать, послушать, посмотреть, поесть, понюхать и много чего еще. В сумме почти 100 вариантов значений слова, которые может иметь в виду пользователь с таким запросом. Скорее всего, и это еще далеко не полный список. Например, в отображаемой по запросу Тор1000 Яндекса не нашлось ссылки с упоминанием "Геркулеса", в котором служил самый известный советский миллионер Александр Иванович Корейко (И. Ильф, Е. Петров "Золотой теленок").

Правило usability говорит, что доступ к любой информации на сайте должен находиться не дальше, чем в трех кликах от главной страницы. Попробуйте представить, каким образом можно обеспечить выполнение этого правила в поисковых системах, чтобы после ввода запроса пользователь в 1-3 клика легко мог добраться и до рецептов из овсяных хлопьев, и до рассказа Шаламова, и до адреса спортзала в Норильске и до остальных 90+ возможных значений. Посмотрите, можно ли это сделать сегодня с помощью обычной выдачи Яндекса, Google и других поисковиков.

В таком сравнении слова Евгения Трофименко "ну, так и выдача - тоже непонятно какая" иллюстрируют привычную картину, странность которой мы уже не замечаем. Мне тоже непонятно, почему Яндекс (в Казани) на первой позиции Тор10 показывает сайт новосибирской компании сухих смесей, на второй - Википедию, на четвертой сайт онлайн-журнала, еще две ссылки на компании в Донецке и Санкт-Петербурге, две ссылки про созвездие, одну про мифы, одну про мультфильм и одну на видеохостинг с примерно таким же мультфильмом и текстом на английском языке. Верю, что все это "наиболее релевантно", но логика такой выдачи непостижима.

Это не критика Яндекса, логика выдачи других систем ничуть не лучше. Попробуем сравнить подробнее.

Что лучше - мультсериал или овсянка?

Проблема корректного раскрытия смысла омонимичных и полисемичных запросов в результатах поиска существует. Раскрывать - надо, и поисковики, без сомнения, пытаются это делать. В рассмотренном примере Яндекс смог показать в Тор10 информацию о семи возможных значениях: компании-производителе сухих строительных смесей (1 ссылка), созвездии (3 ссылки), мифологическом герое (1 ссылка), мультфильме (2 ссылки), онлайн-журнале (1 ссылка), компании по производству замороженных продуктов (1 ссылка) и компании-деревообработчике (1 ссылка).

Семь разных значений из десяти возможных - это хороший показатель. Но с нашей сотней вариантов "геркулесов" набрать совершенно разные по составу десятки можно тысячами способов. Какой набор считать лучшим и почему?

С этой проблемой мы уже столкнулись в примере "Чехов-Достоевский". Лучший вариант тот, который понятен (ожидаем, логичен, справедлив, кажется естественным, осмысленным) для большинства задавших вопрос пользователей. Что напрямую зависит от известности для аудитории различных значений запроса-омонима. Предположу, что для "геркулеса" самыми известными значениями окажутся овсянка, мультсериал и античный бог-герой Геракл-Геркулес. Т.е. при любых раскладах Тор10 информация, касающаяся именно этих направлений поиска по запросу, должна быть в топовой десятке.

Проверим, есть или нет.

Овсянка Мультсериал Бог-герой
Яндекс НЕТ + +
Google + НЕТ +
Bing НЕТ + +
Gogo НЕТ + +
Рамблер НЕТ + НЕТ
Yahoo + НЕТ НЕТ
Апорт + + НЕТ

Как видим, у каждого поисковика собственный взгляд на способ раскрытия полисемии в выдаче. Яндекс, Gogo и Bing не признают овсяные хлопья достойными внимания пользователей. Google и Yahoo сочли неважным мультсериал, а Рамблер, Yahoo и Апорт не знают Геракла.

Для сравнения интересно взглянуть на сайты, хорошо представленные в большинстве поисковиков по этому запросу. Абсолютный победитель - сайт hercules.hobby.ru, найден в Тор10 всей семерки. Это сайт онлайн-журнала, посвященного бодибилдингу. Первая же строка уведомляет, "Последнее обновление 14 ноября 2001 года", впрочем, о странной логике поисковиков мы уже говорили.

Анализатор выдачи по многозначным запросам

Оценка способности поисковых систем формировать хорошую выдачу в ответ на омонимы производится по титулам и сниппетам. Поясню на примере, вот титулы Тор10 ссылок Рамблера и Яндекса в ответ на запрос лук.

Рамблер

  1. Арбалеты. Луки. Интернет Магазин. Информационный портал - Продажа Обзоры Видео - BALISTA.ru
  2. Арбалет, луки стрелы, блочный лук, луки арбалеты, продажа арбалетов, продажа луков, элитные арбалеты, луки стр...
  3. МаркПоинт: Арбалеты и Луки. Розничный магазин арбалетов и луков. Блочные, спортивные, классические арбалеты и луки...
  4. Магазин луки и арбалеты - продажа арбалетов и луков, большой выбор: спортивные арбалеты, арбалет охотничий, спортивн...
  5. Арбалеты | Продажа арбалетов | Арбалеты и Луки | Магазин арбалетов | Луки
  6. Магазин Арбалетов и Луков. Купить Арбалет. Продажа арбалетов и луков в Москве. Аксессуары и боеприпасы к арбалетам и...
  7. Арбалеты, луки, щиты, мишени, стрелы и аксессуары
  8. ИВА Pharm Company :: НТД
  9. Арбалеты в интернет магазине арбалетов и луков - топовые модели. Доставка за час!
  10. Купить арбалет: продажа арбалетов, луков, стрельба из лука, изготовить лук, охотничий арбалет, лук спортивный, м...

Яндекс

  1. Лук репчатый - Википедия
  2. Купить арбалет: продажа арбалетов, луков, стрельба из лука, изготовить лук...
  3. Лук, лечение луком. Лекарства из сада и огорода - vmiretrav.ru
  4. Арбалет, луки стрелы, блочный лук, луки арбалеты, продажа арбалетов, продажа...
  5. Лук репчатый - Лекарственные растения - НАРМЕД
  6. Стрельба из традиционного лука, классического, охотничего, спортивного...
  7. Лук и чеснок - красота и здоровье.
  8. РАЗНООБРАЗИЕ СОРТОВ ЛУКА
  9. МаркПоинт: Арбалеты и Луки. Розничный магазин арбалетов и луков. Блочные...
  10. Лук, луковый суп, лук порей, шалот, луковый пирог на Гастроном.ру

Из запроса невозможно узнать, собирается спрашивающий стрелять, выращивать, готовить или лечиться. Но Яндекс предлагает информацию для любого из возможных вариантов, Рамблер же сосредоточился исключительно на выдаче для робингудов, что соответствует ожиданиям меньшей части аудитории. Смысл омонима раскрывается из контекста. Ясно, что "стрельба из лука" и "спортивный лук" - одно, а "репчатый лук" и "зеленый лук" совсем другое. Чтобы разобраться достаточно пару секунд посмотреть на сниппеты, даже не переходя по предложенным ссылкам.

В анализаторе омонимов для каждого запроса-маркера подобраны несколько вариантов контекста, раскрывающие наиболее известные возможные значения запроса. Именно они ищутся на странице результатов поиска. Успешность выполнения задачи подсчитывается как отношение количества найденных значений к общему количеству возможных.

Результаты можно посмотреть на тест-площадке - анализатор омонимов. Рейтинг поисковых систем по этому показателю оказался без неожиданностей, Яндекс и Google традиционно в лидерах с неплохим отрывом от конкурентов.

  1. Google - 58,39
  2. Яндекс - 58,33
  3. Bing - 51,82
  4. Yahoo - 51,82
  5. Рамблер - 49,64
  6. Апорт - 47,81
  7. Gogo - 46,23

Добавление к сводному показателю нового анализатора на позициях поисковиков в рейтинге не отразилось.

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем. См. подсказку "О чем можно и нужно писать в редакцию"

Подписаться на рассылку "Проблемы качества поиска" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003—2009 «Ашманов и Партнеры»
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры