Во дни сомнений, во дни тягостных раздумий о судьбах моей родины, - ты один мне поддержка и опора, о великий, могучий, правдивый и свободный русский язык! Не будь тебя - как не впасть в отчаяние при виде всего, что совершается дома? Но нельзя верить, чтобы такой язык не был дан великому народу!
Июнь 1882. Иван Тургенев "Русский язык"
Анализатор поисковой выдачи в ответ на запросы-синонимы
Одной из свобод русского языка является свободный порядок слов в предложении. Мы хорошо знаем, что слова, например, "люблю Россию я" можно писать в любой комбинации, смысл высказывания от этого не изменится. Бесспорно, это очень полезное свойство для поэтов, но в поиске привычка пользователей не соблюдать жесткий порядок слов приводит к появлению запросов-синонимов. В самом деле, как правильно сформулировать запрос - программа ТВ или ТВ программа?
И так, и так - правильно. Статистика поисковых запросов Рамблера показывает, что такие пары запросов не редкость: тв программа на сегодня и программа тв на сегодня, тв программа на неделю и программа тв на неделю, программа тв передач и программа передач тв, и т.п. Задумайтесь, что должна выдать поисковая система в ответ на подобные одинаковые по смыслу запросы? Ответ на этот вопрос зависит от представления, что именно должна находить поисковая машина, каково представление разработчиков о потребности пользователя. Существуют две модели.
- Пользователь ищет документ, в котором имеются слова поискового запроса. Если придерживаться такой версии, результаты в ответ на запрос тв программа на неделю и программа тв на неделю должны достаточно сильно различаться - вряд ли найдется много веб-страниц, на которых имеются точные цитаты обоих запросов.
- Пользователь ищет решение отраженной в запросе проблемы. В данном случае проблемой является отсутствие телепрограммы. Очевидно, при таком подходе результаты поиска по запросам-синонимам должны быть одинаковы: набор ссылок на лучшие сайты с телепрограммами не зависит от формулировки запроса.
Перестановки слов - не единственная причина появления синонимичных поисковых запросов. Вот иные.
- использование общепринятых сокращений, аббревиатур -
погода в Санкт-Петербурге и погода в Спб;
- использование транслитераций -
характеристики toyota camry и характеристики тойота камри;
- использование разных падежей -
сценарий встречи Нового Года и сценарий встреча Новый Год;
- использование жаргонизмов -
скачать мультфильмы, скачать мультики;
- использование слов, не несущих смысловой нагрузки -
быстрый интернет, супер быстрый интернет;
- использование синонимов слов, входящих в запрос -
грустные стихи, печальные стихи.
Судя по всему, сегодня разработчики поиска ориентируются на вторую модель отношений пользователь-поисковик. Об этом есть интересный пассаж в интервью вице-президента Google Марио Коэйроса Людмиле Кудрявцевой.
Людмила Кудрявцева: - Вы действительно верите, что пользователь лучше знает, как должен выглядеть ответ на его поисковый запрос? Пользователи бывают неопытные, или просто мало задумываются об этом.
Марио Куэйрос: - Основой для такого предположения служит то, что мы верим: пользователь знает больше о том, что он ищет. Наша цель - показать пользователю выдачу в зависимости от того, что он хотел, а не что он написал в окне ввода поискового запроса. Запросы бывают очень разные, поэтому мы их изучаем и пытаемся понять, как выглядит желательный ответ на тот или иной запрос.
Давайте и мы с вами снова поизучаем, какие бывают поисковые запросы, и как поисковые системы умеют отвечать на них. Вчера запущен новый анализатор качества поиска, который сравнивает выдачу разных поисковых машин по синонимичным запросам. В расчетах мы исходим из предположения, что выдача по таким запросам должна быть одинаковой. Как маркеры в синонимичных группах используются реальные поисковые запросы:
- битлз лет ит би текст | текст песни beatles let it be | текст песни let it be | текст песни let it be the beatles
- как узнать адрес по номеру телефона | найти адрес по номеру телефона | поиск адреса по номеру телефона | узнать адрес по номеру телефона
- бесплатные sms на билайн | написать смс бесплатно на билайн | отправить бесплатно смс на билайн | послать бесплатно смс на билайн
И т.п. Результаты закономерны, лучшие результаты у Google, Яндекса и Gogo, наиболее технологичных поисковиков Рунета.
Препроцессинг поисковых запросов
Количество разных запросов в поисковые системы растет с каждым годом. Но, как показано выше, "что он (пользователь) написал в окне ввода поискового запроса" и "что он хотел" - вещи разные. Количество потребностей, проблем, которые пользователи пытаются решить с помощью поиска в Интернете, еще никто не замерял, эта задача ждет своего исследователя. Очевидно, что их меньше, чем формулировок поисковых запросов. Помимо синонимов, возникающих по вышеописанным причинам, каждый вопрос дублируется еще и в многочисленных ашипках и очипятках, которые возможны для любого входящего в запрос слова. Замечу, что в новом анализаторе ошибки и опечатки не рассматриваются, для этого есть другие информеры.
Ситуация "одна и та же задача поиска - много формулировок поисковых запросов" заставляет разработчиков поиска искать выход. Одни и те же алгоритмы отбора сайтов для выдачи и ранжирования невозможно применять для пользователей с разной лексикой и грамотностью, но все пользователи хотят получать только лучшие результаты. Решить эту задачу можно с помощью предварительной обработки - препроцессинга - поискового запроса, приведения запроса к "правильной" формулировке ДО попадания его в поисковую машину.
Первыми шагами работы в этом направлении являются появившиеся совсем недавно системы подсказок при наборе запроса, а также автоисправления опечаток и учета транслитераций. В Яндексе все это ввели в 2008 году. Скорее всего, на очереди ввод новых алгоритмов, обеспечивающие склейку запросов-синонимов.
Препроцессинг поисковых запросов снижает количество эффективных SEO-приемов. В 2002 году на первой ноябрьской конференции по продвижению сайтов Павел Ряйкконен сделал доклад о технологии продвижения по ошибочным запросам. Сегодня этот метод уходит в прошлое. В области низкочастотных запросов еще имеет смысл выбирать в качестве целей для продвижения синонимы, обеспечиваемые перестановками, падежами, дополнительными словами и синонимами слов запроса. Пока еще это может дать достаточно быстрый результат.
Но в будущем... честно говоря, я плохо представляю, какой смысл по-разному отвечать на вопросы, например,
- - - - - - -
музыка к фильму сумерки | музыка из фильма сумерки | музыка из к ф сумерки | музыка сумерки | музыка из кинофильма сумерки
- - - - - - -
Сегодня в ответах на эти запросы еще нет ни одного сквозного домена, хотя склеить подобные запросы в одну правильную формулировку очень несложно. В какую, и как обеспечить наилучшие результаты по ней - это уже другая тема.
Напомню еще раз ссылку на новый информер: анализатор запросов-синонимов.