В простой, на первый взгляд, фразе "качество поиска" совмещены две мощные идеи, точнее, две парадигмы, на которых основаны все современные навигационные сервисы - это парадигмы машинной (алгоритмической) и ручной (интеллектуальной) обработки данных для поиска.
Термин парадигма используется для обозначения исходной концептуальной схемы, модели постановки проблем и их решения. Разницу между "концептуальными схемами" в подходах к проблеме обеспечения качества поиска можно показать на простом примере. Допустим, Всевышний поставил вам, читатель, задачу подготовить ответ на один-единственный вопрос. Почему бы и нет? Пути господни неисповедимы, заставил же он весьма далеких от судостроения патриарха Ноя (см. Ветхий Завет) и сенатора Эвана Бакстера (см. "Эван Всемогущий") освоить производство ковчегов. Вариант А божественного экзамена предполагает, что вопрос будет известен заранее (например, "рассказы", не "кондиционеры" же). В варианте Б вопрос для проверки будет выбран случайным образом из списка, содержащего тридцать миллионов разных формулировок, примерно столько их поступает в Яндекс в течение месяца.
В зависимости от доставшегося билета вы, скорее всего, пополните ряды сторонников той или иной парадигмы. В первом случае постараетесь узнать все о рассказах - теорию, историю, авторов, критику, стили, тексты, сюжеты, идеи, факты и др. То есть станете экспертом в данной предметной области. Во втором - все о способах обеспечения непустого и релевантного ответа на произвольный запрос и станете разработчиком поисковой машины.
Результаты сравнения вариантов такого испытания предсказать несложно. Если запрос "рассказы" будет случайным образом выбран для варианта Б, ответ А окажется намного лучше ответа Б. Но вероятность такого события равна 1/30000000, т.е. практически нулевая. Зато возможность завалить экзамен, готовясь для варианта Б по единственному запросу, гарантирована, спасти может только чудо.
Поисковые системы никто не избавит от необходимости отвечать на десятки миллионов разных запросов, такова жизнь. Столкнувшись с феноменом, что пользователи предпочитают писать интересующие их слова в поисковой форме, а не искать, кликая по рубрикатору каталога, разработчики поиска как раз и получили вышеописанную задачу. Запрос может быть любым, но а) ответ должен быть обязательно, б) ответ должен быть, по меньшей мере, "к месту". Именно парадигма алгоритмической выдачи, отказа от ручной обработки данных позволила эту задачу решить и привела машинные поисковики к победе над поисковыми каталогами. Что, видимо, надолго сформировало определенное мнение разработчиков: ручная обработка данных - поражение, машинная - успех; зачем же сомневаться в технологии успеха?
Привычку мыслить "технологически" хорошо иллюстрирует отрывок из недавнего интервью технического директора Яндекса Ильи Сегаловича.
Мы (Яндекс) живем по принципу 'наименьших усилий с наибольшей отдачей'. Как только мы видим, что 'технологическое' (здесь это слово используется как противопоставленное 'ручному') решение может оказаться полезным, пусть в самом первом приближении, мы стараемся дать его пользователю.

Иллюстрация Максима Каткова - SEO в картинках
Искусство заключается в том, чтобы придумать для не до конца совершенной (а полного совершенства ни одна технология в принципе достичь не может) технологии правильную обертку:
- добиться приемлемого качества по полноте и точности;
- установить граничные условия ее применимости;
- сделать ее работу понятной, чтобы даже ошибки не вызывали отторжения пользователя;
- если нужно, дать возможность пользователю настраивать или отключать её.
Понимая приверженность парадигме, можно продолжить диалог, даже не беспокоя Илью вопросами.
- Считаете ли Вы наличие девяти порноссылок в первой десятке выдачи по запросу рассказы нормальным результатом?
- Конечно, нет. Но у нас есть технология "Семейный поиск", с помощью которой можно избавиться от подобных ссылок.
- Даже с семейным фильтром подборка выглядит несколько неожиданной. Жанр имеет многовековую историю, рассказы писали сотни всемирно известных авторов, ссылок в выдаче по умолчанию всего-то десять, но... на пятой позиции предложены результаты какого-то любительского конкурса, десятая ссылка ("EmoFans.Ru - ЭмоФанс, эмо рассказы, фото эмо, эмо картинки, эмо чат, музыка эмо") к рассказам имеет весьма косвенное отношение. Да и остальные ссылки не слишком очевидны. Вам не кажется это странным? Хочется чего-то более структурированного, более качественного.
- Мы работаем над этим. В упомянутом выше интервью сказано:
"В 2004 году, когда мы в первый раз выпустили поиск, обученный асессорами, мы ранжировали на считанном числе факторов и способах переформулировки запросов, а настраивались фактически вручную по базе из нескольких сотен оцененных запросов. Теперь мы имеем дело с базой из десятков тысяч размеченных запросов, в ранжировании участвует около двух сотен сигналов, а правила переформулировки, расширения и классификации запроса включают тезаурус, аббревиатуры, транслитерацию, перевод, определение темы и иных аспектов запроса, и многое-многое другое."
Упорядочивание результатов, как часть процесса индексирования и поиска, происходит полностью автоматически в соответствии с установленными критериями релевантности. Яндекс отвечает на десятки миллионов запросов; настраивать выдачу, ориентируясь на один конкретный запрос, нецелесообразно.
- Получается, модели идеальной выдачи по данному запросу в Яндексе не существует и ее возможность не обсуждается?
Не существует. Как и по любому другому отдельно взятому запросу тоже. Имеет смысл обсуждать модели выдачи не по конкретному запросу, а по типам запросов: навигационным, информационным, транзакционным, ошибочным, транслитерациям и т.п., см. выше. Хорошие идеи, реализованные в этом направлении, быстро дают улучшение качества поиска.
Примерно так. Спасибо Илье за ответы на незаданные ему вопросы. Мы снова пришли к некоему противоречию двух парадигм: рассмотренный конкретный результат, полученный машиной, нельзя считать хорошим, но он "приемлемого качества", "не вызывает отторжения пользователя", "соответствует допускам" и "может быть отключен/изменен пользователем". Улучшить же данный результат, не вызвав изменений в результатах по другим запросам (которые, возможно, ухудшат картину в целом), нельзя, нет технологии. Стороннику ручной парадигмы это кажется странным: если для уборки окурка с пола еще не изобрели робокопа, почему бы пока не воспользоваться обычным веником...
Противоречие это мнимое, машинное и ручное может и должно быть совмещено для улучшения результата поиска по отдельно взятому запросу без ухудшения результатов по другим запросам.
Это крайне (!) спорное утверждение; поэтому, прежде чем перейти к его обсуждению, стоит поговорить о том, каким образом обычно оценивается поиск, что такое "релевантность". В следующем выпуске рассылки.
Вывод-подсказка: о чем нужно писать в редакцию
Писать можно обо всем. Стоит лишь учитывать парадигму человека, к которому вы хотите адресовать сообщение. Разработчикам поисковых машин интересна прежде всего информация о типичных проблемах, связанных с качеством поиска, и предложения по их возможному "технологическому" (здесь это слово тоже используется как противопоставление "ручному") решению.
Мне, редактору рассылки, интересны именно частные случаи, примеры запросов, по которым, на ваш взгляд, выдача Яндекса и/или Google далека от идеала. Желательно, с объяснением, что именно хотели бы вы найти в ответ на рассматриваемый запрос. Типичное проявляется в единичном, возможно, мы вместе сумеем обнаружить проблемы и решения, еще неизвестные разработчикам.