Поисковая оптимизация
и продвижение сайтов в Интернете

Статьи и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Анализатор омонимов

Об отношении [запросы/переходы] в поисковых системах

О релевантности дополнений Яндекса и Google

Метапоиск в браузере


Люди и алгоритмы. Поисковые технологии - 2010


Два подхода к геотаргетингу в SERP

Омонимия и полисемия в результатах поиска

Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"

Дублирующие ссылки в выдаче

Порнография как объект поиска

Поисковый спам - примеры плохих идей

Коэффициент дублирования

Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи

Кластеризация as is

Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен

Проблема выбора экспертов

Предисловие ненаписанной книги



Ежегодная конференция Internet Business Conference Russia 2014

Ежегодная конференция для бизнеса IBC Russia 2014 пройдет в Москве 27-28 ноября.
В программе конференции три потока: веб-технологии для бизнеса, интернет-реклама и digital-стратегии, поисковая оптимизация и продвижение. Впервые на конференции добавлены практикумы для выполнения практических заданий!

Успейте зарегистрироваться до повышения стоимости!


Запрос на услуги по продвижению сайтов

Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.

* — поля обязательные для заполнения
** — заполните хотя бы одно из полей

ГлавнаяРассылка о поискеЛюди и алгоритмы. Поисковые технологии - 2010

Выпуск 24. Люди и алгоритмы. Поисковые технологии - 2010

Проблемы качества поиска
== выпуск 24 ==


  АШМАНОВ и ПАРТНЕРЫ

ЛЮДИ И АЛГОРИТМЫ
впечатления от семинара
"Поисковые технологии - 2010"
и об алгоритме MatrixNet

От редактора
Люди и алгоритмы
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

С праздником 8 Марта, дорогие наши! Большое спасибо всем, кто прислал письмо и согласился стать участником фокус-группы по оценке качества поиска.

Недавно был на семинаре "Поисковые технологии - 2010". По итогам докладов и обсуждений сделал вывод: популярность поисковой системы однозначно зависит от качества ее работы. Собственно, это не мой вывод; Илья Сегалович показал график трафикогенерации Яндекса, на котором периоды активного роста четко привязаны к датам ввода в строй новых алгоритмов. А качество поиска определяют... как ни странно, не алгоритмы, не технические возможности и даже не деньги. Качество поиска определяют люди - оценщики, асессоры. Об этом и о семинаре расскажу чуть подробнее.

Впечатления от семинара "Поисковые технологии 2010" - Андрей Иванов

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Статистика семинара
MatrixNet - "генератор дорвеев" от Яндекса
Станет ли тайное явным?

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Статистика семинара

26-28 февраля в Подмосковье состоялся первый семинар Поисковые технологии. Мероприятие было рассчитано на профессионалов в области веб-поиска, извлечения и обработки данных. Зарегистрировались 92 специалиста из следующих компаний и ВУЗов: Яндекс, Google, Mail.ru, Рамблер, Нигма, Апорт, Мета, Ашманов и Партнеры, Поисковые технологии, LiveInternet, Бегун, SpyLog, Гарант, Диктум, корпорация "Галактика", Медиалогия, корпорация РБС, ЧТД, СКБ "Контур", Cognitive Technologies, Getlocker, WhileTrue, МАИ, МФТИ, НИВЦ МГУ, МИРЭА (ТУ), ОНУ им. И.И. Мечникова, ЭЛВИСТИ, Евразийский открытый институт и др. Приехали примерно 70.

Были заслушаны 14 докладов, презентации выложены на сайте. Поговорили на двух Круглых столах о будущем поиска и об измерении его качества. Полезное сочеталось и приятным - шашлык-машлык, глинтвейн кастрюлями и горные лыжи со сновбордами - каждый отдыхал в меру своих сил и потребностей.

Фотографии с семинара есть в альбомах Константина Рощупкина и Евгения Трофименко, Евгений также написал несколько комментариев к докладам. Размышлениями на тему правильно ли проводить такие мероприятия в закрытом формате поделилась Анна Макарова из SEONews.

Все выступления закончились обсуждениями, в каждом докладе хотелось что-то запомнить, отметить. Из первых отрывочных впечатлений понемногу стала складыватся общая картина.

На семинаре собрались Разработчики (с большой буквы), профессионалы, привыкшие к автоматизации всего и вся. Появилось ощущение, что столь сложная тема - поиск в Интернете - алгоритмически решаема. Разработчикам приходится иметь дело с такими реалиями как сотни миллионов пользователей, свободный язык запросов, разные форматы предоставления информации. Немыслимо даже представить, сколько существует разных ситуаций поиска, в которых машина обязана найти точный ответ. Но поначалу казалось, что для каждого хитрого случая обязательно должен найтись алгоритм с винтом. Докладчики рассказывали об алгоритмах определения типа запроса, определения темы документа, синтаксиса, извлечения данных, обнаружения нежелательного содержания в текстах и картинках, автоматического реферирования. И как мощный гимн идее алгоритмического подхода прозвучал доклад Андрея Гулина из Яндекса - "Максимизация вероятностных метрик ранжирования. Алгоритм MatrixNet".

MatrixNet - "генератор дорвеев" от Яндекса

К стыду своему, в самом выступлении какие-то мысли вызвали лишь три картинки: слайд с убойным монстром, озаглавленный "MatrixNET на страже ТОПa", симпатишная аниме-девочка с призывом задавать вопросы и футболка самого Андрея Гулина с текстом "ЫЫ =)". Остального я попросту не понял, поскольку таким языком математики не владею. Впоследствии один добрый человек разъяснил смысл доклада. Не уверен, что и разъяснение понял правильно, но версия сложилась - идея MatrixNet очень напоминает... дорогенератор.

Сравним. Представим дорвейщика, который предполагает, что ранжирование в поисковике зависит от набора факторов, каждый из которых может иметь несколько значений. Например, фактор "вес нужного ключевого слова на странице" может принимать значения от 0 до 100%. Дорвейщик не знает точно, все ли факторы имеются в наборе, зависят ли они друг от друга, каковы граничные значения спам-фильтров, правильно ли он определяет значения, все ли рассматриваемые факторы действительно влияют на ранжирование. В такой ситуации нет шансов, что созданный наугад один-единственный дорвей пробьется в топ по заданному ключевому слову. Поэтому применяется "статистический" подход. Программа генератор дорвеев создает десятки тысяч страниц, в которых значения факторов присутствуют в самых различных комбинациях. Если суметь заставить поисковик проиндексировать их, то комбинацию (набор факторов и их значения) страницы, которая сумела занять наилучшую позицию в выдаче, можно рассматривать как максимально подходящую для реального алгоритма поисковой машины. И дальнейшую работу строить с учетом данных, полученных таким вот экспериментальным путем - более точно дробить значения, добавлять новые факторы, исключать старые и проверять иные гипотезы о ранжировании. Данные для настройки алгоритма предоставляет сам поисковик: попал в топ - отлично, не попал - думай дальше.

Теперь представим разработчика поиска, у которого примерно та же задача - попасть выдачей по запросу в "топ" ожиданий максимального количества пользователей с таким запросом (на семинаре это называлось "найти, в чем оргазм пользвателя"): 100% пользователей считают, что выдача отличная - отлично; все говорят, что она плоха - думай дальше. Разработчик прекрасно понимает, что удовлетворенность пользователя не зависит напрямую от "веса ключевых слов", люди читают и смотрят, а не подсчитывают "веса". У разработчика нет возможности опросить все сотни миллионов пользователей с разными запросами к поиску об их ожиданиях, и о критериях, на основании которых они оценили выдачу. Поэтому, как и дорвейщик, он вынужден довольствоваться предположениями. Пользователь ввел запрос "дизайн" - можно предположить, что это слово должно быть на странице, которую спрашивающий сочтет хорошим ответом; значит, наличие слов запроса на странице можно считать фактором, который может принимать различные значения (1 слово, 2 слова... 50% от всех слов, 12% от слов в релевантных пассажах и т.п. - способы подсчета значений тоже могут быть самыми разными).

Факторов, от которых зависит оценка пользователем найденных сайтов и поиска... даже не возьмусь назвать цифру, их очень много. Это особенности текста, картинок, оформления, структуры сайта, соответствия поисковому запросу, цветовой гаммы, внешний вид результатов поиска, магнитные бури, пол, возраст, образование, социальное положение, информированность пользователя о предмете поиска, его настроение в момент поиска, важность поисковой задачи и т.п. Естественно, каждый фактор может принимать разные значения, и количество возможных комбинаций измеряется астрономическими цифрами. Какая комбинация окажется наиболее удачной, с точки зрения пользователей?

Логическим путем эту задачу не решить, но, как и дорвейщики, можно попробовать решить ее статистически.

Например, создать фокус-группу из нескольких тысяч человек и попытаться показать им для начала миллион-другой различных вариантов выдачи по какому-нибудь запросу, попросив определить лучший. Группа разбежится на первой же сотне. :0)

Шутка шуткой, но вопрос серьезнейший. Если для дорвейщика признаком удачной комбинации факторов является попадание в топ выдачи, то по какому признаку должен определять успех разработчик поиска?..

На этом месте моя возникшая в начале семинара надежда на самодостаточность алгоритмов в деле обеспечения качества поиска стала исчезать. Оказывается, в качестве образцов ("самплов") для настройки используется ручная разметка, выполненная асессорами поиска. Асессоры поставляют поток данных вида "запрос такой-то - URL, являющийся хорошим ответом на данный запрос". Соответственно, если разработчик поиска имеет, например, для одного запроса 10 URL'ов, объявленных асессорами "хорошими", описанная выше задача подбора оптимального набора факторов ранжирования решаема - это будет комбинация, при которой максимальное количество названных асессорами адресов окажется в топе.

Остальное уже дело техники. Естественно, чем больше у разработчика размеченных запросов, чем больше пар-соответствий "URL+запрос", тем точнее возможности настройки. MatrixNet - это дорген "платформа", алгоритм машинного обучения, способный автоматически настраивать формулу ранжирования Яндекса на основании данных ручной асессорской разметки по обучающей выборке.

Что особенно важно, MatrixNet - алгоритм универсальный. Поясню. Для разных задач поиска лучшая комбинация факторов ранжирования может быть различной. Например, в поиске документа по цитате решающее значение имеет наличие полной цитаты текста запроса на искомой странице, а качество навигационного поиска лучше всего обеспечивают внешние ссылки. Поэтому, если существует возможность автоматически определить тип запроса для отдельно взятой поисковой задачи, MatrixNet позволяет очень быстро улучшить качество результатов поиска именно в этой области, не затрагивая остальные. Для этого нужно всего лишь выполнить асессорскую разметку для обучающей выборки запросов данного типа, запустить MatrixNet, после чего найденную формулу можно применять ко всем таким запросам. А методы автоопределения различных типов запросов - существуют, на семинаре об исследованиях Рамблера в этом направлении рассказала в своем докладе Марина Хоруженко.

Универсальность MatrixNet проявляется еще и в том, что с его помощью можно изучать влияние на ранжирование, в принципе, любых поддающихся измерению данных. Можно выяснить, зависит ли качество поиска от цвета фона страницы, от фаз луны, от программы телепередач на неделю и т.п. Математики и программисты свое дело сделали, создали систему автоматической настройки поисковой выдачи на мнения профессиональных оценщиков - асессоров. Дальше - дело за людьми. При таком подходе плохой результат поиска может быть объяснен одной из трех возможных причин: а) не определен или неверно определен тип запроса, б) для данного типа нет размеченной асессорами обучающей выборки в) выборка есть, но проблема в методике асессорской оценки. Для прочувствования этой проблемы попробуйте представить себя асессором и подобрать по 10 "хороших" адресов для обучения алгоритма выдачи по нечетким информационным запросам, таким как дизайн, технологии, литература, машиностроение, интернет, человек, окна, геркулес, почта, школа и т.п.

Интересное замечание о наличии явного разделения "программистских" и "пользовательских" проблем в деле обеспечения качества поиска можно найти в блоге заместителя департамента разработки Яндекса Анатолия Орлова. Цитирую.

Во второй день был более внятный круглый стол про оценку качества поиска, где спалили кучу тем. На самом деле, imho, весь прогресс поисковиков именно в оценке качества поиска, после того как ты знаешь как померять качество, ты обычно уже знаешь, что надо сделать, чтобы его улучшить. Т.е. у современных поисковиков проблема не столько в решении задач сколько в их постановке.

Станет ли тайное явным?

Получается, качество выдачи зависит не от каких-то "объективных", "независимых" факторов, оно полностью определяется составом асессорской группы, постановкой задач оценки, методикой подготовки асессоров и системой контроля за ними. Иными словами, соответствуют ли оценки людей, получающих деньги за эту работу, мнениям настоящих пользователей о результатах поиска?..

Вопрос этот очень интересный. Прежде всего, странно, почему работа асессоров столь секретна? Понятно, что имена и зарплаты не могут быть темой для широкого обсуждения, но почему тайной является методика оценки хороших сайтов и соответствий поисковым запросам? Мнение асессоров должно быть максимально близким к мнению обычных пользователей, а что запретного в критериях пользовательской оценки?.. Как сказано выше, люди не меряют сайты такими техническими категориями, как веса ключевых слов, количество входящих-исходящих ссылок etc.

Тем не менее, завеса секретности в теме оценки качества поиска пока не снята. Возможно, причина чисто эволюционная, поисковики, судя по словам Орлова, еще только начинают задумываться о том, "как померять качество". Мало идей, нет теории, несовершенство методик, сильна еще привычка к слову "релевантность", самому грубому инструменту.

На семинаре был поднят вопрос о создании общепринятой системы сравнения поисковых машин по качеству поиска и были заявлены основные принципы такой системы:

  • использование для оценки открытых, легко проверяемых данных;
  • использование открытых методик;
  • наличие процедуры выбора решения по спорным вопросам.

Спорных вопросов в деле оценки ресурсов и их соответствия поисковым запросам очень много. И, честно говоря, сложно понять, как можно пытаться решить вопрос о качестве поиска для пользователей, не имея открытой, прозрачной методики изучения их мнений. Это позволяет надеяться, что в будущем информация о деятельности асессоров по разметке ресурсов для обучающих выборок станет все же доступной для изучения и обсуждения.

Вопреки поговорке о первом блине, семинар прошел очень хорошо. Участники разъезжались с новыми идеями, контактами. Надеемся, встречи в таком формате будут продолжены.

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем. См. подсказку "О чем можно и нужно писать в редакцию"

Подписаться на рассылку "Проблемы качества поиска" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003—2009 «Ашманов и Партнеры»
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры