Поисковая оптимизация
и продвижение сайтов в Интернете

Статьи и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Анализатор омонимов

Об отношении [запросы/переходы] в поисковых системах

О релевантности дополнений Яндекса и Google

Метапоиск в браузере

Люди и алгоритмы. Поисковые технологии - 2010

Два подхода к геотаргетингу в SERP

Омонимия и полисемия в результатах поиска

Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"

Дублирующие ссылки в выдаче

Порнография как объект поиска

Поисковый спам - примеры плохих идей

Коэффициент дублирования

Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи

Кластеризация as is

Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен


Проблема выбора экспертов


Предисловие ненаписанной книги



Ежегодная конференция Internet Business Conference Russia 2014

Ежегодная конференция для бизнеса IBC Russia 2014 пройдет в Москве 27-28 ноября.
В программе конференции три потока: веб-технологии для бизнеса, интернет-реклама и digital-стратегии, поисковая оптимизация и продвижение. Впервые на конференции добавлены практикумы для выполнения практических заданий!

Успейте зарегистрироваться до повышения стоимости!


Запрос на услуги по продвижению сайтов

Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.

* — поля обязательные для заполнения
** — заполните хотя бы одно из полей

ГлавнаяРассылка о поискеПроблема выбора экспертов

Выпуск 2. Проблема выбора экспертов

Проблемы
качества поиска
== выпуск 02 ==


  АШМАНОВ и ПАРТНЕРЫ

ПРОБЛЕМА ВЫБОРА ЭКСПЕРТОВ
для обеспечения качества поиска

От редактора
Проблема выбора экспертов для обеспечения качества поиска
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

Добрый день. Спасибо за подписку на новую рассылку. Читателей выпуска около четырехсот человек, можно спокойно поговорить в узком кругу на тему зачем "мы здесь сегодня собрались".

У каждого из нас собственное представление, как должны выглядеть хорошие результаты поиска, и любимые вопросы для проверки качества работы поисковых систем. Я пользуюсь определением Гари Флэйка:

Если бы веб-поиск был совершенен, он бы выдавал ответ на каждый запрос, и это происходило бы так, будто на вопрос отвечает умнейший человек в мире, у которого есть под рукой вся справочная информация, и все это выполняется меньше, чем за мгновение. Другими словами, поисковик был бы ... таким умным, что если правильный ответ теоретически может быть найден в стремящихся к бесконечности ресурсах, он бы нашел его. Если бы верного ответа не существовало, тогда ... выдавал наиболее близкий по смыслу ответ, или даже объяснение, почему ваш запрос не может получить идеальных результатов.

А в качестве лакмусовой бумажки первым обычно ввожу запрос рассказы. В эту минуту Яндексом найдено 181 000 000 страниц (!), на первом экране видны семь. Почти все они по странному совпадению оказались ссылками на сайты с низкопробными порнотекстами. В Google та же картина. Результат, к сожалению, даже близко не соответствует образу "умнейшего человека, у которого под рукой вся справочная информация".


Готовы ко внеклассному чтению?!.

Иллюстрация Максима Каткова - SEO в картинках


Мы все знаем, почему это произошло. Но, несмотря на то, что подобная выдача сформирована не вчера и даже не в прошлом году, и пример далеко не единственный, до сих пор ничего не меняется к лучшему. Может быть, это очень сложный запрос, и даже представить невозможно, что, кроме порнухи, могло бы быть в выдаче по "рассказам"? Вряд ли. Может ли кто-нибудь из нас посоветовать, какие авторы, произведения, страницы и сайты более уместны в ответ на данный запрос? Все могут, у нормального образованного человека слово "рассказы" ассоциируется совсем с другими текстами. Могут ли разработчики поиска Яндекса и Гугла прислушаться к нашему мнению и улучшить свои результаты поиска? Да, могут. При выполнении двух условий:

  • если мы докажем, что нашему мнению в этом вопросе стоит доверять;
  • если будет создан механизм учета этого мнения.

Вот это и является нашей с вами задачей - создать экспериментальный экспертный поисковик как механизм шлифовки качества результатов машинного поиска. Практика интереснее теории, в ходе работы с проблемами качества поиска мы будем сталкиваться на каждом шагу.

Такое заявление нуждается в паре комментариев.

  • Слова "наша задача" не подразумевают какую-либо обязанность для подписчика. Когда дойдет до дела, каждый желающий сможет попробовать сформировать свой собственный кусочек поискового индекса и посмотреть, как его данные сочетаются с данными других экспертов. Если же кто хочет просто наблюдать за процессом, читая материалы рассылки, - добро пожаловать. Станет скучно - отписка производится по первому требованию.
  • Слова "экспертный поисковик" подразумевают поисковый сервис, который выдает пользователям намного лучшие результаты поиска, чем это могут сделать Яндекс, Google и др. машинные поисковики. О подходе и критериях сравнения поговорим чуть позже.

Необходимо также определиться, что именно мы имеем в виду, говоря "поиск" (сетевой поиск, поиск в интернете и т.п.) и "экспертный поиск". Сетевой поиск - это услуга, которую оказывают пользователям компании, владеющие поисковыми сервисами. Это определение должно подчеркнуть отличие нашей точки зрения от понимания "сетевого поиска" как-то иначе, например, как совокупности технологий извлечения и обработки информации из интернета. В первом случае акцент делается на удовлетворенность пользователя результатами оказанной услуги поиска в отрыве от способа их получения. Во втором - на технологии, сервера, алгоритмы,.. т.е. именно на способы. Экспертный поиск - поиск, обеспечиваемый благодаря работе сообщества экспертов. А эксперт - живой человек с разумом и душой, как и любой из нас.

Тема большая, она не может быть изложена в двух-трех статьях, проблем для обсуждения десятки. Начнем.

* * *

Принято думать, что Большой Поиск Яндекса, Google, Gogo, Рамблера, LiveSearch и др. поисковых машин обеспечивается "роботами", и вмешательство каких-то людей, кроме разработчиков, в деятельность роботов может привести лишь к негативным последствиям. Это не совсем верно.

Проблема выбора экспертов для обеспечения качества поиска - Андрей Иванов

На семинарах компании "Ашманов и Партнеры" я читаю доклад о спамдексинге, рассматривая это явление не как случайные происки безответственных злодеев, а как одно из направлений естественной эволюции бизнеса по продвижению сайтов. Собственно, нет ни одного признанного спам-приема, который в свое время не был представлен аудитории как наиновейший и эффективный метод раскрутки.

Историю развития поисковых технологий можно представить как постоянную борьбу "меча" и "щита". Мечами вооружены веб-мастера, не желающие соблюдать лицензии поисковых машин, а разработчики этих машин постоянно совершенствуют щит, систему обороны поиска от действий плохих парней. Однако ту же самую историю несложно показать как постоянный поиск разработчиками парней хороших, действия которых можно и нужно использовать для улучшения работы поисковиков. Но если с плохими парнями все ясно - это спамеры, "чорные", "серые", "зеленые" и др. не отмытые добела оптимизаторы - то кто же такие хорошие парни?..

Они на виду. Самая многочисленная группа людей, чьи мнения были положены в основу современного поиска, конечно же, веб-мастера... в доссылочную эпоху. Помните, надеюсь:

Когда Гугл был лишь крохотным Гугленком в подгузниках, можно было с уверенностью сказать, что ссылка была точным признаком рекомендации...
Как только вы создадите поисковую машину, которая рассматривает ссылки как рекомендации, люди начнут пытаться воздействовать на ссылки. Как только они станут воздействовать на них, ссылки перестанут быть рекомендациями...
(см. К.Райдингс Растолкованный PageRank, пер. с англ. и комментарии А. Садовского, 04.01.2002)

Осознав роль ссылок в ранжировании, хорошие люди в строгом соответствии с приведенным выше прогнозом "начали пытаться воздействовать", тем самым переведя себя в разряд плохих. А разработчикам пришлось искать новую группу хороших. Нашли.

Краткое описание TrustRank

В работе [2] (Z. Gyongyi, H. Garcia-Molina, J. Pedersen. Combating web spam with TrustRank. In Proceedings of the 30th International Conference on Very Large Data Bases (VLDB), p. 271-279, Toronto, Canada, Sept. 2004.) в качестве альтернативы PageRank предлагается другой метод вычисления ссылочного веса страниц Интернет. Этот метод, именуемый TrustRank, имеет то преимущество над PageRank, что при его использовании спамные страницы получают пониженный вес по сравнению с нормальными страницами.

TrustRank вычисляется точно так же, как PageRank. Отличие в следующем. Множество страниц разбивается на 2 класса - хорошие, т.е. не являющиеся поисковым спамом, и все остальные. На 1-й итерации хорошим страницам присваивается ненулевой начальный вес PR0=1/Ng, где Ng - число хороших страниц. Для остальных страниц начальный вес устанавливается равным 0. Далее TrustRank вычисляется точно так же, как PageRank...

Хорошие сайты, которым пользователи доверяют (отсюда и название TrustRank), не содержат поискового спама и редко ссылаются на спамные сайты. Поэтому при использовании TrustRank повышенный ссылочный вес получают страницы с таких хороших сайтов, а также те страницы, на которые они ссылаются...

Множество хороших сайтов предлагается отбирать из известных, вручную составляемых каталогов типа Open Directory Project...
(см. Н.Харин "Комбинированный метод ссылочного ранжирования в поисковой машине Интернет")

Как видим, для улучшения поиска из общей массы сайтов и ссылок разработчики поиска выделили группу по четкому экспертному признаку: "не содержат поискового спама и редко ссылаются на спамные сайты... отобранные из известных, вручную составляемых каталогов." В качестве экспертов в данном случае были признаны редакторы каталога, в обязанность которых входит умение отличать хорошие сайты от плохих.

Стоит отметить, что в хорошие каталоги автоматически, без проверки редактором не попадает ни один сайт. Т.е. в редакторах каталога мы видим некую группу людей, чьи "субъективные" действия (отбор сайтов, контроль, разнесение по тематическим рубрикам) во-многом определяют ранжирование в "объективной" поисковой машине. Принцип создания такой экспертной группы и алгоритм ее использования у каждого поисковика был собственный, но все поисковые системы пошли по этому пути:

  • в ODP Google редакторы работали на общественных началах, наличие в каталоге придавало сайту повышенный вес при расчете веса для ранжирования;
  • в Яндексе собственная штатная служба каталога, три наиболее цитируемых каталожных ссылки показывались в результатах поиска по запросу при условии совпадения слов запроса со словами описания (отменено), данные каталога используются для расчета веса при ранжировании, для формирования результатов при региональном поиске. По словам сотрудников Яндекса, каталог и был создан как "подпорка для поиска";
  • в Рамблере ранжирование в каталоге-рейтинге Rambler's Top100 осуществляется по убыванию посещаемости проекта, модераторы штатные, в результаты поиска подмешивались до пяти ссылок на сайты из RT100 (в явном виде отменено). Добавление "примеси" было сделано по распоряжению Игоря Ашманова с целью быстрого улучшения качества поиска Рамблера;
  • в Апорте данные о сайте, внесенном в собственный каталог (редакторы штатные) использовались для определения квоты индексации данного сайта. (см. С. Людкевич, Е. Есипов "Основные факторы, влияющие на релевантность п.4 Влияние собственных ресурсов поисковых машин").

Каталоги далеко не последний шаг в попытках создания экспертных групп для улучшения результатов поиска. Вот еще примеры.

В Яндексе, наряду с командой каталога, существует собственная служба асессоров. Асессоры - по слухам, их количество достигает 500 человек - это люди, прошедшие специальную подготовку с целью научиться отличать хорошие сайты от плохих и оценивать релевантность любой ссылки для запроса, по которому она найдена. Задача этой экспертной группы та же - улучшение результатов поиска, на основании оценок асессоров разработчики настраивают алгоритм ранжирования.

Летом 2008 года в результаты поиска Google стали добавляться ссылки на собственный сервис "Вопросы и Ответы" в случае полного или частичного совпадения поискового запроса и заголовка вопроса. Это не удивительно, содержимое ВиО-сервисов Google и Mail.Ru индексируется поисковыми машинами как и обычные форумы. Удивительна скорость добавления: ссылка в большом поиске появляется через несколько минут после появления вопроса в ВиО, в то самое время, когда появляются первые ответы людей на данный вопрос. При этом чем меньше время между вопросом в ВиО и соответствующим ему запросом в поиск, тем выше ранжируется ссылка на социальный сервис. Налицо попытка улучшить результат поиска, предложив пользователю не только ссылки на "стремящиеся к бесконечности ресурсы", но и живую аудиторию, для которой данный вопрос актуален именно в настоящий момент.

Компания Mail.Ru тоже постоянно экспериментирует в попытках использовать данные своего сервиса социального поиска Ответы@Mail.Ru в поисковой выдаче.

В конце ноября 2008 года Google реализовал для каждого зарегистрированного пользователя возможность самостоятельно формировать результаты поиска, добавлять нужные ссылки, а также повышать и понижать ссылки в существующей выдаче (технология WikiSearch). Читаем отрывок из интервью вице-президента и менеджера по продуктам Google Марио Коэйроса:

Людмила Кудрявцева: - В общем, вы превратили поиск в сервис закладок.
Марио Коэйрос: - Да, некоторые люди именно так и будут его использовать, может быть.
Людмила Кудрявцева: - Персонализация поисковых результатов при помощи WikiSearch помогает настраивать поисковую выдачу только для себя. Но влияет ли каким-то образом оценка пользователями сайтов на глобальное ранжирование, на общий, а не персональный поиск?
Марио Коэйрос: - Да, то, как пользователи оценивают сайт, учитывается при его ранжировании. Мы учитываем в ранжировании сайтов огромное количество факторов, по сложной формуле, и информация, полученная от пользователей, занимает среди них свое место. И клики пользователей по сайтам в выдаче тоже учитываются...

Количество экспертных групп, мнения и действия которых поисковые системы пытаются использовать для улучшения результатов, постоянно увеличивается: веб-мастера, редакторы каталогов, асессоры, пользователи вопрос-ответных сервисов, пользователи, зарегистрированные на портале и даже просто пользователи поиска. Предположительно, такой же экспертной группой являются авторы Википедии; с некоторых пор ссылки на вики-страницы стабильно занимают место в Тор10 по запросам, полностью или частично совпадающим с названиями словарных статей. С одной стороны, это можно попытаться объяснить исключительной "оптимизированностью" и популярностью проекта. С другой, сознательным искусственным завышением разработчиками ранга этого ресурса с целью улучшения качества поиска - наличие ссылки на Википедию обычно улучшает выдачу.

Очевидно, хороших парней много, и разработчики постоянно пытаются найти новых, с помощью которых можно еще более улучшить поиск. В этом и заключается проблема выбора экспертов в поисковых технологиях: как определить, мнения и действия каких людей можно учитывать для улучшения качества поиска, а каких нельзя. Зная цели и методы спамеров и специалистов по продвижению, несложно догадаться, что это весьма непростая проблема.

Представим, что мы, читатели рассылки, являемся новой экспертной группой, задача которой - сделать русский поиск лучше. Чтобы представить ситуацию, в которой придется работать, в следующем выпуске поговорим о двух парадигмах поисковых технологий.

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем.

Подписаться на рассылку "Экспертный поиск" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003-2009 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры