
|

|  | О моделировании поисковой выдачи | 
|
Запрос на услуги по продвижению сайтов
Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.
* поля обязательные для заполнения ** заполните хотя бы одно из полей
|
|
Выпуск 11. О моделировании поисковой выдачи
Проблемы качества поиска
== выпуск 11 ==
|
|
 |
 |
|
 |
МОДЕЛИРОВАНИЕ ВЫДАЧИ
нужны пять смертников добровольцев
|
|
 |
|
 |
ОТ РЕДАКТОРА |
|
С прошедшим первым апреля вас, уважаемые подписчики! Поисковики в этот день шутят обязательно. Яндекс сменил логотип и, наряду со ссылками на поиски Google, MSN, Рамблера и Яндекс.Каталога, предлагает по всем запросам поискать в новой поисковой системе "Гоголь". А Google анонсировал не более, не менее как первую в мире Когнитивную Эвристическую Распределённую Систему (CADIE), которая вот-вот произведет революцию в технологиях анализа потока запросов.
Идея, кстати, здравая: "CADIE... подсказывает, как лучше изменить формулировку запроса для получения более релевантных результатов поиска." Вот, например, как это реализовано в Нейроне: подсказки справа - это именно формулировки запросов, использовав которые, можно получить гарантированно хороший результат. Поиск в этих подсказках ведется привычно, по ключевым словам.
* * *
Roem.ru опубликовал статью "Качество поиска в перспективе", которую я вообще-то писал не к первоапрельской дате. :0) Но так уж вышло. В ней выдвинуты три гипотезы о причинах, по которым поисковые системы пока не могут кардинально улучшить качество поиска. Последняя выглядит так.
Гипотеза третья
Поисковым машинам вряд ли удастся принципиально улучшить ситуацию с качеством поиска по нечетким информационным запросам без диалога с профессиональным сообществом, активно влияющим на выдачу. Суть диалога - обсуждение не темы "качества сайтов", а темы качества выдачи по запросам разных типов.
Нет смысла обсуждать, сколько исходящих ссылок должно быть на странице, каков максимальный процент ключевых слов, какую площадь на веб-странице можно использовать под PPC-рекламу и т.п. Обсуждать нужно простой вопрос, который уже много лет не решаются четко поставить ни поисковики, ни представители околопоискового бизнеса: кто, по какому запросу и почему имеет право находиться в поисковой выдаче.
Сегодняшняя статья посвящена как раз подходу к проблеме "кто, по какому запросу и почему". Собственно, это и не статья даже, а объявление о наборе добровольцев.
|
|
 |
О МОДЕЛИРОВАНИИ ПОИСКОВОЙ ВЫДАЧИ - Андрей Иванов |
|
Вначале необходимо показать, что такое "моделирование поисковой выдачи". Обратимся к старому примеру. Запрос "рассказы", первая страница выдачи, сравниваем три поисковика:
- Яндекс - 8 ссылок на порно, 1 на Википедию и 1 на воспоминания летчика афганской войны;
- Google - 6 ссылок на эротические рассказы, 2 на литературные извращения Елены Беловой, 1 на раздел "Рассказы и пародии" Яндекс.Каталога, 1 на библиотеку фантастических рассказов;
- Нейрон - авторы, представленные на первой странице: Веллер, Конан-Дойль, Пелевин, Толстой, Черный, Лесков, Бунин, Успенский, Чехов, Мамин-Сибиряк, Житков, Хэмингуэй, Лондон, Довлатов, Твен, Тургенев, Честертон, Кинг, Ильф и Петров, Гашек, Гиляровский, Шукшин, Кристи, Жолковский, Копейкина, Березин, Турнье. Жанры, представленные на первой странице: эротические рассказы (куда ж без них), фантастические рассказы, рассказы современных писателей, русская классика, рассказы для детей, ужасы, рассказы о войне.
Разница видна невооруженным взглядом.
История этого примера. Я увидел, что выдача в больших поисковиках по данному запросу, к сожалению, слишком уж далека от идеала и попытался в Нейроне сделать лучший вариант, вручную создал модель "как бы оно могло было быть". Основой послужило предположение, что жанр рассказа немыслим без признанных авторов, т.е. в выдаче должны быть фамилии известных писателей-рассказчиков. Дальше поиск и отбор страниц, и формирование средствами Нейрона такой вот выдачи.
Вариант, конечно, далеко не единственно возможный. Но:
- он значительно лучше вариантов, предложенных поисковыми машинами;
- это хороший пример результата совместных усилий человека и программы, все выбранные ссылки найдены с помощью тех же Яндекса и Google.
Чем может быть полезно такое моделирование. Во-первых, для оценки поисковых машин. "Идеальным алгоритмом ранжирования считается тот, для которого выводы, сделанные системой, согласуются с мнением оценивающих экспертов" (см. "Парадоксы релевантности"). В нашем случае экспертам, собственно, и оценивать-то нечего: порно в Яндексе против эротики в Гугле, есть Википедия в Яндексе - нет ее в Гугле, фантастика в Гугле - воспоминания летчика в Яндексе. Сравнение с моделью может дать намного лучшие результаты, можно, например, сравнить количество упомянутых авторов и жанров в выдаче. Для таких оценок иметь созданные экспертами модели - необходимо, автоматически идеальные результаты поиска пока не получаются. Такие модели используются в тематическом анализаторе качества поисковых машин компании "Ашманов и Партнеры".
Во-вторых, для изучения принципов моделирования. В основе любой модели всегда лежит какая-то идея. Как видим, в "рассказах" это идея связи рассказа и автора. Но для моделирования выдачи по другим запросам, например, "дизайн", "природа", "бизнес", "шарикоподшипники" и т.п. идея "авторов" уже не годится, нужны какие-то иные. Человек без особого труда может такие идеи найти, это и есть мышление. Но есть ли в идеях выдачи на разные вопросы что-то общее, что именно, можно ли это использовать для автоматизации - вот интереснейшая задача для изучения.
В-третьих, для настройки реальной выдачи поисковых систем. Экспертное мнение вполне может являться дополнительным трастовым фактором. Возможно, лучшим, чем ссылочное ранжирование - контролировать качество работы экспертов намного проще, чем пытаться определить "естественность" передающих вес ссылок.
Сегодня экспертные мнения напрямую на выдачу по конкретному запросу не влияют, но причины этого не в принципиальном отказе поисковиков от такой возможности, а в отсутствии этой возможности: нет сегодня ни в Рунете, ни в других странах сложившегося сообщества экспертов, чья деятельность бесспорно полезна для улучшения качества поиска. Подробнее на темы почему, как, реально-нереально, кто друзья и кто враги, где тут деньги, подводных камнях, развитии и следствиях мы будем говорить позже и не раз. Сейчас речь о другом.
Поисковые системы заинтересованы в создании сообщества экспертов по поиску, этот вопрос обсуждался с Google. Такое сообщество - не некая "социальная сеть" для приятного времяпровождения, где люди обмениваются фотками, "камментами", эмоциями, ищут друг у друга работу, дружатся, ссорятся и т.п. В отличие от большинства социальных сетей, это сообщество должно иметь задачу. Задача: обсуждение качества поиска и поиск решений по его улучшению. Эксперт должен уметь: а) обнаружить проблему в выдаче по запросу, б) предложить решение, свою модель выдачи, лучшую, чем сегодня обеспечивают поисковые машины.
Естественный вопрос: а судьи кто, кто будет решать - лучше или хуже предложенный экспертом вариант? Ответ: в качестве арбитров выступят специалисты поисковых систем.
Теперь собственно объявление: нужны добровольцы для эксперимента по моделированию выдачи. Кто хочет принять участие, отправьте, пожалуйста, письмо с заголовком YA_EXPERT на адрес subscribe@ashmanov.com. Остальное уже в личной переписке.
|
|
 |
КОММЕНТАРИИ: НУЖНА ЛИ ВЕБ-МАСТЕРАМ ИНСТРУКЦИЯ ДЛЯ АСЕССОРОВ |
|
Вопрос
Должны ли нормативные документы поисковых систем, касающиеся оценки качества сайтов, быть недоступными для веб-мастеров? См. историю вопроса.
Михаил Костин, Gogo
На самом деле, поисковые системы не скрывают информацию о том, какие сайты они считают качественными, а какие нет, наоборот, постоянно стараются об этом рассказывать. Но публиковать с этой целью внутреннюю инструкцию для асессоров было бы странно - у нее другое назначение, и она не подходит для использования в качестве справочника веб-мастера.
Интерес к такой инструкции со стороны SEO-специалистов связан, я думаю, все же не с недостатком информации о том, что поисковики считают качественным сайтом. Скорее, с тем, что из нее можно попытаться извлечь какую-то информацию о внутренней кухне поисковиков, о том, как трактуются какие-то пограничные ситуации, на что особо обращается внимание асессоров и т.п. В предоставлении оптими-заторам такой информации поисковики, естественно, не очень заинтересованы - хотя чего-то особо секретного в подобных инструкциях и нет.
Оксана Команеску, Google
Мне кажется, Google предоставляет достаточно информации о том что, по нашему мнению, является качественным сайтом. Также, мы стараемся как можно более открыто подходить к вопросам поискового спама. На данный момент в справочном центре Google, помимо общих "Рекомендаций по обеспечению качества" можно найти более подробные статьи о нашем отношении к аффилированным сайтам, повторяющемуся содержанию, дорвеям, платным ссылкам и т.п. У всех наших рекомендации одна общая простая идея - делайте такие сайты, какие вам бы понравилось находить самому. Также, в нашем центре можно найти информацию, как сделать сайт удобным для пользователей и поисковых машин. Специально для веб-мастеров мы создали "Руководство по поисковой оптимизации для начинающих" - краткое пособие по улучшению процесса сканирования и индексирования сайта роботами поисковых машин. Руководство охватывает около десятка общих областей (например, правильное использование релевантных мета-тегов, оптимальная URL структура, навигация по сайту, создание контента, anchor текст ссылки и т.д.) и, надеемся, окажется полезной для веб-мастеров всех уровней. Хочется заметить, для того чтобы сделать сайт пригодным для индексации поисковыми машинами не нужно никаких дополнительных ухищрений. Наши правила следуют общим стандартам Консорциума W3C. Кому интересно узнать более подробную информацию о позиционировании сайта в индексе Google, мы предлагаем воспользоваться бесплатными инструментами для веб-мастеров.
По моему, не существует никакого секрета, как выглядит хороший, качественный сайт. Вероятность, что Евгений хочет сделать качественный сайт, а в итоге "случайно" получится дорвей с платными ссылками, наверное, равна нулю. Мне кажется Евгений переплатил за уже доступную всем информацию :), и я даже не хочу затрагивать моральный аспект проблемы покупки/продажи служебных документов. Надежда, что служебная инструкция позволит избежать негативных эффектов "черной" оптимизации так же не оправдана - методы борьбы с спамом постоянно совершенствуются, чтобы обеспечить наших пользователей качественным поиском.
Я воспользуюсь рассылкой и спрошу веб-мастеров, участвующих в дискуссии: какую дополнительную информацию вы хотите видеть в нашем справочном центре?
Пожелания для Google, пожалуйста, отправляйте по адресу subscribe@ashmanov.com с заголовком письма FOR_GOOGLE
|
|
 |
ИЗ ПЕРЕПИСКИ: ИДЕИ, ПРОБЛЕМЫ, КРИТИКА... |
|
Павел Абрамов: Как мне кажется, попытки любой стандартизации сайтов призваны облегчить задачу
поисковикам, но не улучшить качество поиска. А недоступность нормативных документов для веб-мастеров вообще ставит проблему качества поиска в тупик.
* * *
Компания "Айкон": Считаю, что такая инструкция необходима. Причём, как для веб-мастеров, так и для их заказчиков. Потому что часто заказчики не знают, а веб-мастера не хотят советовать, как сделать качественный сайт. И получается в итоге не сайт, а, что называется, "тушите свет". Очень было б хорошо ссылку на такую инструкцию поместить в каком-нибудь общеизвестном месте. Например, в том же Яндексе, на странице результатов поиска по запросу "разработка сайтов". И в любой другой поисковой системе ссылка на такую инструкцию тоже будет полезна.
* * *
Андрей: Однозначно - нет. Полная аналогия с вирусами и антивирусами: если все будут знать уровень технологий, принципы выявления вирусов и троянов того же Касперского или Доктора Вэба - это облегчит работу вирусописак - в нашем случае "чёрных" seo-шников. А пока последние "на коне" - набрал в Яндексе поиск "хоккей статистика ссср" и получил в самом верху (!!!) крутое порно.
* * *
Николай Калашников: Все понимают, что такое "идеальный качественный" сайт: это сайт с уникальной информацией, где текст написан
литературным русским языком. Более-менее понятно и с "идеально некачественным" сайтом: это сайт с повторяющимися ключевыми словами, либо сайт
написанный генератором текстов, либо сайт, где все материалы позаимствованы с других ресурсов. (В последнее время к "идеально некачественным" прибавились ещё и сайты с кучей ссылок на внешние сайты.)
Но если я, к примеру, увлекаюсь творчеством Пушкина и хочу сделать сайт о нём - стоит ли вообще браться за это? Ведь никаких новых фактов я не открою, значит я буду пересказывать то, что где-то прочёл - а это уже плагиат, за
который полагается бан. Получается, что новый сайт о Пушкине может быть "качественным", только если на нём не будет повтора опубликованных
ранее сведений о поэте? Т.е. если я пишу абсолютную околесицу литературным русским языком - это будет качественный сайт, а если привожу исторические проверенные факты - это будет "некачественный"?
P.S. Хотя, положа руку на сердце, в последнее время вопрос "как отличить качественный сайт от некачественного"
подменяется вопросом: "как замаскировать чужой стыренный текст, что бы поисковик его пропустил" :-)
|
|
 |
ВЕСЕЛАЯ РЕТРОСПЕКТИВА |
|
Проблемы кластеризации
Новый рисунок Валентина Дубинина - к статье Кластеризация as is
"Но прежде чем решать с помощью кластеризации проблемы качества поиска, нужно решить проблему самой кластеризации - по какому "тому или иному" признаку группировать найденные по запросу результаты поиска и каким образом это делать." Посмотреть >>
|
|
 |
ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ |
|
|
 |
АРХИВ РАССЫЛКИ
Copyright © 2003—2009 «Ашманов и Партнеры»
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe
|
 |
|
|

|