Поисковая оптимизация
и продвижение сайтов в Интернете

Статьи и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Анализатор омонимов

Об отношении [запросы/переходы] в поисковых системах

О релевантности дополнений Яндекса и Google

Метапоиск в браузере

Люди и алгоритмы. Поисковые технологии - 2010

Два подхода к геотаргетингу в SERP

Омонимия и полисемия в результатах поиска

Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"

Дублирующие ссылки в выдаче

Порнография как объект поиска

Поисковый спам - примеры плохих идей

Коэффициент дублирования

Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи


Кластеризация as is


Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен

Проблема выбора экспертов

Предисловие ненаписанной книги



Ежегодная конференция Internet Business Conference Russia 2014

Ежегодная конференция для бизнеса IBC Russia 2014 пройдет в Москве 27-28 ноября.
В программе конференции три потока: веб-технологии для бизнеса, интернет-реклама и digital-стратегии, поисковая оптимизация и продвижение. Впервые на конференции добавлены практикумы для выполнения практических заданий!

Успейте зарегистрироваться до повышения стоимости!


Запрос на услуги по продвижению сайтов

Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.

* — поля обязательные для заполнения
** — заполните хотя бы одно из полей

ГлавнаяРассылка о поискеКластеризация as is

Выпуск 10. Кластеризация as is

Проблемы качества поиска
== выпуск 10 ==


  АШМАНОВ и ПАРТНЕРЫ

КЛАСТЕРИЗАЦИЯ AS IS

От редактора
Кластеризация as is
"Русская литература" или выдача по первоосновам
Из переписки: идеи, проблемы, критика...
Веселая ретроспектива - Борьба за Тор10
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

19 марта известный SEO-специалист Евгений Трофименко предложил от $1000 любому сотруднику Яндекса за должностное преступление - продажу служебной инструкции для асессоров поиска. Через 4 часа предложение было снято, видимо, кто-то продал. В качестве обоснования Евгений написал:

Я хочу уметь делать качественные сайты. А в инструкции написано, какие сайты качественные, а какие - нет. Так что реального секрета здесь быть не может, по крайней мере, вреда в этом нет. А сайты будут в интернете гораздо качественнее.

Комментировать не берусь, факт эпатажный, но сама проблема интересна - должны ли нормативные документы поисковых систем, касающиеся оценки качества сайтов, быть недоступными для веб-мастеров?

Надеюсь, разработчики поиска смогут ответить на этот вопрос, но хочется узнать мнение и самих веб-мастеров. Хорошо ли вы понимаете отличия качественной веб-страницы (сайта) от некачественной или для этого было бы полезно почитать инструкцию для асессоров?

Напишите, пожалуйста, об этом по адресу subscribe@ashmanov.com. Лучшие замечания будут опубликованы.

КЛАСТЕРИЗАЦИЯ AS IS - Андрей Иванов

И хотелось бы писать проще, да куда уж... "Релевантность", "транзакционность", "ранжирование", "пертинентность", дошла вот очередь до "кластеризации". Обратимся к определениям.

Кластер - класс родственных элементов статистической совокупности.
(Cловарь по естественным наукам)

Кластеризация результатов поиска - группировка результатов поиска в поисковой системе по тому или иному признаку с целью сделать результат поиска более удобным. Например, в корпусной лингвистике при поиске по достаточно большому корпусу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Эту проблему призвана решить кластеризация.
(Википедия)

Вики-определение, как обычно, грешит некоей "незавершенностью", но понять несложно. Сотни и даже тысячи, и даже десятки и сотни тысяч результатов поиска можно разделить на "классы родственных элементов" и показывать в результатах поиска не ссылки на отдельные веб-страницы, а ссылки на группы веб-страниц. Внутри каждой группы страницы (сайты) всегда более-менее одинаковы, любые две страницы (сайта) из разных групп всегда различны. Решаемая кластеризацией проблема очевидна: если пользователю хочется просматривать только страницы определенного типа, не тратя времени на просмотр остальных, он имеет возможность сразу же выбрать нужную группу (кластер). Время поиска при этом сокращается в разы, качество в разы возрастает.

Но прежде чем решать с помощью кластеризации проблемы качества поиска, нужно решить проблему самой кластеризации - по какому "тому или иному" признаку группировать найденные по запросу результаты поиска и каким образом это делать.

Рисунок Валентина Дубинина

Необходимость в кластеризации возникает, когда в ответ на вопрос возможны разные типы данных, таковы большинство поисковых запросов.

Примеры кластеризованной выдачи известны всем, это специальные виды поиска. В новостях - кластер, состоящий из страниц ресурсов, размеченных модераторами как новостные. В словарях - кластер страниц со словарными статьями. В форумах и блогах, в товарах, в программных кодах, в каталоге... Во всех случаях признак, по которому производится отбор страниц для кластера, легко алгоритмизируется. Выбрали все тексты из атрибута alt тега img - получили кластер для организации поиска в картинках. И т.п. Но смысловую кластеризацию современные поисковые машины делать не умеют.

Смысловая кластеризация - это выделение из выборки страниц с одинаковой по смыслу информацией. Пример можно посмотреть в статье "Транзакционность и ранжирование" (данные в таблице): ссылки Тор10 четырех поисковых машин были распределены по сути предложенной информации. Оказалось, что сорок топовых ссылок можно разделить всего лишь на девять смысловых кластеров.

  • Смысл 22 ссылок из 40 - предложение о продаже пластиковых окон в Москве;
  • 5 ссылок - продажа пластиковых окон в Санкт-Петербурге;
  • 4 ссылки - продажа деревянных окон в Москве;
  • 3 ссылки - продажа пластиковых и деревянных окон в Москве;
  • 2 ссылки - ремонт окон в Москве;
  • 1 ссылка - продажа пластиковых окон в Перми;
  • 1 ссылка - продажа пластиковых окон в Киеве;
  • 1 ссылка - украинский информационный сайт, "созданный (как там написано) с целью наиболее полного освещения ситуации на рынке оконных конструкций";
  • 1 ссылка - поисковый спам.

Или отдельно по каждому поисковику:

  • Яндекс - 5 кластеров (предложения пластиковых и деревянных одновременно считаем пока разными кластерами, кластер из одной ссылки тоже учитываем),
  • Google - 6 кластеров,
  • Gogo.ru - 3 кластера,
  • Live.ru - 4 кластера (спам считать за кластер не будем).

Как видим, если бы поисковик мог на лету определять нужный пользователю кластер и предлагать ссылки только из него - это стало бы воплощенной мечтой об идеальном поиске. Об этом, к сожалению, сегодня даже мечтать не приходится.

Оффтоп:
Мечтать можно о более-менее точном автоматическом определении однотипных - по смыслу - ресурсов. Вполне реально выделять сайты типа "Предлагаем /товар, услугу/ в городе /таком-то/" - пластиковые окна в Москве, деревянные окна в Санкт-Петербурге, свежие пирожные в Арске, кукиш с маслом в Мухосранске и т.п. Подстановка в выдачу ссылки на такой кластер в результаты поиска по нечетким запросам вида /товар, услуга/, когда известен город, из которого сделан запрос, сразу может значительно улучшить результаты поиска. Но не хотят пока ни Яндекс, ни Google, ни Gogo показывать мне ссылку на кластер "Двери в Казани" в ответ на запрос двери. И вам, читатели, в Питере, Новосибирске, Екатеринбурге, Нижнем Новгороде, Самаре, Омске, Челябинске, Ростове-на-Дону, Уфе и др. городов - тоже свои родные кластеры пока не показывают.

Возможность определения ожиданий пользователя в стиле "запрос: окна, нужный кластер: окна в архитектуре" с последующей подстановкой ссылок этого кластера вместо дежурных "пластиковых окон в Москве" - это из области фантастики, экстрасенсорных технологий в поиске пока нет. С такой задачей не справится даже человек. Но есть задача, с которой немного подготовленный человек справляется легко, хотя алгоритмически повторить путь ее решения не может ни одна поисковая машина. Это задача создания смысловой структуры ответа, определение кластеров, которые должны быть в ответе на запрос. Иными словами, составление рубрикатора ответа.

Мы продолжим разговор о смысловой кластеризации в следующем выпуске. А сегодня представлю вашему вниманию статью эксперта Нейрона Тани Кочетковой. В своей работе она занимается именно этим: кластеризует ресурсы и составляет подборки кластеров в ответ на поисковые запросы. В статье разобран пример формирования ответа на запрос русская литература.

* * *

Обсудить статью можно на форуме, в теме "Кластеризация as is"

"РУССКАЯ ЛИТЕРАТУРА" ИЛИ ВЫДАЧА ПО ПЕРВООСНОВАМ - Татьяна Кочеткова

Поиск ответов по запросу "русская литературе" стал настоящим бальзамом на сердце, а кроме того лишний раз показал, что эксперт, прежде всего, должен формировать выдачу по тому предмету, в котором он разбирается. Так, мне (собственно, преподавателю русского языка и литературы) было просто приятно работать с материалом, хотя, с другой стороны, тему хотелось бы продолжать в дальнейшем.

Спорить об ответах, которые предложила я, можно долго: кому-то они покажутся слишком уж скупыми. Дело в том, что в основе отбора сайтов для этой выдачи лежала степень охвата материала, причем охвата разностороннего. Так в списке ответов на сам запрос "русская литература" оказались Институт литературы РАН и ссылка на хрестоматию по школьному предмету.

Главным дополнением к запросу и основной группой подсказок является массив "Электронные библиотеки". Здесь можно ознакомиться как с произведениями классиков, так и современных русских писателей. Кроме библиотек, пользователю рекомендуются также сетевые литературные журналы, в том числе и очень популярный "Самиздат".

Выдача получилась с преобладанием теоретического материала; практический аспект иллюстрирует только группа подсказок "Сочинения по русской литературе". Действительно достойных сайтов, имеющих функциональное значение для учащихся и не забитых рекламой и много раз скопированными материалами, оказалось предельно мало. Такие вещи, вообще, лучше искать в печатных сборниках - там хоть время от времени обновляют тексты.

Некоторые, казалось бы, очевидные смысловые группы я не выводила в подсказки, например, "биографии писателей". Эту информацию (если, действительно, нужна качественная информация) можно найти в хрестоматиях и отчасти в библиотеках, а вот сайты, которые всецело посвящены этой тематике, нередко оказываются пустышками с уже приевшимися глазу перепечатками и недоделками.

Основные проблемы выдачи - мертвые души и недостаточно авторитетные ресурсы. Так, например, www.litru.info, предлагающий обзор книг по русской литературе все записи на 91 (!) странице датирует 5 ноября 2007 года. Аннотации, естественно, скопированы с Озона без малейшей отметки об этом.

Недостаточная авторитетность - проблема ситуативная. То есть, если бы запрос не был фундаментальным, сайты, на которых представлена только часть информации, вполне подошли бы. Формируя выдачу, я отказалась от сайтов, где были представлены сканированные страницы хрестоматий или учебников, а также от ресурсов, которые дополняются крайне нерегулярно.

Выдача выглядит так - русская литература. Мне кажется, впрочем, что ее можно расширять бесконечно. А как думаете вы?

ИЗ ПЕРЕПИСКИ: ИДЕИ, ПРОБЛЕМЫ, КРИТИКА...

Николай Калашников: Спасибо за ссылку на neiron.ru. Реализованная там идея - это примерно то, как должен отвечать "умный человек" а поставленный вопрос: сначала уточнить, о чём конкретно спрашивается.

Но подумалось вот о чём: когда, например, Yandex выдаёт информацию по запросу "окна", он заинтересован в том, что бы ищущий щёлкнул не на ссылке в результатах выдачи, а по ссылке в блоке коммерческой рекламы - ведь за это Yandex получает деньги. Поэтому, по большому счёту, поисковик не заинтересован в качественной выдаче по "денежным" запросам. По "некоммерческим" запросам (типа "Омон Ра" или "династия Пятов") - пожалуйста, можно направить пользователя на сайт одиночки-энтузиаста, а по "денежным" - пусть нажимает туда, где это приносит деньги.

И можно долго спорить о том, каким должен быть поисковик, но никто работать себе в убыток не будет. Это напоминает работу штатного программиста: когда он всё сделал идеально - он получает зарплату и новую работу, а когда его программа постоянно нуждается в настройках - ему регулярно платят премии (за решение им же созданных проблем) и особо не загружают другими делами. :-)


Прим. ред.

Зачем же сознательно портить выдачу, если можно: а) поставить туда ссылку на хорошие сайты, б) взять за это деньги? Говорят, в Китае так и делают.

Яндекс, Google, Gogo и др. русские поисковики не используют эту коммерческую возможность, придерживаясь идеи, что выдача дожна формироваться строго алгоритмически, на основании объективных факторов. Поэтому деньги, которые компании готовы вкладывать в формирование выдачи, "крутятся" в SEO-бизнесе, по оценке нашей компании в 2008 году только на оплату ссылок было потрачено $50 млн. Сложно сказать, что заставляет разработчиков все еще верить, что ссылки могут являться "объективным фактором". :0)

ВЕСЕЛАЯ РЕТРОСПЕКТИВА ОТ ВАЛЕНТИНА ДУБИНИНА

Борьба за Тор10

Новая иллюстрация Валентина Дубинина - к статье Транзакционность и ранжирование

***"В случае нечеткого, информационного запроса - окна - конкуренция между "деревянными" и "пластиковыми" усиливается еще и конкуренцией между городами, а также иными возможными интерпретациями смысла запроса, которых обычно больше десятка. В итоге Тор10 приобретает совсем уж своеобразный вид..." Посмотреть >>

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем. См. подсказку "О чем можно и нужно писать в редакцию"

Подписаться на рассылку "Проблемы качества поиска" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003-2009 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры