Предпосылки. Ранее в статье "Коэффициент дублирования" мы рассматривали проблему копирования информации в Сети и выяснили, что почти 90% данных в индексах поисковых машин - не первоисточники. В таких условиях отделение копий от оригиналов и структурирование информации по целям поиска является крайне непростой задачей, решать которую вынуждены поисковые системы. В статье "Порнография как объект поиска" даны результаты просмотра Тор1000 Яндекса, и сделан вывод, что в выдаче по одному и тому же запросу ссылки на дубликаты информации, к сожалению, есть. Это заявление не было подкреплено цифрами. Мы поставили небольшой эксперимент и сегодня поговорим о цифрах.
Необходимость подавления ссылок на дублирующую информацию в результатах поиска можно увидеть на условном примере.
Представим, что в Интернете существует всего три документа, релевантных запросу N. Релевантность первого равна 0,75, второго и третьего по 0,2. Иными словами, первый документ, вероятнее всего, прямо соответствует запросу, второй и третий косвенно, это дополнительная информация, не более. Первый документ присутствует в Сети в десяти копиях на разных сайтах (для простоты допустим, что на вполне законных основаниях). Поисковой системе известны адреса всех десяти копий первого документа, а также адреса второго и третьего. Вопрос: как сформировать выдачу в ответ на запрос N?
Отранжировав документы по релевантности, получим Тор10 из ссылок на один и тот же документ, а ссылки на сайты с дополнительной информацией уйдут на вторую страницу результатов поиска, и часть пользователей их не увидят. Это не лучший вариант. Версия, когда на первой позиции находится ссылка на главный документ, а на второй и третьей на разные дополняющие документы, безусловно, лучше. Но чтобы сформировать такую выдачу, необходимо уметь определять дубликаты и подавлять появление ссылок на них в результатах поиска.
На практике это выглядит примерно так. Поисковые системы в ответ на большинство запросов пишут, что найдены десятки и сотни тысяч документов, но отображают только тысячу наиболее релевантных ссылок. Таким образом, если количество разных релевантных запросу документов в Сети больше тысячи, то наличие хотя бы двух ссылок на дубликат одного и того же документа в выдаче уже уменьшает возможности поиска для пользователя, т.е. ухудшает выдачу. Пользователь просто не сможет найти документ, вытесненный дублем за границы Тор1000. Тысяча ссылок - это максимум, доступный пользователю для просмотра. Но то же рассуждение касается и любого значимого диапазона: Тор100, Тор50, Тор30 и Тор10. В общем виде: чем меньше в рассматриваемом диапазоне выдачи ссылок на копии одного и того же документа - тем лучше поиск.
Мы подсчитали количество и распределение ссылок на дубликаты в Тор1000 поиска Яндекса в ответ на запрос ?3, о котором шла речь в прошлом выпуске. Вот данные.
Цифры
- Уникальных материалов, копии которых были найдены в Тор1000 - 28. "Материалом" может быть как статья, представленная на другом сайте в окружении другого меню, новостей и т.п., так и страница целиком, примеры точных дубликатов страниц ниже.
- Количество найденных в Тор1000 копий на уникальные материалы - 83.
- Распределение количества ссылок на копии в SERP по разным материалам - 17 | 9 | 7 | 8 | 5 | 4 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1. Т.е. для первого материала нашлось 17 ссылок на копии, для второго 9, для третьего 8 и т.д.
- Количество найденных копий по диапазонам: Тор1000 - 83 (8,3%), Тор100 - 10 (10%), Тор50 - 6 (12%), Тор30 - 4 (13,3%), Тор10 - 1 (10%).
Примеры
1. Адреса самой дублированной статьи, присутствующие в Тор1000 ("История зарождения порнографии").
smotri-online.info/articles/410-istoki-zarozhdenija-pornografii.html
d-s-l.narod.ru/interesnoe/135.html
skolorit.narod.ru/67.html
melisa.by.ru/articl/love/lart1.shtml
litewebmoney.narod.ru/all/49.html
nmalgin.vov.ru/code/164.html
mediainto.ru/2009/09/istoki-zarozhdeniya-pornografii/
makintoch.ucoz.ru/publ/5-1-0-24
kinofocus61.narod.ru/tic.html
file-cs.ucoz.ru/publ/1-1-0-133
wowbug.ru/publ/1-1-0-258
zik.ucoz.ru/publ/1-1-0-165
tel-7373.narod.ru/nokia3/79.html
soft-dnz.at.ua/publ/1-1-0-147
mambasis.narod.ru/supersti/169.html
fifanchik.ucoz.ru/publ/istoki_zarozhdenija_pornografii/1-1-0-62
allgrib.ru/articles/177.php
snowboardisti.ru/968-istoki-zarozhdenija-pornografii.html
2. Адреса копий сайтов, ссылки на которые имеются в Тор1000 по одному запросу.
sektr-gaza.narod.ru/ (Этот сайт полностью посвящен Сектору газа)
go-sektor.narod.ru/
go-sektor-gaza.narod.ru/
o-sektore-gaza.narod.ru/
istore-sektora-gaza.narod.ru/
lapockaweb.narod.ru/ (Чат голых девчат)
websterva.narod.ru/
striptiskaweb.narod.ru/
webklubnika.narod.ru/
sexroman.narod.ru/ (SexBestsellerS - это серия эротических романов)
sexnovel.narod.ru/
porngid.ru/ (Порносайты)
sexpicture.ru/
3. Наиболее наглядный пример - ссылка на дубликат в Тор10 - 1 и 7 позиции.
ru.wikipedia.org/wiki/porno
dic.academic.ru/dic.nsf/ruwiki/10185
Выводы
- В результатах поиска можно найти ссылки на полные и неполные дубликаты отдельных статей, сайтов, страниц - дублирующие ссылки.
- Дублирующие ссылки присутствуют во всех диапазонах результатов поиска Яндекса.
- Количество дублирующих ссылок в SERP - ок. 10%. Иными словами, каждая десятая ссылка в выдаче - мусор. Вспомним, что здесь мы считаем мусором только дублирующие ссылки, но ведь существует еще традиционный спам, ссылки на который нужно считать отдельно. С учетом этого, последний вывод нужно читать так: минимум, каждая десятая ссылка в выдаче является мусором. Много это или мало - решайте сами, уважаемые читатели.
Утверждение насчет "каждой десятой" прошу пока не принимать на веру, анализа всего лишь одного запроса совершенно недостаточно для расчета столь важного количественного показателя. Логика подсказывает, что эксперимент стоит повторить на большей выборке запросов, а также сравнить результаты разных поисковых машин. Чем мы скоро и займемся.