Поисковая оптимизация
и продвижение сайтов в Интернете

Статьи и конференции по поисковому маркетингу


 





Конференция Семинары Рассылка о поиске Рассылка о продвижении Сервисы Статьи Книга




Рассылка о поиске


Анализатор омонимов

Об отношении [запросы/переходы] в поисковых системах

О релевантности дополнений Яндекса и Google

Метапоиск в браузере

Люди и алгоритмы. Поисковые технологии - 2010

Два подхода к геотаргетингу в SERP

Омонимия и полисемия в результатах поиска

Качество поиска - одной цифрой

357 афоризмов из "Горе от ума"


Дублирующие ссылки в выдаче


Порнография как объект поиска

Поисковый спам - примеры плохих идей

Коэффициент дублирования

Поиск по запросам-синонимам

Экономика сетевого плагиата

Региональный "Арзамас-2"

Первые успехи и первые ошибки экспертов

О моделировании поисковой выдачи

Кластеризация as is

Транзакционность и ранжирование

Коммерческое и некоммерческое

Забытое старое от W3C

Итоги одного эксперимента

Приватизированный индекс

Парадоксы релевантности

Парадигмы поиска или Божественный экзамен

Проблема выбора экспертов

Предисловие ненаписанной книги



Ежегодная конференция Internet Business Conference Russia 2014

Ежегодная конференция для бизнеса IBC Russia 2014 пройдет в Москве 27-28 ноября.
В программе конференции три потока: веб-технологии для бизнеса, интернет-реклама и digital-стратегии, поисковая оптимизация и продвижение. Впервые на конференции добавлены практикумы для выполнения практических заданий!

Успейте зарегистрироваться до повышения стоимости!


Запрос на услуги по продвижению сайтов

Чтобы отправить запрос на наши услуги, заполните форму ниже и нажмите кнопку Отправить. Мы проанализируем ваш сайт и перезвоним вам в течение рабочего дня.

* — поля обязательные для заполнения
** — заполните хотя бы одно из полей

ГлавнаяРассылка о поискеДублирующие ссылки в выдаче

Выпуск 19. Дублирующие ссылки в выдаче

Проблемы качества поиска
== выпуск 19 ==


  АШМАНОВ и ПАРТНЕРЫ

ССЫЛКИ НА ДУБЛИ В SERP
результаты небольшого исследования

От редактора
"Минимум, каждая десятая ссылка в выдаче является мусором..."
Задать вопрос, подписаться на рассылку
ОТ РЕДАКТОРА

Мини-опрос. Количество информеров сравнения поисковых машин на анализаторах уже не позволяет быстро оценить картину дня. При любом замере хочется сразу сначала увидеть кто лучше, и лишь потом вдумчиво начинать разбираться почему.

Но способы вычисления сводного показателя могут быть разными, и мнение пользователя от рейтинга довольно сильно зависит от "как считать". Не вдаваясь пока в подробности методик, вот два варианта расчета единого показателя качества поиска.

Первый:

Яндекс 39,31
Google 38,05
Google-бета 37,11
Bing 32,10
Рамблер 27,84
Gogo 21,75
Yahoo 16,34
Апорт 9,35

Второй:

Яндекс 79,9
Google 68,5
Google-бета 65,6
Рамблер 37,4
Gogo 30,5
Bing 21,1
Yahoo 18,7
Апорт 6

Смотреть можно как на сам рейтинг, так и на цифры, показывающие "качество". Какой вариант кажется вам более соответствующим действительности, уважаемые читатели?

Ответить (и прочитать ответы других) можно в ярушке, либо письмом. Спасибо всем, кто согласится принять участие в опросе!

* * *

Безусловно, со вводом "Снежинска" всем хочется оценить, насколько велика разница между новым и старым поиском Яндекса. К сожалению, сегодня это можно увидеть только раздельно по разным тестам, см. analyzethis.ru. Хорошо заметно, что качество навигационного и тематического поиска, подсказок, опечаток и синонимов не изменилось, но новый алгоритм, похоже, серьезно затронул ранжирование при цитатном поиске и улучшил позиции страниц с оригинальными материалами.

Ссылки на дубли в результатах поиска по запросу - Андрей Иванов

Предпосылки. Ранее в статье "Коэффициент дублирования" мы рассматривали проблему копирования информации в Сети и выяснили, что почти 90% данных в индексах поисковых машин - не первоисточники. В таких условиях отделение копий от оригиналов и структурирование информации по целям поиска является крайне непростой задачей, решать которую вынуждены поисковые системы. В статье "Порнография как объект поиска" даны результаты просмотра Тор1000 Яндекса, и сделан вывод, что в выдаче по одному и тому же запросу ссылки на дубликаты информации, к сожалению, есть. Это заявление не было подкреплено цифрами. Мы поставили небольшой эксперимент и сегодня поговорим о цифрах.

Необходимость подавления ссылок на дублирующую информацию в результатах поиска можно увидеть на условном примере.

Представим, что в Интернете существует всего три документа, релевантных запросу N. Релевантность первого равна 0,75, второго и третьего по 0,2. Иными словами, первый документ, вероятнее всего, прямо соответствует запросу, второй и третий косвенно, это дополнительная информация, не более. Первый документ присутствует в Сети в десяти копиях на разных сайтах (для простоты допустим, что на вполне законных основаниях). Поисковой системе известны адреса всех десяти копий первого документа, а также адреса второго и третьего. Вопрос: как сформировать выдачу в ответ на запрос N?

Отранжировав документы по релевантности, получим Тор10 из ссылок на один и тот же документ, а ссылки на сайты с дополнительной информацией уйдут на вторую страницу результатов поиска, и часть пользователей их не увидят. Это не лучший вариант. Версия, когда на первой позиции находится ссылка на главный документ, а на второй и третьей на разные дополняющие документы, безусловно, лучше. Но чтобы сформировать такую выдачу, необходимо уметь определять дубликаты и подавлять появление ссылок на них в результатах поиска.

На практике это выглядит примерно так. Поисковые системы в ответ на большинство запросов пишут, что найдены десятки и сотни тысяч документов, но отображают только тысячу наиболее релевантных ссылок. Таким образом, если количество разных релевантных запросу документов в Сети больше тысячи, то наличие хотя бы двух ссылок на дубликат одного и того же документа в выдаче уже уменьшает возможности поиска для пользователя, т.е. ухудшает выдачу. Пользователь просто не сможет найти документ, вытесненный дублем за границы Тор1000. Тысяча ссылок - это максимум, доступный пользователю для просмотра. Но то же рассуждение касается и любого значимого диапазона: Тор100, Тор50, Тор30 и Тор10. В общем виде: чем меньше в рассматриваемом диапазоне выдачи ссылок на копии одного и того же документа - тем лучше поиск.

Мы подсчитали количество и распределение ссылок на дубликаты в Тор1000 поиска Яндекса в ответ на запрос ?3, о котором шла речь в прошлом выпуске. Вот данные.

Цифры

  • Уникальных материалов, копии которых были найдены в Тор1000 - 28. "Материалом" может быть как статья, представленная на другом сайте в окружении другого меню, новостей и т.п., так и страница целиком, примеры точных дубликатов страниц ниже.
  • Количество найденных в Тор1000 копий на уникальные материалы - 83.
  • Распределение количества ссылок на копии в SERP по разным материалам - 17 | 9 | 7 | 8 | 5 | 4 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1. Т.е. для первого материала нашлось 17 ссылок на копии, для второго 9, для третьего 8 и т.д.
  • Количество найденных копий по диапазонам: Тор1000 - 83 (8,3%), Тор100 - 10 (10%), Тор50 - 6 (12%), Тор30 - 4 (13,3%), Тор10 - 1 (10%).

Примеры

1. Адреса самой дублированной статьи, присутствующие в Тор1000 ("История зарождения порнографии").

smotri-online.info/articles/410-istoki-zarozhdenija-pornografii.html
d-s-l.narod.ru/interesnoe/135.html
skolorit.narod.ru/67.html
melisa.by.ru/articl/love/lart1.shtml
litewebmoney.narod.ru/all/49.html
nmalgin.vov.ru/code/164.html
mediainto.ru/2009/09/istoki-zarozhdeniya-pornografii/
makintoch.ucoz.ru/publ/5-1-0-24
kinofocus61.narod.ru/tic.html
file-cs.ucoz.ru/publ/1-1-0-133
wowbug.ru/publ/1-1-0-258
zik.ucoz.ru/publ/1-1-0-165
tel-7373.narod.ru/nokia3/79.html
soft-dnz.at.ua/publ/1-1-0-147
mambasis.narod.ru/supersti/169.html
fifanchik.ucoz.ru/publ/istoki_zarozhdenija_pornografii/1-1-0-62
allgrib.ru/articles/177.php
snowboardisti.ru/968-istoki-zarozhdenija-pornografii.html
                                                        

2. Адреса копий сайтов, ссылки на которые имеются в Тор1000 по одному запросу.

sektr-gaza.narod.ru/ (Этот сайт полностью посвящен Сектору газа)
go-sektor.narod.ru/
go-sektor-gaza.narod.ru/
o-sektore-gaza.narod.ru/
istore-sektora-gaza.narod.ru/
                        
lapockaweb.narod.ru/ (Чат голых девчат)
websterva.narod.ru/
striptiskaweb.narod.ru/
webklubnika.narod.ru/

sexroman.narod.ru/ (SexBestsellerS - это серия эротических романов)
sexnovel.narod.ru/

porngid.ru/ (Порносайты)
sexpicture.ru/
                                                        

3. Наиболее наглядный пример - ссылка на дубликат в Тор10 - 1 и 7 позиции.

ru.wikipedia.org/wiki/porno
dic.academic.ru/dic.nsf/ruwiki/10185
                                                        

Выводы

  • В результатах поиска можно найти ссылки на полные и неполные дубликаты отдельных статей, сайтов, страниц - дублирующие ссылки.
  • Дублирующие ссылки присутствуют во всех диапазонах результатов поиска Яндекса.
  • Количество дублирующих ссылок в SERP - ок. 10%. Иными словами, каждая десятая ссылка в выдаче - мусор. Вспомним, что здесь мы считаем мусором только дублирующие ссылки, но ведь существует еще традиционный спам, ссылки на который нужно считать отдельно. С учетом этого, последний вывод нужно читать так: минимум, каждая десятая ссылка в выдаче является мусором. Много это или мало - решайте сами, уважаемые читатели.

Утверждение насчет "каждой десятой" прошу пока не принимать на веру, анализа всего лишь одного запроса совершенно недостаточно для расчета столь важного количественного показателя. Логика подсказывает, что эксперимент стоит повторить на большей выборке запросов, а также сравнить результаты разных поисковых машин. Чем мы скоро и займемся.

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ


Ищем заинтересованных людей.
Тема - создание системы экспертного поиска в Рунете.
Адрес редакции - subscribe@ashmanov.com
Пишите, ждем. См. подсказку "О чем можно и нужно писать в редакцию"

Подписаться на рассылку "Проблемы качества поиска" можно, отправив письмо с заголовком EXPERT_SEARCH_SUBSCRIBE на адрес subscribe@ashmanov.com.
Адрес для отписки - тот же.

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


АРХИВ РАССЫЛКИ

Copyright © 2003-2009 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe

 


Рейтинг@Mail.ru



Ашманов и Партнеры