Кому лень читать много букв и смотреть на списки, может сразу перейти к выводам.
* * *
В начале сентября в рассылке была опубликована статья "Экономика сетевого плагиата (поисковые системы и воровство контента)". Речь в ней шла о том, что поисковые системы, к сожалению, являются неотъемлемой частью схемы бизнеса на плагиате, поставляя копипастерам как посетителей из результатов поиска, так и средства монетизации этого трафика. Чем менее совершенны в поисковике алгоритмы поиска источников оригинального контента, тем выгоднее становится незаконная републикация. Сравнить умение поисковых машин правильно ранжировать первоисточники можно с помощью соответствующего анализатора компании "Ашманов и Партнеры".
В той статье я не касался вопроса о масштабах феномена "заимствования". Но задумал небольшой эксперимент, о результатах которого хочу рассказать сегодня. В качестве источника оригинальных текстов были выбраны девять статей из "Газеты.ру".
- Пролет нормальный. Андрей Ковалевский, 02.09.09 - (путешествия, 5);
- 'КД Авиа' сдает воздух. Андрей Ковалевский, 03.09.09 - (путешествия, 1);
- Московская шестерка. Светлана Бочарова, 04.09.2009 - (политика, 7);
- Автопром пошел на сближение. Елена Ходякова, 04.09.2009 - (авто, 23);
- 'Ижавто' уже приехал. Виктор Мараховский, 04.09.2009 - (авто, 10);
- Эмирами не рождаются. Ксения Солянская, 05.09.2009 - (политика, 3);
- Сборная России отыгралась на Суоми. Евгений Трушин, 05.09.2009 - (спорт, 6);
- Рахимов спасёт 'Амкар'. Алексей Филатов, 05.09.2009 - (спорт, 2);
- Мы нашли дно и начинаем от него отталкиваться. Рустем Фаляхов, 05.09.2009 - (финансы, 18).
Вот документ "Правила использования информации", который определяет "условия ... использования информации, размещенной на сайте www.gazeta.ru". Для краткости опишу в свободной форме, каким образом можно законно использовать информацию с "Газеты.ру" без письменного договора с этой организацией или даже без уведомления о факте использования.
- Цитируемые тексты не должны превышать 30% объема от исходных. Для Интернета приведено довольно странное правило - не более 100 символов без учета пробелов, в такой объем сложно уместить даже два предложения.
- При использовании в электронном виде (на сайте) обязательно нужно ссылаться на "Газету.ру", причем не текстом, а гиперссылкой.
- Гиперссылок должно быть две: а) на главную страницу "Газеты.ру" и б) на страницу, откуда взят используемый текст.
- При перепечатке текста ссылки на "Газету.ру" должны располагаться не в конце, а в начале текста.
Конечно, до 100 символов с двумя ссылками над ними будут смотреться довольно странно, но dura lex; кому не нравится, может написать в "Газету.ру" и договориться о более мягких условиях.
Сегодня, всего месяц спустя с помощью Яндекса можно найти 75 полных копий упомянутых статей. Полных, а не не 30% от объема исходного текста. Ни в одном случае условие двух гиперссылок на источник, размещенных до начала используемого текста не выполнено. Подробнее, в копиях:
- авторы указаны 9 раз;
- "Газета.ру" упоминается 31 раз;
- найдено прямых ссылок на источник - 24;
- непрямых ("битых") - 2.
Дурное форматирование (вся статья одним абзацем), исчезновение иллюстраций, комментариев, ссылки на неверный источник, подтасовку текста (например, в статье текст "Газета.ру следит за развитием событий" изменен на "trah-tibidoh.com следит за развитием событий") и количество рекламы - не считал. Хватает, чтобы понять.
В списке исходных статей, см. выше, полужирным шрифтом в скобках указана тема раздела, в котором опубликован материал, и количество найденных копий. Очевидно, что количество копий зависит от тематики вообще и от содержания, но о статистике говорить пока рано. Скорее всего, в темах, где больше рекламодателей (авто, финансы), копий тоже больше, по вполне прагматичным соображениям - зарабатывать легче.
Копии распределены по 57 доменам. Вот список, цифра означает количество заимствованных в течение месяца статей из выбранной нашей девятки. Ознакомьтесь выборочно с парой-тройкой сайтов. Как думаете, имеются ли у них письменные договора с "Газетой.ру", разрешающие републикацию ее материалов?..
- i-news.kz 5
- news.uno.kz 3
- subscribe.ru 3
- aviafond.ru 2
- carsgid.ru 2
- federalnews.ru 2
- gaz-v-pol.ru 2
- kuplyu-avtomobil.ru 2
- news.witan.ru 2
- news-k.ru 2
- redauto.ru 2
- remontavto.info 2
- aautomagazin.av.by 1
- amina.com 1
- archives.maillist.ru 1
- asset-trust.ru 1
- auto.zhdany.by 1
- autodaily.com.ua 1
- baltpulse.com 1
- blogs.trust.ua 1
- chechenpress.com 1
- creeper-ssp.livejournal.com 1
- deyerler.avantajprim.com 1
- deyerler.org 1
- driverblogs.ru 1
- dynamo.ru 1
- economica-digest.ru 1
- estmnenie.tomsk.ru 1
- ex-turism.ru 1
- fanat1k.ru 1
- fiksing.ru 1
- hcmvd.ru 1
- i-r-p.ru 1
- mashins.ru 1
- mashlist.ru 1
- mebelnik.org.ua 1
- megacities.ru 1
- metallurg.ru 1
- news.gde.ru 1
- open.by 1
- osradio.ru 1
- p206.ru 1
- poisia.ru 1
- rbsys.ru 1
- real-realty.ru 1
- selard.com 1
- sibinfo.net 1
- spbdrive.ru 1
- sport27.ru 1
- top-pereezd.com 1
- torg-sig.ru 1
- touareg-club.net 1
- trunov.com 1
- vestnik.mgik.mos.ru 1
- vgoroden.ru 1
- vybor-naroda.org 1
- zvuk.ankv.net 1
Выводы
Как видим, мониторинг в поисковых индексах даже небольшой выборки оригинальных материалов позволяет быстро определить ресурсы, систематически занимающиеся копипастингом. Если нужна помощь в этом вопросе - обращайтесь. Для продвижения сайта много ссылок с одного ресурса смысла не имеют, т.е. с такими ресурсами необходимо либо договариваться о контракте, либо "воевать".
Выявление единичных фактов копирования без установки гиперссылок может быть полезным для продвижения. Владельцы таких сайтов, скорее всего, нужные ссылки поставят по первому требованию.
Объем заимствований составляет 75/9 = 8,3, от восьми копий на одну оригинальную статью, т.е. Рунет как копилка знаний в 8 раз меньше, чем кажется. Иными словами это утверждение можно сформулировать так: 75/84*100 = 89,3% предлагаемой в Рунете информации является мусором. Без претензий на объективность, конечно, "анализ" копипаста аж целых девяти статей не может дать достоверной цифры. Если кто поделится более точными данными, с удовольствием опубликую.
...Одного понять не могу - зачем поисковые системы так стремятся индексировать и показывать в результатах поиска этот мусор? У вас есть версии, уважаемые читатели?