Дублированный контент — информация, которая доступна для индексации по нескольким url’ам. Он подразумевает наличие ряда страниц с одинаковым содержанием, с одним и тем же тегом, который используется для заголовка TITLE, а также с одним и тем же мета данными.
К наличию не уникальных материалов поисковые системы относятся крайне негативно. Как правило это приводит к пессимизации сайта — потере позиций и трафика. В основном причиной появления дублей является сам движок сайта.
Чтобы повысить качество, а также улучшить эффективность своего сайта в глазах ПС необходимо следить за уникальностью размещаемого материала и периодически проводить «чистку» не уникальных текстов.
Дублированный контент. Поиск дублей при помощи Яндекса
Для того, чтобы найти дубли контента в пределах Яндекса, необходимо:
- выбрать проиндексированный материал в пределах вашего сайта
- взять любое предложение (предпочтительно из середины текста) по которому будет осуществляться поиск
- вставить этот текст в строку расширенного поиска, предварительно заключив в «кавычки»
- указать что вы хотите искать в пределах вашего сайта.
Выглядит это вот так:
В результате вы сможете увидеть сколько url-ов содержат искомый фрагмент текста. Если нашлось больше одной страницы — значит дубли есть. Как видно со скриншота материал не проиндексирован или проиндексирован Яндексом в единственном варианте.
Аналогичным образом можно проверить уникальность материала в google. Для этого вводим в поиск заключенное в кавычки предложение, в конце добавляем «site:ваш сайт.ru».
Как видно со скриншота, статья найдена в единственном варианте url-а. Если было бы два url-а, то второй вариант являлся бы дублем, который появился из-за некорректной обработки ЧПУ со стороны системы. По-хорошему нужно устранить саму причину появления копии, но так как я этого сделать не могу — просто убираем вторую страницу при помощи robots.txt. Сделать это не тяжело, для этого достаточно добавить в файл robots.txt строку: Disallow: /*&*