Как бороться с реферальным спамом
Article title
31 марта 2016

Как бороться с реферальным спамом

Дмитрий Щербаков
Реферальный спам, или спам в счетчиках посещаемости — это фейковый трафик, полученный с помощью спам-ботов. Несуществующие посещения могут отражаться в отчетах Google Analytics — в столбце «Источник трафика» вы увидите нехарактерный домен или пометку «Не определен».

Реального трафика реферальный спам не генерирует, а значит является информационным мусором. Более того, он может навредить сайту. Поскольку переходы выполняют боты, на сайте возрастает показатель отказов, вследствие чего снижаются поведенческие факторы. Это негативно сказывается на результатах поискового продвижения. Со спамом нужно бороться.
Виды спама
Реферальный спам можно разделить на 2 группы: «призраки» и краулеры.
«Призраки»
«Призраки» составляют основную долю всего реферального спама. «Призрачный» спам никогда не достигает сайта, поэтому и получил такое название. Чтобы разработать эффективную стратегию борьбы с ним, нужно понимать, как он работает.

«Призрачный» трафик приходит с Measurement Protocol, который позволяет отправлять данные напрямую в сервера Google Analytics. С помощью этого метода и генерации случайных кодов отслеживания (формата UA-xxxxx-1) спамеры оставляют «визиты» с фейковыми данными. При этом они даже не подозревают, какой именно сайт заспамили.
Краулеры
В отличие от «призраков» этот вид спама тесно взаимодействует с сайтом. Спам-боты посещают страницы ресурса, «ползая» сквозь правила в robots. txt (crawl — «ползать»). Когда они покидают сайт, в отчетах остается запись о «настоящих» визитах.

Так выглядит реферальный спам в Google Analytics:
Распространенные ошибки в борьбе
со спамом
Сначала рассмотрим, что категорически нельзя делать, если вы решили бороться со спамным трафиком.
1. Пытаться заблокировать призрачный спам в .htacces
Блокировать призрачный спам, добавляя «призраков"в файл. htaccess, бесполезно.

Спам появляется периодически на пару дней и потом снова исчезает. Из-за этого владельцы сайтов думают, что успешно заблокировали «призраков». На самом деле они лишь временно перестали спамить сайт.

2. Использовать исключения рефералов
Нельзя останавливать спам с помощью исключения трафика переходов. Трафик исключается несколько для других целей. Вот пример из справки google:
Если вы попытаетесь справиться со спамом с помощью исключения доменов, то получите еще большую проблему — будет записан прямой переход. В результате вы и от спама не избавитесь, и прямые переходы будет отследить сложнее.
3. Переживать, что процент отказов влияет
на ранжирование
Когда оптимизаторы и владельцы сайтов видят, что из-за спама растет процент отказов, то начинают волноваться о падении позиций в выдаче. К счастью, независимо от наличия спама, Google не расценивает данные из Аnalytics как фактор ранжирования.

Вот как это объясняет Matt Cutts, глава веб-спам команды Google:
Чтобы справиться с «призраками», нужен всего один фильтр
При обнаружении спама можно добавить домены в список исключений реферальных переходов. Это простой способ, однако он имеет 3 существенных недостатка:

1. Еженедельно много времени уходит на поиск нового спама и создание фильтров. Особенно, если сайтов много.
2. Некоторые спамеры совместно с реферальными используют прямые визиты.
3. Вы не сможете исключить прямые переходы — фильтр тут не поможет. Даже если удастся убрать рефералов, вы все равно будете получать искаженные данные.

К счастью, все эти проблемы можно предупредить.
Основная часть призрачного спама отражается в отчетах Google Analytics при указании случайных ID, то есть зачастую спамер даже не знает, кто является конечной целью. По этой причине имя хоста или не совпадает, или вовсе не указывается.
С другой стороны, валидный трафик всегда использует настоящее имя хоста.
Согласно этим данным, достаточно настроить фильтр, включающий только реальные имена хостов. Это автоматически остановит действия «призрачного» спама, будь то просмотр страниц, переход по ключевому слову, реферальный или даже прямой переход.

Чтобы создать такой фильтр, нужно найти отчет по именам хостов. Вот как это делается:

1. Переходим во вкладку отчетов в Google Analytics.
2. Кликаем по вкладке аудитория на левой панели.
3. Раскрываем список «Технологии».
4. В качестве основного параметра выбираем имя хоста.
После этого вы увидите все хосты, включая те, которые используют при спаме. Соберите их в валидный список. Например, для нас это:

www.uplab.ru
crm.uplab.ru

После этого создайте регулярное выражение по такому типу:

www.uplab\.ru|dev.uplab\.ru

Необязательно включать в выражение все субдомены. Главный домен автоматически их подберет.
Воспользуйтесь формой проверки, чтобы убедиться, как работает фильтр. Вы увидите данные за последние 7 дней.
Этот единственный фильтр исключит появление «призрачного» спама в будущих отчетах Google Analytics. Но не забывайте: каждый раз, когда вы добавляете код отслеживания в новый источник, нужно ставить его в конец фильтра.

Теперь дело осталось за малым — избавиться от спама краулеров. Сделать это можно двумя способами: заблокировать или отразить его. Рассмотрим каждый.
1. Блокировка спама краулеров
Заблокировать спам очень просто: для этого достаточно открыть файл .htaccess и прописать правило:

RewriteCond %{HTTP_REFERER} traffic2cash.xyz [NC]
RewriteRule .* - [F]

Это правило действует, если у вас 1 домен. Если их много, добавьте параметр OR для всех элементов кроме последнего. Код будет выглядеть следующим образом:

RewriteCond %{HTTP_REFERER} build-a-better-business.2your.site [NC,OR]
RewriteCond %{HTTP_REFERER} cmp-frw-su.int.rfc-cfa.ru:4080 [NC,OR]
RewriteCond %{HTTP_REFERER} free-social-buttons.xyz [NC,OR]
RewriteCond %{HTTP_REFERER} quit-smoking.ga [NC,OR]
RewriteCond %{HTTP_REFERER} santasgift.ml [NC,OR]
RewriteCond %{HTTP_REFERER} share-buttons.xyz [NC,OR]
RewriteCond %{HTTP_REFERER} smarter-content.for-your.website [NC,OR]
RewriteCond %{HTTP_REFERER} top1-seo-service.com [NC,OR]
RewriteCond %{HTTP_REFERER} traffic2cash.xyz [NC,OR]
RewriteCond %{HTTP_REFERER} trafficgenius.xyz [NC]

RewriteRule .* - [F]

Чтобы проверить работоспособность кода, добавьте в список адресов ваш веб-ресурс. Например, мы добавим в список 24.uplab.ru и попробуем перейти на сайт с этим правилом. Если все работает правильно, вы увидите такое сообщение:
После проверки не забудьте убрать данное правило из списка.

Блокировка реферального спама помогла исключить переходы с ненужных доменов. Больше вы не видите их в отчетах Google Analytics.
2. Отражение спама краулеров
Второй, не менее интересный способ борьбы со спамом — применение так называемого «Отражателя». В данном случае реферер перенаправляется туда, откуда он пришел.

Необходимо создать текстовый файл-карту со списком рефералов. Изначально карта содержит цели для каждого реферала, однако если мы хотим просто отправить их обратно, поставим в карте «–».

##

## deflector.map

##


http://badsite.com -
http://sobadverybad.site.com -

Затем настраиваем файл .htaccess.

RewriteMap deflector "txt:/path/to/deflector.map"
RewriteCond "%{HTTP_REFERER}" !=""
RewriteCond "${deflector:%{HTTP_REFERER}}" "=-"
RewriteRule "^" "%{HTTP_REFERER}" [R,L]
RewriteCond "%{HTTP_REFERER}" !=""
RewriteCond "${deflector:%{HTTP_REFERER}|NOT-FOUND}" "!=NOT-FOUND"
RewriteRule "^" "${deflector:%{HTTP_REFERER}}" [R,L]

Таким образом спамный бот не зарегистрируется как реферал, поскольку просто не достигнет сайта.
Совет
Если вы будете комбинировать фильтрацию с блокировкой спама, то добьетесь максимально точных данных в отчетах. Грамотная настройка и блокировка позволят освободить массу времени, которое вы сможете потратить на анализ действительных данных.
После решения проблемы со спамом вы можете почистить отчеты на любую дату через сегменты Google Analytics.
Дмитрий Щербаков
2830
Оцените статью
()

Поделитесь материалом с друзьями и коллегами:

Комментарии к статье

Другие статьи в блоге
Статьи ~ 25 минут минут на чтение

Как подготовить сайт на «1С-Битрикс» к поисковому продвижению

381
22 ноября 2019
Статьи ~ 20 минут минут на чтение

Новые тренды в digital: на что обратить внимание в 2020 году

1112
18 ноября 2019
Статьи ~ 25 минут на чтение

Система сбалансированных показателей: как перейти от стратегии к действию

1600
08 ноября 2019
Статьи ~ 15 минут на чтение

Как составить портрет потребителя: инструкция, шаблон и примеры

1740
06 ноября 2019
Статьи ~ 20 минут на чтение

Data Driven: как принимать решения на основе данных

1663
28 октября 2019
Статьи ~ 15 минут на чтение

Как использовать шрифт без нарушения авторских прав

658
22 октября 2019
Статьи ~ 15 минут на чтение

Как использовать чат-ботов: сценарии и примеры

3359
21 октября 2019
Статьи ~ 25 минут на чтение

Выбираем редакцию «1С-Битрикс». Каким проектам подойдет Enterprise

616
17 октября 2019
Статьи ~ 10 минут на чтение

Как в Uplab разрабатывают сайты. Этап backend

772
11 октября 2019
Статьи ~ 15 минут на чтение

«Битрикс24.Бостон» — обзор обновления

1639
10 октября 2019
Скрыть форму
+7 499 653 78 83