Клоакинг: 7 мифов и заблуждений

Автор: Adspect
8 декабря 2020

Привет, мы Adspect — облачный «комбайн» из кло, фильтра ботов и CPA-трекера. В процессе общения с клиентами, да и просто в Telegram-чатах, мы часто видим одни и те же распространенные, стойкие, ничем адекватно не обоснованные заблуждения в отношении клоакинга рекламы, под воздействием которых арбитражники сами создают себе проблемы. В материале мы рассмотрим ТОП-7 таких заблуждений и подробно объясним, почему они несостоятельны, чтобы в технически сложном темном мире клоакинга стало чуть больше света.

Партнерка для инфлюенс-трафика
Партнерка для инфлюенс-трафика
Реклама

Миф 1: для клоакинга достаточно трекера

Царь-заблуждение. Реальность: в общем случае трекера не достаточно, как бы вам ни хотелось сэкономить. Трекер — не кло. При помощи трекера можно создать некое подобие кло, фильтруя посетителей по IP-адресам и ограничивая таргетингом (то есть по странам, платформам, операционным системам, браузерам и т.д.). У этого подхода два огромных минуса:

  1. Одним таргетингом много не наклоачишь. Практически все рекламные платформы выполняют модерацию с соблюдением таргетинга кампаний. Поэтому вам придется искать черные списки IP-адресов модераторов для фильтрации, и вы их не найдете. IP-баз модераторов не существует в дикой природе, они есть только у сервисов клоакинга и держатся в строгом секрете, так как составляют коммерческую тайну. Все, что вы сможете отыскать в открытом доступе, — это в основном скудные точечные списки IP-адресов отдельных ботов, которые по своей природе и так не представляют опасности для вашей рекламы, так как занимаются совершенно другими вещами: DDoS, подбор паролей, сканирование сайтов на уязвимости, сканирование портов, скрейпинг сайтов, индексация контента и т.п.

    Как максимум, вы найдете диапазоны IP-адресов конкретных компаний, и они также вам не помогут, потому что это лишь капля в море. Для понимания масштаба: в Adspect основная фильтрационная база содержит почти полтора миллиарда адресов IPv4 (это треть всего адресного пространства!), база режима паранойи — более двух миллиардов адресов IPv4, а также десятки тысяч сетей IPv6, количество адресов в которых вообще бессмысленно считать. Фактически, это уже давно не черные списки IP-адресов, а полноценная карта адресного пространства, и даже ее бывает недостаточно для надежной фильтрации.
  2. Есть масса технически продвинутых рекламных площадок, которые используют для модерации резидентские и мобильные IP-адреса. Эти же адреса используются и целевыми посетителями. IP-фильтрация против них бесполезна — только целевых посетителей перебаните. Примеры: Google, TikTok, ExoClick, Outbrain, MGID, PropellerAds и др. Более подробно мы рассмотрим этот момент в следующем мифе.

Кое-что заклоачить трекером можно, но редко, ненадежно и только при условии, что вы вообще знаете как.

Миф 2: для клоакинга Google и TikTok достаточно IP-фильтрации

Это фатальное заблуждение, которое абсолютно точно приведет к банам, если им руководствоваться. Да, у Google и TikTok есть боты, которые приходят из их корпоративных автономных систем, например Googlebot и AdsBot; их можно отфильтровать при помощи черного списка IP-адресов. Но это лишь вершина айсберга.

Обе рекламные сети также используют для модерации IP-адреса телеком-провайдеров в целевых странах, которые неотличимы от IP-адресов обычных людей. Один такой адрес, принадлежащий, скажем, NAT-оборудованию на границе сети мобильной связи, может объединять десятки тысяч абонентов. Приходящие с этих адресов боты тщательно замаскированы: они не афишируют себя, как все те же Googlebot и AdsBot, не имеют ровным счетом никаких лежащих на поверхности опознавательных признаков и могут быть обнаружены только при помощи глубокого анализа их машинных отпечатков. Adspect специализируется как раз на этом. Мы знаем очень многое о внутреннем устройстве самых разнообразных ботов и имеем в запасе уже более сотни фильтров, которые однозначно и точно их ловят.

Миф 3: нужно блокировать все IPv6-адреса

Это одно из самых глупых заблуждений. IPv6 — это более современная замена для морально устаревающего протокола IPv4, который используется для адресации отдельных узлов в Интернете и для передачи данных между ними. С каждым годом доля IPv6 в Интернете возрастает по мере его планомерного внедрения телекоммуникационными компаниями по всему миру. Все крупнейшие Интернет-провайдеры и операторы связи предоставляют своим клиентам IPv6-роутинг, и бездумная блокировка IPv6-адресов приведет лишь к потерям целевого трафика, зачастую весьма существенным.

Почему же тогда некоторые сервисы клоакинга дают такую рекомендацию? Потому что у них нет надежных фильтрационных баз IPv6-адресов. Adspect полноценно работает с IPv6-адресами и обладает обширной собственной базой, которая по полноте и точности не уступает базе IPv4-адресов.

Миф 4: Cloudflare «палится»

Это миф, выросший на почве неверных выводов. Cloudflare успешно используется для сокрытия IP-адреса конечного сервера от рекламных площадок, которые могут использовать одинаковый IP-адрес у разных доменов как причину логически связать несколько рекламных кабинетов друг с другом и, возможно, даже забанить. Видимо, миф был придуман именно теми, кто получал баны при использовании Cloudflare и решил списать их именно на сервис. На поверку оказывается, что либо Cloudflare использовался лишь как DNS-сервис без проксирования (проверьте — облачко напротив DNS-записей должно быть оранжевым), либо баны были по другим причинам, которых может быть великое множество. При правильной настройке сервис никак не выдает конечное расположение ваших серверов.

Главным аргументом сторонников «теории дырявого Cloudflare» является то, что за каждым аккаунтом фиксируются два имени NS-серверов, которые будут одинаковыми для всех подключенных к аккаунту доменов и таким образом якобы будут указывать на принадлежность этих доменов одному и тому же владельцу. Давайте посчитаем.

Всего у Cloudflare имеется 101 имя для NS-серверов: 51 мужское и 50 женских. Из этого списка составляются гетеронормативные пары по принципу «одно мужское, одно женское», что дает 51 × 50 = 2550 уникальных комбинаций. А сайтов на Cloudflare 25 миллионов (по их данным). Получается, что при равномерном распределении одинаковые имена NS-серверов обслуживают почти по 10 тысяч сайтов. По нашей оценке этого более чем достаточно, чтобы ни Google, ни Facebook, ни другие площадки не могли связать доменные имена по этому признаку. Вот первоисточник, если кому-то интересно почитать подробнее.

Мы рекомендуем всегда использовать Cloudflare. Это бесплатно, удобно, надежно, а также позволяет кешировать контент ваших лендингов на серверах одной из крупнейших CDN в мире для ускорения его отдачи посетителям. Если вы особенно опасаетесь обнаружения, то удалите MX- и TXT-записи (SPF, DKIM), которые часто идут в комплекте с новыми доменами.

Миф 5: клоака X работает на базе нейросети

Если вам говорят, что в основе какой-либо кло лежит нейросеть — не верьте, вас обманывают. Это был бы пример фантастически неадекватного выбора инструмента для решения поставленной задачи. Фильтрация трафика является подходящей задачей для машинного обучения, но никак не для нейронки. В чем разница?

Нейросеть — это модель мозга. Это сложная и ресурсоемкая структура данных, состоящая из большого числа нейронов и связей между ними, которая, помимо значительных затрат на разработку и обслуживание, требует огромного объема входных данных для обучения, чтобы построить дающие нужный результат нейронные связи. Безусловно, можно потратить уйму человеко-часов и денег и построить нейросеть для фильтрации трафика с поиска Google, чтобы не пускать их модераторов на лендинг с рекламой Titan Gel… Но зачем? Безумная инвестиция. Нейросети занимаются качественно иными и намного более сложными задачами, такими как распознавание лиц и образов. Нейросеть де-юре является подвидом машинного обучения, но в обычном понимании эти термины отличаются.

Машинное обучение — это намного более простая в устройстве и разработке статистическая система, по сути набор математически связанных счетчиков. В основе машинного обучения лежит теория вероятностей, и, хотя предмет может показаться сложным на первый взгляд, в действительности это лишь очень удобная автоматизация поиска аномалий в статистике. Задача классификации с дискретными входами и выходами — одна из классических задач машинного обучения и имеет в этой области множество различных решений. Для обучения модели не требуется больших объемов данных: к примеру, простейший наивный Байесовский классификатор выходит на точность после 10-100 тысяч циклов обучения.

Если говорить в общем, то разница между этими инструментами для целей клоакинга — как между молотком и микроскопом для забивания гвоздей.

Миф 6: сервисы клоакинга врут про машинное обучение

А этот миф полярен предыдущему. Мы видели утверждения, будто ни у одной из кло на рынке на самом деле нет системы машинного обучения, что это лишь модная рекламная замануха, что машинному обучению вообще нет применения в клоакинге и фильтрации трафика. Что ж, во многом эти утверждения интуитивно обоснованы, так как машинное обучение традиционно воспринимается как «rocket science» запредельной сложности, а клоакинг-сервисы обычно не бросаются в глаза своим техническим совершенством. Ситуацию усугубляет и то, что в ответ на даже поверхностные вопросы об устройстве этого машинного обучения представители сервисов начинают «морозиться».

Скажем за себя: у нас действительно есть система машинного обучения (т.н. модель), она работает с момента публичного запуска сервиса и показывает отличные результаты. Именно эта система — VLA, как мы ее называем (аббревиатура от англ. «Virtual Learning Appliance»), — продолжает помогать нам совершенствовать наши фильтры для JS-фингерпринтов, так как ловит и берет «на карандаш» тех, кто смог все эти фильтры обойти, после чего мы проводим ручной анализ и обнаруживаем новые способы борьбы.

Утверждения же, будто машинному обучению нет применения в клоакинге и фильтрации трафика («обучение клоаки это сказки»), совершенно неверны. Байесовские классификаторы уже многие годы успешно фильтруют спам в электронной почте. Фильтрация ботов и модераторов в трафике принципиально мало чем отличается, все упирается лишь в набор анализируемых фактов (стоп-слова в спаме, компоненты фингерпринтов в трафике), методики обучения, а также специфические особенности математической модели в основе системы (например, VLA умеет забывать неактуальную информацию, чтобы минимизировать ложноположительные срабатывания).

Цена машинного обучения невысока — оценка выше тройки за «тервер» в университете.

Миф 7: для надежной клоаки нужно много разных фильтров

Ребята, сейчас 2020-й год, будь он неладен, а не 2010-й! Хороший сервис клоакинга должен все сам за вас делать. Максимум, можно помочь ему, добавив список целевых ГЕО. Весь смысл слова «сервис» заключается в том, что все делают за тебя и преподносят тебе готовый результат на блюдечке с голубой каемкой, как Корейко Бендеру миллион советских рублей. Именно этим принципом мы и руководствуемся при разработке Adspect.

Изначально в настройках потока у нас были лишь поля для белой и черной страниц плюс пара переключателей (мобильных приложений и точности VLA) — вбил две строчки и погнали. Мы были буквально вынуждены добавить в систему все то многообразие фильтров, которое в ней есть сейчас, под влиянием стереотипа «мало настроек — плохая клоака», чтобы не терять потенциальных клиентов из-за этого расхожего заблуждения. Однако, функционально с тех пор мало что изменилось: всю работу выполняют именно встроенные фильтры, а ручные лишь страхуют, поэтому настраивать правила фильтрации вручную обычно не требуется, за единичными исключениями. Время сложных интерфейсов LeadCloak и JustCloakIt прошло.

FIN.

8 декабря 2020
Для голосования требуется
0
Автор:
Adspect
Количество статей:
4
Рейтинг автора:
0
Количество статей:
4
Рейтинг автора:
0
поделиться:

Читайте также:

Комментарии (0)
Читатели еще не оставили комментарий, будьте первым
label

Сервис Bankoff, позволявший выпускать карты, прекращает свою деятельность из-за наплыва пользователей  /  Криптобиржа Currency прекращает работать в России  /  Выпустили огненное интервью на YouTube-канале с командой TraffBraza  /  Роскомнадзор запретил на территории России рекламное продвижение Google и её сервисов  /  Новое экзотическое ГЕО от М1 — Эквадор  /  NashStore вместо Google Play: в России запустят аналог магазина приложений для Android  /  

Изменения сохранены
Черновик сохранен
Отправлено на модерацию
Произошла ошибка