Про изменение системы ранжирования Яндекс — Yandex YATI

Автор: Anna ProTraffic
11 декабря 2020

На очередной технологической конференции, 25 ноября 2020 года Яндекс представил революционный алгоритм обработки текста YATI, основанный на нейросетях-трансформерах. По сути, тот же BERT, но отечественного розлива. Правление Yandex открыто заявляет, что ранжирование сайтов теперь станет более разумным — из поисковой выдачи исчезнут бессмысленные и малополезные страницы.

YATI обеспечивает совершенно новый подход, опираясь на смысловую составляющую. Этот алгоритм устанавливает наилучшее семантическое единение между намерением пользователя, запросом и документом.

Трансформер прошёл более сложное обучение. Ему показывали не просто материал, а реальные ключевые фразы и тексты, открываемые юзерами. Затем просили угадать, какая статья понравилась и не понравилась пользователю. Таким образом, усовершенствовалась технология распознавания смысловой связи.

Как работал поиск раньше?

Основная задача поисковика — дать пользователю наиболее полезный ответ. Робот начинает оценивать/сравнивать материалы на страницах. Как человек он читать не умеет, поэтому ему приходится использовать математические формулы. Один из главных показателей — релевантность, алгоритм определяет, грубо говоря, так. Если статья и ключ имеют много схожих слов, то машина предполагает, что близость по смыслу обеспечена. Конечно, это вместе с расчётом количества фраз, длины контента, поведенческих факторов. 

Обязательно проверяется история поиска — каким web-page пользователи отдавали большее предпочтение по конкретному обращению (какие собирали больше кликов).

Таким образом, автоматически выделялись полезные данные по семантической связи между главным ключом и статьёй, но в процессе не происходило понимания роботом сути документа (создавалась иллюзия поиска). По такому принципу работал search engine до 2016 года, затем появились новые модули:

  • Палех (2016) — ранжирование осуществлялось не просто по введённому пользователем запросу, но и по синонимам (для этого использовались искусственные нейронные сети)
новый модуль Палех
  • Королёв (2017) — усовершенствованный вариант Палеха, анализирующий не только смысл заголовка страницы, но и всего документа.

Эти два анализатора позволили главному поисковику рунета не просто находить совпадения, а понимать суть вопроса. Теперь в статье необязательны ключевые слова, Яша понимает, о чём идёт речь уже на основании близких по внутреннему содержанию и даже выражающих схожую информационную потребность фраз. Однако всё ещё впереди.

реальные примеры расширенных запросов, взятых из Яндекса
реальные примеры расширенных запросов, взятых из Яндекса

Как работает Яндекс YATI?

Работает YATI по принципу обучения нейронных сетей. Сначала на вход в трансформеры подаётся эталон или идеальный документ. Затем алгоритм перенимает экспертную оценку, тем самым учится ранжировать страницы по всем ключевым запросам. Дальше технология переходит непосредственно к поисковой выдаче.

Дальше технология переходит непосредственно к поисковой выдаче

Эталон появился благодаря асессорам, которые проводили анализ текстов с использованием сложной шкалы оценки на предмет релевантности обращениям пользователей.

Новый алгоритм сразу показал рекордный уровень в качестве поиска. Например, стало возможно находить название фильма, когда помнишь только его краткое содержание. Достаточно скормить эту информацию в Yandex.

Преимущества YATI:

  • возможность осмысления не только коротких, но и длинных запросов;
  • умение выделять из текста наиболее значимые части;
  • способность учитывать порядок слов.

Нейросети в ранжировании

Нейронная сеть — это один из вариантов математической имитации реальности, её программное воплощение. Принцип функционирования напоминает работу нервной системы живого организма.

сравнение биологической и искусственной нейронной сети
Сравнение биологической и искусственной нейронной сети

Яндекс научился успешно применять нейронные сети в ранжировании. Благодаря ИНС поиск вышел на кардинально новый уровень, стал лучше распознавать текстовый, иллюстрированный и даже речевой запрос пользователя.

Главное отличие нейронной сети, делающее её уникальной — возможность обучаться на основе полученной ранее информации. Это удаётся за счёт прочных связей между узлами — синоптических весов или коэффициентов. 

Первые поисковые нейронные сети (feed-forward) работали по упрощённой схеме. Введённый пользователем запрос сравнивался с документом. Затем в виде исходного мешка слов (bag of words) подавался на вход НС. Тут слова трансформировались в числовые векторы, которые суммировались в одну величину (текст). Взаимный порядок фраз при этом терялся или учитывался частично (неизвестный термин удавалось разбить максимум на триграммы). Bag of words активно обрабатывался нейронами, на выходе образовывался семантический вектор или эмбеддинг.

Bag of words активно обрабатывался нейронами, на выходе образовывался семантический вектор или эмбеддинг

Однако недостатками работы первых нейронок были:

  • частичная или полная потеря порядка слов;
  • малый запас фраз;
  • ограничение по триграммам.

Всё же преимущество нейросетей перед устаревшими алгоритмами было неоспоримым. Они позволяли распознавать суть текста с помощью несложных расчетов. Для определения степени соответствия между запросом и основным содержанием, создавался отдельный эмбеддинг. Нейронка обучалась выполнять обработку на куче примеров. Вместо классической оценки смысла использовались приоритеты пользователей. Feed-forward значительно усовершенствовал выдачу, что легло в основу создания Палеха и Королёва.

Нейросети-трансформеры

На конференции YaC 2020 года как раз было рассказано о наиболее значимом событии за последние 10 лет в Яндексе. А именно про внедрение трансформера — новой нейросетевой архитектуры для ранжирования сайтов. 

Долгое время основной целью в поиске было решить задачу машинного перевода. Хотя алгоритм всё делал математически точно, оставались небольшие смысловые ошибки, которые сразу замечались пользователями. Постепенно стали внедряться усложнённые модули, способные учитывать порядок слов и их взаимную связь.

Сначала это были Recurrent Neural Networks, а затем — трансформеры. В архитектуре таких нейросетей каждый элемент статьи (слово, вопросительный знак, точка, биграммы/триграммы) шлифуется порознь и представляется самостоятельной величиной. Также используется механизм attention, который позволяет обрабатывать разные отрывки документа.

Также используется механизм attention, который позволяет обрабатывать разные отрывки документа

Трансформеры умеют чётко запоминать сложные связи между лексемами, поэтому широко применяются в переводах и FAQ. Яндекс.Переводчик, например, применяет их давно. Что касается ранжирования, то здесь нейросети-трансформеры дают возможность добиться нового уровня качества поиска, когда полезная информация извлекается из больших документов.

YATI и SEO

Самое интересное, что произойдёт, по мнению Seo-шников: Яндекс начнёт отдавать предпочтение крупным сайтам. Веб-площадки, которые продвигались за счёт низкочастотных ключей и фраз с хвостом, могут потерять свой трафик. Его переманят авторитетные ресурсы, добавившие страницы с теми же запросами. Например, сервисы Yandex, Ozon активно конкурируют с мелкими площадками во многих тематиках. 

И этот факт уже налицо. Вот ссылка с одного форума.

Ссылка с форума

Сайт человека длительное время стоял в топе, а сейчас позиция опустилась на 5 место. Очевидно, что трафик резко упадёт. А это с другого форума.

Сссылка с другого форума

Одно успокаивает — в выдаче практически не останется г-но ресурсов, отнимающих посетителей. А если не хотите отставать, вкладывайте в продвижение деньги, закупайте рекламу и хорошие ссылки. 

И ещё хорошая новость для владельцев информационных проектов. По коммерческим фразам теперь вполне релевантным может оказаться и их контент. Например, по запросу «купить автомобиль Ниссан», помимо прочего, в топе может показываться хорошо написанный обзор модели с проведёнными тест-драйвами и отзывами покупателей.

Важные нюансы 

Основная сложность, которая встала перед Яндексом при внедрении YATI — трансформеру нужно было больше времени. Если прежние алгоритмы обучались всего за час, то новая сеть требовала не меньше 10 лет. Решение нашлось быстро. Пришлось изменить текущие мощности, которые использовались для поддержки обычных нейронок.

Тяжёлому модулю сразу показали идеальные тексты, а процесс дообучения осуществили на очерёдности задач. Первым делом применялись дешёвые оценки из краудсорсингового проекта Толока. Потом — дорогие экспертные мнения. Завершающий этап подразумевал итоговую проверку на качество обучения (метрику).

Интересно, что произошло с BERT — алгоритмом от Google. В ходе экспериментальной подготовки увеличение качества поиска составило 4%. Итог положительный, но в срезе требуемых решений, слишком низкий. Тогда Google внедрил с нуля BERT-base. Эффективность возросла до 10%. Яндекс учёл этот факт, и возможную неудачу восполнил усовершенствованными модулями, где лучшей оказалась продакшн-модель.

Интересно, что произошло с BERT — алгоритмом от Google

Как подготовить сайт к системе ранжирования YATI?

Поиск на основе YATI однозначно изменится. Трафик из SERP начнёт перетекать от сайтов с плохим контентом к действительно качественным ресурсам. Страницы, чрезмерно заточенные под ключевые запросы, могут кардинально ухудшить свои позиции. Большое значение новый модуль придаёт асессорам и контенту. 

Ниже рекомендации для веб-мастеров для получения благосклонности нейросети-трансформера Яндекса 2020:

  • пишите «натуральные» тексты — качественные материалы по теме, нацеленные именно на решение проблемы пользователя;
  • большие статьи обязательно разбивайте на разделы с информативными подзаголовками;
  • покупайте рекламу в Директе:
  • оптимизируйте заголовки (повышайте релевантность) — YATI активно отбрасывает большое количество результатов, явно не относящихся к теме;
  • опирайтесь на рекомендации для асессоров — теоретически контент должен понравиться сначала обученным оценщикам Яндекса, чтобы иметь право бороться за место под солнцем в топе;
  • никоим образом не переполняйте страницу ключами — уже лучше недобдеть, чем перебдеть (раньше было наоборот);
  • употребляйте больше синонимов;
  • делайте короткие абзацы, включайте цитаты, списки — современные читатели не любят длинные портянки текста.

Яша уже который раз обновляет свои алгоритмы. Нелегко приходится отечественному поиску, конкурирующему с Гугл. Будем надеяться, что YATI станет успешнее буржуйного BERT, и выдача заблестит эталонным во всех отношениях контентом.

11 декабря 2020
Для голосования требуется
0
Автор:
Anna ProTraffic
Количество статей:
296
Рейтинг автора:
240
Количество статей:
296
Рейтинг автора:
240
поделиться:

Читайте также:

Комментарии (0)
Читатели еще не оставили комментарий, будьте первым
label

Сервис Bankoff, позволявший выпускать карты, прекращает свою деятельность из-за наплыва пользователей  /  Криптобиржа Currency прекращает работать в России  /  Выпустили огненное интервью на YouTube-канале с командой TraffBraza  /  Роскомнадзор запретил на территории России рекламное продвижение Google и её сервисов  /  Новое экзотическое ГЕО от М1 — Эквадор  /  NashStore вместо Google Play: в России запустят аналог магазина приложений для Android  /  

Изменения сохранены
Черновик сохранен
Отправлено на модерацию
Произошла ошибка