Представитель Яндекса рассказал, как формируются дайджесты новостей

Изначально они модерировались вручную, но сейчас формируются полностью автоматически
2 ноября 2021, вторник 14:25
[Zero] для раздела Блоги

Сотрудник Яндекса, занимающийся машинным обучением в проекте Яндекс.Новости, рассказал в блоге компании на Хабре, как в настоящий момент в сервисе формируются краткие выжимки из новостей, дайджесты сюжетов, содержащие основную новостную информацию. В настоящий момент это происходит полностью автоматически, без ручного модерирования перед публикацией.

Представитель компании уточнил, что в проекте используется собственный алгоритм мультидокументного реферирования через кластеризацию предложений: текст разбивается на предложения, после чего для каждого предложения высчитывается, насколько оно информативно - здесь как раз требуются машинное обучение и анализ при помощи нейросетей.

На следующих этапах алгоритм считает, насколько часто встречаются те или иные смыслы предложений в разных документах и создает из похожих по смыслу единиц кластеры. Чем чаще встречается кластер - тем, за редким исключением, важнее его содержимое. Отбираются четыре самых актуальных кластера, затем текст автоматически фильтруется и сортируется - это необходимо, чтобы он выглядел более связным и читаемым. Для оценки качества разметки и формирования выжимок Яндекс использует сервис Толока, где эти параметры проверяют уже реальные люди. При этом никакой премодерации нет - она применялась только первый месяц после запуска автоматических дайджестов.