
Сотрудник Яндекса, занимающийся машинным обучением в проекте Яндекс.Новости, рассказал в блоге компании на Хабре, как в настоящий момент в сервисе формируются краткие выжимки из новостей, дайджесты сюжетов, содержащие основную новостную информацию. В настоящий момент это происходит полностью автоматически, без ручного модерирования перед публикацией.
Представитель компании уточнил, что в проекте используется собственный алгоритм мультидокументного реферирования через кластеризацию предложений: текст разбивается на предложения, после чего для каждого предложения высчитывается, насколько оно информативно - здесь как раз требуются машинное обучение и анализ при помощи нейросетей.
На следующих этапах алгоритм считает, насколько часто встречаются те или иные смыслы предложений в разных документах и создает из похожих по смыслу единиц кластеры. Чем чаще встречается кластер - тем, за редким исключением, важнее его содержимое. Отбираются четыре самых актуальных кластера, затем текст автоматически фильтруется и сортируется - это необходимо, чтобы он выглядел более связным и читаемым. Для оценки качества разметки и формирования выжимок Яндекс использует сервис Толока, где эти параметры проверяют уже реальные люди. При этом никакой премодерации нет - она применялась только первый месяц после запуска автоматических дайджестов.

