CatBoost от Яндекса вошел в топ-5 ML-инструментов, конкурируя с разработками Google и Microsoft

Алгоритм CatBoost, разработанный Яндексом, вошел в пятерку самых упоминаемых в мире неамериканских инструментов машинного обучения. Согласно отчету ML Global Impact Report 2025, его используют исследователи из 51 страны, включая ведущие университеты США и Китая.
15 декабря 2025, понедельник 14:20
Global_Chronicles для раздела Блоги

Российская разработка неожиданно оказалась в одной лиге с продуктами технологических гигантов вроде Google и Microsoft. Речь не о новом ChatGPT, а а об алгоритме машинного обучения, который изначально создавали для ранжирования результатов в поиске Яндекса. Его главная сила — умение находить сложные закономерности в табличных данных.

Отчет Marktechpost показал интересную картину. США создают 90% инструментов с открытым кодом, на которые ссылается наука. Китай производит 43% всех научных статей по машинному обучению. А между ними, в узкой группе самых популярных неамериканских технологий, затесался CatBoost от Яндекса. Его применяют в каждой тридцатой научной работе, где вообще есть ML.

Цифры впечатляют. Алгоритм используют ученые из 51 страны. В списке — Гарвард, MIT, Стэнфорд. По частоте упоминаний CatBoost (13% статей) стоит рядом с американскими аналогами: XGBoost (15%), классическим Gradient Boosting (12%) и LightGBM от Microsoft (10%). Фактически, российская библиотека конкурирует с продуктами бигтеха на равных.

Почему он так популярен? Все просто. Мир данных — это часто не картинки и текст, а гигантские таблицы. CatBoost как раз и создавали для таких структурных данных. Изначально — чтобы ранжировать страницы в поиске Яндекса. Алгоритм ищет в таблицах сложные, неочевидные закономерности. Эта же логика работает в медицине, экологии или финансах. Например, строки — это пациенты, а столбцы — их анализы. Алгоритм, обученный на тысячах таких строк, может спрогнозировать риск осложнений.

В науке CatBoost уже помог в прогнозировании рецидивов рака печени, диагностике болезни Альцгеймера и оценке качества воды. В бизнесе его взяли на вооружение крупные игроки. На «Авито» алгоритм встроен в систему рекомендаций и модели монетизации. Там ценят его скорость и умение автоматически работать с категориальными данными — типами товаров или регионами.

В МФТИ с помощью CatBoost учатся предсказывать состояние литий-ионных аккумуляторов. Специалисты отмечают, что алгоритм показал высокую точность «из коробки», без сложной настройки. Это ключевое преимущество для ученых, у которых нет времени на долгую оптимизацию кода.

При этом авторы отчета Marktechpost делают важное замечание. Несмотря на ажиотаж вокруг генеративного ИИ, фундамент научных исследований по-прежнему составляют классические, «зрелые» методы машинного обучения. Именно в этой нише CatBoost и нашел свое место. Алгоритм, созданный для улучшения поиска, теперь помогает ставить медицинские диагнозы и продлевать жизнь батареям. И судя по статистике, у наших ученых это получается.