
31 января Mistral AI представила свою новую модель Small 3, которая обещает значительно улучшить производительность приложений искусственного интеллекта. Эта модель, получившая название Mistral-Small-24B-Instruct-2501, включает 24 миллиарда параметров и демонстрирует впечатляющие результаты в тестах на рассуждение и многоязычную обработку.
Модель Small 3 выпущена под лицензией Apache 2.0, что дает разработчикам возможность свободно изменять и интегрировать ее в свои проекты. По заявлению компании, модель показывает производительность, сопоставимую с более крупными аналогами, такими как Llama 3.3 70B от Meta и Qwen 32B от Alibaba. На одном и том же оборудовании Small 3 обеспечивает более чем трехкратное увеличение производительности, что делает ее привлекательной для разработчиков.

Оптимизированная для локального развертывания, модель может работать на графическом процессоре RTX 4090 или ноутбуке с 32 ГБ оперативной памяти. Использование технологии квантования позволяет ей быстро обрабатывать данные. Контекстное окно в 32k символов помогает эффективно работать с длинными входными данными, сохраняя высокую скорость реагирования.


Small 3 также предлагает функции вывода в формате JSON и возможность вызова собственных функций, что делает модель подходящей для диалоговых систем и специализированных приложений. В тестах Mistral-Small продемонстрировала высокую точность в рассуждениях, многоязычной обработке и кодировании. Например, модель достигла 84,8% на HumanEval и 70,6% на математических задачах.


Эти результаты показывают, что Mistral Small 3 может не только конкурировать с более крупными моделями, но и превосходить их в определенных аспектах. В условиях растущей конкуренции в области ИИ, такие достижения могут значительно повлиять на выбор разработчиков и специалистов в этой области.


