IBM представила новое поколение своих языковых моделей (LLM) под названием Granite 3.2, которые предназначены для использования предприятиями. Основная цель - создание компактных и эффективных моделей искусственного интеллекта, которые могут быть применены на практике. Модели Granite 3.2 доступны под лицензией Apache 2.0, а также на различных платформах, включая IBM watsonx.ai, Ollama, Replicate и LM Studio. В скором времени ожидается их появление на RHEL AI 1.5, что позволит широкому сообществу разработчиков воспользоваться этими моделями с открытым исходным кодом.
Одной из ключевых особенностей новых моделей Granite является модель языка видения (VLM), которая предназначена для понимания документов. VLM модель продемонстрировала производительность, соответствующую или превосходящую более крупные модели, такие как Llama 3.2 11B и Pixtral 12B, на важных корпоративных задачах, таких как DocVQA, ChartQA, AI2D и OCRBench1. Для достижения таких результатов IBM использовала собственный инструментарий Docling и обучила модель на 85 миллионах PDF-файлов и создала 26 миллионов синтетических пар вопросов-ответов.
Еще одной важной особенностью моделей Granite 3.2 является возможность включения или выключения рассуждений для оптимизации эффективности. Модели 3.2 2B и 8B обладают способностью проводить логические выводы, что позволяет улучшить их рассуждения. Модель 8B, благодаря такой возможности, показала значительное улучшение по сравнению с предыдущей версией в целом ряде реальных ситуаций и задач, таких как ArenaHard и Alpaca Eval.