Нейросеть Qwen 3 с 30 миллиардами параметров решила 85% задач олимпиады AIME

Система, которую можно запустить на одной видеокарте, сопоставима с флагманами начала года
1 августа 2025, пятница 09:48
Alex040 для раздела Блоги

Команда разработчиков Qwen, принадлежащая китайскому ИТ-гиганту Alibaba, продолжает обновление своей линейки нейросетей серии Qwen 3. Если на прошлой неделе обновилась флагманская версия Qwen 3 с 235 миллиардами параметров, то теперь настал черёд моделей, которые пользователь при наличии большего объёма VRAM может запускать локально у себя на компьютере.

Начальной из них стала модель Qwen3 30B A3B 2507. Она приходит на смену аналогичной модели Qwen 3, выпущенной в апреле, и показывает преимущество в тестах. Система доступна в модификациях Instruct и Thinking. Первая сразу отвечает на запрос пользователя, вторая «думает» перед ответом, что занимает время, но зато улучшает его качество.

Если верить авторам, то версия Thinking настолько хороша, что сопоставима с январской DeepSeek R1. Той самой моделью, после которой к стартапу DeepSeek пришла популярность. Однако DeepSeek R1 – это 671 миллиард параметров, что практически полностью исключает возможность запуска на обычном пользовательском ПК. У Qwen 3 30B шансов запуститься на ПК с мощной видеокартой и большим объёмом VRAM гораздо больше.

При этом в тестах модель даже слегка опережает январский DeepSeek R1. Она решает 85% задач математической олимпиады AIME, в то время как DeekSeek R1 был способен решить 79,8% заданий. В свою очередь, в тесте на научные знания и рассуждения, обновлённая Qwen 3 решает 73,4% задач против 71,5% у первого DeekSeek R1.

Ещё более впечатляющее превосходство у Qwen над моделью GPT 4.1 mini, которая сейчас является основной бесплатной версии ChatGPT. Согласно данным Artificial Analysis, GPT 4.1 mini набирает 66% в GPQA и всего 43% в задачах AIME.

Прогресс июльской Qwen 3 30B на фоне апрельских Qwen 3 30B и Qwen 3 235B.

Справедливости ради стоит заметить, что DeepSeek R1 был обновлён ещё в мае, усилив свои результаты в GPQA до 81% (столько же сейчас у обновлённой Qwen 3 235B). В свою очередь, ChatGPT может получить большое обновление в начале августа вместе с анонсом моделей серии GPT-5.

Тем не менее на стороне Qwen 3 30B остаётся компактность, которая позволяет запускать данный ИИ локально. Скорее всего, в ближайшие недели разработчики могут выпустить обновления для ещё более компактных моделей линейки, включая версии 14B, 8B, 4B, 1,7B и даже 0,6B. Последние в теории можно будет использовать даже на смартфонах.

Помимо прироста в тестах, для июльского обновления Qwen 3 авторы также заявляют увеличенное со 128 до 256 тысяч токенов контекстное окно. Оно поможет нейросети дольше удерживать контекст беседы и анализировать длинные документы.