Платим блогерам
Блоги
Alex040
При этом система также имеет открытый исходный код и втрое «компактнее» DeepSeek R1 по числу параметров.

Китайская команда разработчиков нейросетей Qwen на этой неделе выпустила сразу две новые версии своей флагманской большой языковой модели Qwen 3. Речь идёт о наиболее крупной модификации Qwen 3 с 235 миллиардами параметров.

Может быть интересно

Напомним, Qwen 3 была представлена в апреле и теперь получает первое обновление. Ещё в начале недели разработчики обновили «недумающий», так называемый Instruct-режим работы системы. В этом случае модель сразу же генерирует свой ответ и выдаёт его пользователю очень быстро.

После апдейта «недумающая» версия Qwen 3 показала сильный прогресс во всевозможных бенчмарках. К примеру, в тесте GPQA, проверяющим научные знания, результат составил 77,5%. Для Instruct-моделей, которые сходу выдают свой ответ пользователю, это рекорд.

Сегодня же команда Qwen представила модель «Qwen 3 235B A22B Thinking 2507» – лучшее, что на данный момент есть у компании. Модель по-прежнему содержит 235 миллиардов параметров, из них 22 миллиарда активы. «Thinking» означает, что перед нами именно «думающая» версия системы. Её ответы пользователь видит после существенной задержки, но зато их качество, как правило, выше. Наконец, последние цифры означают дату выпуска системы.

Согласно представленным результатам тестов, обновлённая Qwen 3 Thinking сравнялась с актуальной версией DeepSeek R1 в тесте GPQA, а также вышла вперёд в тестах AIME и LiveCodeBench. Последние проверяют решение математических олимпиадных задач и сложных задач программирования соответственно.

Заметим, что DeepSeek R1 является заметно более «тяжёлой» моделью с 671 миллиардом параметров. Qwen 3 в этом плане будет существенно менее затратной в эксплуатации для ИИ-провайдеров.

Помимо DeepSeek, разработчики Qwen сравнивают свою модель с наиболее сильным решением Google – Gemini 2.5 Pro, а также с моделью o4 mini от авторов ChatGPT.

Кроме того, на иллюстрации выше можно сравнить обновлённую Qwen 3 Thinking с версией Qwen 3 Thinking, выпущенной в апреле. Всего за три месяца авторам удалось увеличить балл в GPQA с 71 до 81%, в AIME с 81 до 92%, а в LiveCodeBench с ~56 до 74%. В сложнейшем тесте Humanity's Last Exam результат улучшился с 11,8 до 18,2%. То есть более чем в полтора раза.

В карточке модели, ссылку на которую публикуют разработчики на своей странице GitHub, можно увидеть и результаты иных тестов в сравнении с конкурентами. Так, модель оказывается первой в бенчмарке WritingBench и лишь на 1,6% уступает флагманской o3 от OpenAI в тесте Creative Writing.

Выбор нужной модели и режима мышления в Qwen Chat.

Наконец, у модели увеличилось контекстное окно: со 128 до 256 тысяч токенов. Это означает, что она может анализировать вдвое более крупные тексты и не терять контекст особо длинных диалогов. DeepSeek R1 пока всё ещё ограничен 128 тысячами токенов. Бесплатно попробовать новую систему любой желающий может через портал Qwen Chat (может потребоваться вход через аккаунт Google).

С такими результатами тестов Qwen 3 на данный момент можно назвать сильнейшей среди больших языковых моделей с открытым исходным кодом. Впрочем, лидерство здесь будет удержать сложно. Уже скоро должны быть выпущены DeepSeek R2, а также «думающая» версия Kimi 2. В свою очередь, среди закрытых систем наиболее ожидаемы сейчас GPT-5 и Gemini 3.0.

Источник: github.com
+
Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают