Платим блогерам
Блоги
Alex040
Новая система якобы сильнее традиционных ИИ-моделей в вопросах математики, логики, и её сложнее ввести в заблуждение различными хитрыми вопросами.

Китайский стартап DeepSeek открыл доступ всем желающим к своей новой нейросети под названием R1 Lite. Причём на данный момент это превью-версия, которую в будущем обещают сделать лучше.

R1 Lite отличается от других нейросетей (больших языковых моделей) тем, что она умеет «размышлять» перед ответом. Разумеется, о реальном мыслительном процессе речи не идёт. И всё же система действует иначе, чем большинство конкурентов.

Если обычные модели пишут ответ на вопрос пользователя буквально через секунду после его появления, то DeepSeek R1 Lite сперва какое-то время рассуждает внутри себя, предлагает решения, занимается самокритикой, а уже потом выдаёт ответ.

Китайская DeepSeek стала второй компанией в мире, которая использует подобный подход. Первыми были модели o1 mini и o1 preview от OpenAI (создатели ChatGPT), которые вышли пару месяцев назад.

Однако DeepSeek уверяет, что её решение лучше, и на то есть причины:

  • В ряде ключевых тестов, особенно из области математики, R1 Lite превосходит o1 preview;
  • Решение DeepSeek бесплатно может попробовать любой желающий. OpenAI предоставляет доступ к o1 лишь платным подписчикам ChatGPT, причём с серьёзными лимитами;
  • DeepSeek намерена опубликовать исходный код (веса) своей модели. OpenAI такого не сделает;
  • Во время «раздумий» R1 без всяких секретов показывает все свои цепочки «мыслей». o1 preview от авторов ChatGPT показывает лишь подзаголовки, скрывая от пользователей всё остальное.

Результаты тестов R1 Lite против основных конкурентов, включая «рассуждающую» o1 и обычные языковые модели.

Попробовать DeepSeek R1 Lite можно на сайте компании. Авторизация там по электронной почте или с помощью аккаунта Google. По умолчанию с пользователем общается большая языковая модель DeepSeek 2.5. Чтобы заменить её на новую «думающую» R1 Lite, нужно активировать пункт «Deep Think».

Так как «думающие» модели потребляют заметно больше вычислительных ресурсов, для них пока введён лимит: не более 50 вопросов в день. К сравнению, OpenAI разрешают задать o1 не более 50 вопросов в неделю.

Во время ответа R1 Lite серым мелким шрифтом будут обозначены внутренние «мысли» системы, а тёмным более крупным шрифтом – итоговый ответ.

Активация R1 Lite в диалоговом интерфейсе чат-бота.

Из любопытства мы взяли несколько проверочных вопросов, которые часто сбивают с толку традиционные языковые модели. Например:

  • 9,11 или 9,9 – что больше?
  • Сколько букв "r" в слове strawberry, сколько букв "r" в слове mirror, сколько букв "к" в слове кукушка?
  • У Алисы 2 брата и 5 сестёр. Сколько сестёр у брата Алисы?

GPT-4o и Gemini 1.5 Pro (1114) неверно отвечают на логическую задачку.

R1 Lite отвечает на эти вопросы правильно, в то время как наиболее продвинутые версии ChatGPT-4o и Gemini 1.5 Pro выдают неверный ответ. С другой стороны, какие-то особо сложные задачи вроде модифицированного теста Эйнштейна проваливают сейчас все системы без исключения.

Впрочем, само название «R1 Lite Preview» явно подчёркивает, что перед нами лишь первая версия, причём в облегчённом варианте и вдобавок в виде незавершённого превью.

При этом компания не отказывается от выпуска и традиционных «не размышляющих» моделей, т. к. они потребляют куда меньше ресурсов и выдают ответы почти мгновенно. Сейчас у DeepSeek актуальна версия 2.5. В тестах ChatBot Arena она всего лишь на 20-м общем месте, но зато на 11-м в подтестах математики и на 7-м в создании программного кода. Причём версия 3.0 также не за горами.

Начало цепочки рассуждений (на английском) и итоговый ответ от DeepSeek R1 Lite.

Что касается «думающих» систем, то они, кажется, будут главным трендом на 2025 год. Согласно данным Bloomberg, разработчики традиционных больших языковых моделей сейчас столкнулись с проблемами. Они вкладывают огромные деньги в ИИ-ускорители и обучение моделей, прирост качества от этого есть, но он не настолько большой, как рассчитывали создатели.

Поэтому именно новые пути развития, а не просто масштабирование становятся приоритетной задачей. Если сейчас «думающие» системы есть только у OpenAI и DeepSeek, то в ближайшие месяцы свои аналоги хотят выпустить Google, Anthropic (Claude) и команда x.AI, принадлежащая Илону Маску. Безусловно, свои ходы сделают и различные китайские команды разработчиков.

Вероятно, новые системы будут какое-то время выпускаться наряду с обычными, как, например, у OpenAI сейчас сосуществует основная GPT-4o и «размышляющая» o1.

+
Написать комментарий (0)

Популярные новости

Сейчас обсуждают