После ажиотажа вокруг ChatGPT искусственный интеллект стал модным трендом в технологической индустрии. Такие компании, как Google, уже много лет работают над моделями искусственного интеллекта. В среду, 6 декабря, компания представила свою модель Gemini.
Впервые Gemini была упомянута на конференции разработчиков Google I/O 2023. Сейчас она запускается и станет основой для широкого спектра ИИ-приложений Google: от чат-бота Bard до функций ИИ в операционной системе смартфона Android. Google говорит о важной вехе в развитии искусственного интеллекта.
Мультимедийная модель
По словам генерального директора интернет-гиганта Сундара Пичаи, Gemini — «самая мощная и всеобъемлющая» модель Google на сегодняшний день. Это мультимодальная модель ИИ, то есть она может понимать и обрабатывать различные типы информации. К ним относятся:
- Тексты
- Картинки
- Аудио
- Видео
- Языки программирования
Gemini доступен в 4 различных вариантах:
- Gemini Ultra – самая большая и мощная модель для «сверхсложных задач»
- Gemini Pro – модель для «широкого круга задач»
- Gemini Nano – «самая эффективная модель» для задач, рассчитываемых непосредственно на устройстве
Фото: Google
В то время как Pro и Nano уже доступны пользователям и разработчикам, модель Ultra пока проходит тестирования. Google ссылается на внутренние стандарты безопасности и тесты, которые необходимо выполнить заранее.
В целом Google отмечает, что уделяет особое внимание безопасному использованию и внедрению ИИ. Цель состоит в том, чтобы как можно лучше предотвратить предрассудки, токсичное поведение и участие в преступной деятельности. Для достижения этой цели компания работает с группой партнеров.
Gemini против GPT-4
Google не уклоняется от прямых сравнений с конкурентами. Компания позволила Gemini соперничать с базой ChatGPT GPT-4 в нескольких тестах, которые часто встречаются в исследованиях искусственного интеллекта. В тесте MMLU (массовое многозадачное понимание языка) модели должны ответить на вопросы из 57 различных предметных областей. В версии Ultra Gemini превосходит GPT-4 с точностью около 90%, тогда как GPT-4 достигает только 86,4%. По данным Google, Gemini — первая модель искусственного интеллекта, которая превосходит экспертов-людей.
По данным Google, Gemini заняла первое место в 30 из 32 тестов. Gemini превосходит своего конкурента от OpenAI и другие аналогичные модели в мультимодальных тестах, которые помимо текста специализируются на изображениях и видео.
Gemini разрабатывалась с нуля как мультимодальная модель, а не обучала различные компоненты по отдельности, как это было раньше. Gemini обучен давать ответы даже на сложные темы. ИИ может объяснять сложные темы, такие как математика и физика, пишут исследователи Google.
Как использовать Gemini
Самый очевидный способ использовать Gemini — через чат-бота Bard. Bard получит модель Gemini Pro, которая должна значительно расширить его возможности.
На момент запуска Gemini доступен на английском языке в 170 странах и регионах, за исключением Европы. Причиной этого, вероятно, являются правила ЕС о защите данных.
Активацию Bard Advanced планируется провести в начале 2024 года. Основой послужит самый мощный вариант Gemini Ultra. Компания проводит окончательные тесты безопасности в рамках программы Trusted Tester, прежде чем открыть Bard Advanced для большего числа людей.
Смартфоны Pixel
Модель ИИ используется в самой маленькой версии Gemini Nano на смартфонах Pixel 8 Pro. Функция «Подвести итоги» в приложении позволяет подводить итоги разговоров, интервью или презентаций. Поскольку Gemini Nano запускается непосредственно на устройстве, то работает без подключения к сети.
В клавиатуре Google Gboard функция Smart Reply теперь работает с Gemini Nano. Локально действующая модель искусственного интеллекта, которая предлагает ответы в чатах, теперь доступна для тестирования в WhatsApp. В следующем году она будет интегрировано в другие приложения.
В будущем Google Gemini также планирует расширить свое присутствие на большее количество продуктов, таких как поиск, реклама или браузер Chrome.
Gemini для разработчиков
Разработчики Android могут использовать функции Gemini на основе устройств в своих проектах через AICore.
В первой версии Gemini Code может понимать, объяснять и генерировать такие языки программирования, как Python, Java, C++. Google утверждает, что это одна из ведущих моделей кодирования. Его возможности также были проверены в таких тестах, как HumanEval.

