После ажиотажа вокруг ChatGPT искусственный интеллект стал модным трендом в технологической индустрии. Такие компании, как Google, уже много лет работают над моделями искусственного интеллекта. В среду, 6 декабря, компания представила свою модель Gemini.
Впервые Gemini была упомянута на конференции разработчиков Google I/O 2023. Сейчас она запускается и станет основой для широкого спектра ИИ-приложений Google: от чат-бота Bard до функций ИИ в операционной системе смартфона Android. Google говорит о важной вехе в развитии искусственного интеллекта.
По словам генерального директора интернет-гиганта Сундара Пичаи, Gemini — «самая мощная и всеобъемлющая» модель Google на сегодняшний день. Это мультимодальная модель ИИ, то есть она может понимать и обрабатывать различные типы информации. К ним относятся:
Gemini доступен в 4 различных вариантах:
В то время как Pro и Nano уже доступны пользователям и разработчикам, модель Ultra пока проходит тестирования. Google ссылается на внутренние стандарты безопасности и тесты, которые необходимо выполнить заранее.
В целом Google отмечает, что уделяет особое внимание безопасному использованию и внедрению ИИ. Цель состоит в том, чтобы как можно лучше предотвратить предрассудки, токсичное поведение и участие в преступной деятельности. Для достижения этой цели компания работает с группой партнеров.
Google не уклоняется от прямых сравнений с конкурентами. Компания позволила Gemini соперничать с базой ChatGPT GPT-4 в нескольких тестах, которые часто встречаются в исследованиях искусственного интеллекта. В тесте MMLU (массовое многозадачное понимание языка) модели должны ответить на вопросы из 57 различных предметных областей. В версии Ultra Gemini превосходит GPT-4 с точностью около 90%, тогда как GPT-4 достигает только 86,4%. По данным Google, Gemini — первая модель искусственного интеллекта, которая превосходит экспертов-людей.
По данным Google, Gemini заняла первое место в 30 из 32 тестов. Gemini превосходит своего конкурента от OpenAI и другие аналогичные модели в мультимодальных тестах, которые помимо текста специализируются на изображениях и видео.
Gemini разрабатывалась с нуля как мультимодальная модель, а не обучала различные компоненты по отдельности, как это было раньше. Gemini обучен давать ответы даже на сложные темы. ИИ может объяснять сложные темы, такие как математика и физика, пишут исследователи Google.
Самый очевидный способ использовать Gemini — через чат-бота Bard. Bard получит модель Gemini Pro, которая должна значительно расширить его возможности.
На момент запуска Gemini доступен на английском языке в 170 странах и регионах, за исключением Европы. Причиной этого, вероятно, являются правила ЕС о защите данных.
Активацию Bard Advanced планируется провести в начале 2024 года. Основой послужит самый мощный вариант Gemini Ultra. Компания проводит окончательные тесты безопасности в рамках программы Trusted Tester, прежде чем открыть Bard Advanced для большего числа людей.
Модель ИИ используется в самой маленькой версии Gemini Nano на смартфонах Pixel 8 Pro. Функция «Подвести итоги» в приложении позволяет подводить итоги разговоров, интервью или презентаций. Поскольку Gemini Nano запускается непосредственно на устройстве, то работает без подключения к сети.
В клавиатуре Google Gboard функция Smart Reply теперь работает с Gemini Nano. Локально действующая модель искусственного интеллекта, которая предлагает ответы в чатах, теперь доступна для тестирования в WhatsApp. В следующем году она будет интегрировано в другие приложения.
В будущем Google Gemini также планирует расширить свое присутствие на большее количество продуктов, таких как поиск, реклама или браузер Chrome.
Разработчики Android могут использовать функции Gemini на основе устройств в своих проектах через AICore.
В первой версии Gemini Code может понимать, объяснять и генерировать такие языки программирования, как Python, Java, C++. Google утверждает, что это одна из ведущих моделей кодирования. Его возможности также были проверены в таких тестах, как HumanEval.