
Исследовательское подразделение компании Google под названием DeepMind сосредоточило все силы на передовых разработках в сфере искусственного интеллекта и сейчас активно ведет работу над созданием так называемых "мировых моделей" (world models). Эти сложные системы призваны имитировать работу реального мира и рассматриваются как ключевой элемент в амбициозной цели Google – достижении общего искусственного интеллекта, или AGI, раньше своих конкурентов. Впрочем, стремление к появлению AGI – это лишь часть более широкой картины. Разработки в этой области также подстегивают прогресс в создании более совершенных чат-ботов, инструментов для генерации медиаконтента на основе искусственного интеллекта и, в перспективе, интеллектуальных робототехнических систем.
Информацию о запуске нового проекта озвучил Тим Брукс, научный сотрудник DeepMind, ранее возглавлявший разработку Sora в компании OpenAI. В своем аккаунте в социальной сети X (ранее известной как Twitter) он сообщил о поиске квалифицированных исследователей и инженеров в области искусственного интеллекта. В опубликованных вакансиях уточняется, что DeepMind ищет специалистов, которые помогут в "разработке генеративных моделей физического мира". Эти модели, в свою очередь, станут основой для "масштабного обучения мировых симуляторов". Согласно описанию вакансий, созданные симуляторы найдут применение в самых разных областях, включая совершенствование визуального восприятия и моделирования, разработку систем планирования для "реальных агентов" (роботов, взаимодействующих с физическим миром) и создание интерактивных развлекательных приложений, работающих в реальном времени.
Демонстрация возможностей модели Google Genie 2.
Сразу несколько технологических экспертов отреагировали на публикацию Брукса, задавшись вопросом о связи между проектом мировых моделей и Genie. Для справки, проект Genie был ранее представлен командой DeepMind во второй итерации, а сами разработчики называют его своей "наиболее мощной фундаментальной мировой моделью большого масштаба". Genie 2 демонстрирует способность генерировать интерактивные игровые миры продолжительностью до минуты, функционирующие по принципам, схожим с реальным миром, хотя и с упрощенной графикой и разрешением HD 720p. Упоминание в вакансиях о взаимодействии новых сотрудников с командой Genie косвенно подтверждает предположение о возможном использовании разрабатываемых мировых моделей в индустрии видеоигр, кино и других медиаформатах. Кроме того, планируется их интеграция с другими проектами Google, такими как чат-бот Gemini и инструмент для создания видео Veo, что позволит значительно улучшить их функциональность.
В условиях активной работы в области AGI и мировых моделей, ведущихся конкурентами Google, начало аналогичных исследований в DeepMind выглядит вполне закономерно. На текущей неделе компания Nvidia представила Cosmos, платформу "фундаментальных мировых моделей", ориентированную на помощь в разработке автономных транспортных средств и роботов – направлений, которые, безусловно, представляют интерес и для Google, учитывая наличие у них подразделений Waymo (беспилотные автомобили) и Everyday Robots. Примечательно и основание известным ученым в области компьютерных наук, Фей-Фей Ли, стартапа World Labs с инвестициями в миллиард долларов. Целью компании заявлена разработка искусственного интеллекта, обладающего "пространственным интеллектом", способного обрабатывать визуальную информацию на уровне человеческого восприятия. Заявление генерального директора OpenAI, Сэма Альтмана, прозвучавшее в понедельник, об "уверенности в понимании, как построить AGI в его традиционном понимании", лишь подчеркивает необходимость для Google поддерживать высокий темп в этой конкурентной гонке.

