Платим блогерам
Блоги
NewsWorld
Исследователи Apple заявили, что модели искусственного интеллекта MM1 в настоящее время находятся на этапе предварительной подготовки.

Исследователи Apple поделились своей работой по созданию мультимодальной модели большого языка (LLM) для искусственного интеллекта (AI) в подготовленном к печати документе. В опубликованном на онлайн-портале 14 марта документе рассказывается о том, как удалось реализовать расширенные возможности мультимодальности и заставить базовую модель работать как с текстовыми данными, так и с изображениями. Новые достижения в области искусственного интеллекта для технологического гиганта из Купертино появились после замечаний генерального директора Тима Кука, сделанных во время телефонных переговоров компании, в ходе которых он сказал, что функции искусственного интеллекта могут появиться позже в этом году.

Предварительная версия исследовательского документа опубликована на arXiv, онлайн-хранилище научных работ с открытым доступом. 

Может быть интересно

По словам исследователей, они работают над MM1, семейством мультимодальных моделей, содержащих до 30 миллиардов параметров. Назвав его “высокопроизводительным мультимодальным LLM" (MLLM), авторы статьи подчеркнули, что кодировщики изображений и другие компоненты архитектуры, а также выбор данных были сделаны для создания модели искусственного интеллекта, которая способна понимать как текст, так и входные данные на основе изображений.

Приводя пример, в документе говорится: 

Мы демонстрируем, что при крупномасштабном мультимодальном предварительном обучении тщательное сочетание подписи к изображению, чередования текста к изображению и данных только для текста имеет решающее значение для достижения самых современных результатов (SOTA) в нескольких тестах по сравнению с другими опубликованными результатами предварительного обучения.

В настоящее время модель искусственного интеллекта находится на этапе предварительной подготовки, что означает, что она недостаточно подготовлена для получения желаемых результатов. На этом этапе алгоритм и архитектура искусственного интеллекта используются для разработки рабочего процесса модели и того, как она в конечном итоге обрабатывает данные. Команда исследователей Apple смогла добавить в модель компьютерное зрение с помощью кодеров изображений. Затем, при тестировании с использованием только изображений и текста, а также набора данных только для текста, команда обнаружила, что результаты были конкурентоспособными по сравнению с существующими моделями на том же этапе.

+
Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают