Apple сообщила, что не использовала аппаратные ускорители Nvidia для разработки недавно представленных функций Apple Intelligence. Согласно официальному исследовательскому документу Apple, вместо этого компания использовала TPU Google для обработки данных обучения, лежащих в основе языковых моделей Apple Intelligence Foundation.
Системы, оснащенные чипами Google TPUv4 и TPUv5, сыграли важную роль в создании моделей Apple Foundation (AFM). Эти модели — AFM-сервер и AFM-on-device были разработаны для поддержки онлайн- и офлайн-функций Apple Intelligence, о которых было объявлено еще на WWDC 2024 в июне.

AFM-сервер — крупнейший LLM Apple, поэтому он остается только онлайн. Согласно недавно опубликованному исследовательскому документу, AFM-сервер Apple был обучен на 8192 чипах TPUv4, соединенных между собой сетью центров обработки данных (DCN). Предварительное обучение представляло собой трехэтапный процесс: начиная с токенов 6,3T, продолжая токенами 1T, а затем с использованием токенов 100B.
Apple заявила, что данные, используемые для обучения ее AFM, включали информацию, полученную от веб-сканера Applebot, а также различные лицензированные наборы высококачественных данных. Также использовался тщательно выбранный код, математические вычисления и общедоступные наборы данных.
Конечно, модель ARM-on-device значительно сокращена, но Apple считает, что ее методы оптимизировали производительность и эффективность этой меньшей модели. В документе показано, что AFM-on-device представляет собой модель параметров 3B, полученную из модели сервера 6.4B, которая была обучена на полных токенах 6.3T.
В отличие от обучения AFM-сервера, для подготовки модели ARM на устройстве использовались кластеры Google TPUv5. В документе показано, что AFM-on-device обучался на 2048 чипах TPUv5p.
Интересно видеть, что Apple выпустила такой подробный документ, раскрывающий методы и технологии, лежащие в основе Apple Intelligence. Компания не славится своей прозрачностью, но, похоже, изо всех сил старается произвести впечатление своей работой в области искусственного интеллекта.

