DeepSeek представила высокопроизводительную файловую систему 3FS с открытым исходным кодом

Она подходит для задач с использованием ИИ.
4 марта 2025, вторник 14:27
apprenticebase для раздела Блоги

Китайская компания DeepSeek представила высокопроизводительную файловую систему 3FS (Fire-Flyer File System) с открытым исходным кодом. Решение, разработанное для ускорения задач искусственного интеллекта, уже получило высокие оценки экспертов.

DeepSeek стремится к большей открытости и взаимодействию с сообществом, особенно после критики в свой адрес за недостаточную прозрачность. В рамках «Недели открытого кода» компания опубликовала несколько репозиториев, включая 3FS, FlashMLA, DeepEP и DeepGEMM.

Файловая система 3FS использует возможности современных SSD-накопителей и RDMA-сетей, обеспечивая общий уровень хранения данных для упрощения развертывания распределенных приложений. Как отмечает Tom's Hardware, 3FS работает без кэширования чтения и приоритизирует запросы на случайное чтение, что критически важно для моделей ИИ, постоянно обращающихся к фрагментам данных на серверах. Система способна объединить пропускную способность тысяч SSD и сетевую полосу пропускания сотен узлов хранения, упрощая код приложений и применяя стандартные модели API хранилища.

В кластере из 180 узлов 3FS достигает совокупной пропускной способности чтения 6,6 ТиБ/с, а в тесте GraySort (25 узлов) — 3,66 ТиБ/мин. Стартап Perspective AI назвал эти показатели «новым уровнем» и предсказал 3FS революционный потенциал для ресурсоемких задач в области ИИ, исследований и других сферах.

Здесь стоит отдельно пояснить, что ТиБ (TiB) — это тебибайт. Он используется для измерения объема информации, как и более привычные нам гигабайты (GB) и терабайты (TB). Разница в том, что тебибайт основан на двоичной системе (степени двойки), а терабайт — на десятичной (степени десятки).

В прошлом году DeepSeek опубликовала исследование архитектуры Fire-Flyer 2, в которой используется 3FS. Благодаря ей, а также HaiScale и другим компонентам программного стека, DeepSeek достигла 80% производительности серверов Nvidia DGX-A100 при вдвое меньшей стоимости и на 40% меньшем энергопотреблении. Fire-Flyer 2 включала 180 узлов хранения с 16 SSD по 16 ТБ каждый, два 200-гигабитных NUC и 10 000 графических процессоров Nvidia A100, подключённых через PCIe.