Платим блогерам
Блоги
Global_Chronicles
Стартап Taalas встраивает модели ИИ непосредственно в кремниевые чипы. Первое решение с Llama 3.1 8B работает в 10 раз быстрее и обходится в 20 раз дешевле производства нынешних аналогов.
реклама

Проблема задержек в агентных средах ИИ заставляет производителей оборудования искать новые подходы к архитектуре чипов. Часть компаний делает ставку на интеграцию SRAM в свои решения. Однако, по данным WCCFTech, стартап Taalas выбрал иной путь: переход от универсальных вычислений к заказным ASIC, на которые модели ИИ наносятся непосредственно в процессе производства кремния.

Компания, основанная два с половиной года назад, создала платформу для превращения любой модели ИИ в специализированный чип. Процесс занимает около двух месяцев с момента получения модели. Разработчики утверждают, что итоговые «хардкорные» версии нейросетей на порядок быстрее и дешевле программных аналогов, а также потребляют меньше энергии.

реклама

В основе технологии лежат два принципа. Первый — аппаратная специализация под конкретные рабочие нагрузки, то есть буквальное отображение нейросетей на кремниевый кристалл. Второй — объединение хранения и вычислений, что позволяет снять ограничения памяти и сократить накладные расходы на передачу данных. Все вычисления происходят на уровне плотности DRAM, ускоряя межпроцессную связь.

Первый продукт Taalas, чип HC1, уже протестирован с моделью Llama 3.1 8B. Кристалл выполнен по 6-нм техпроцессу TSMC, его площадь составляет 815 мм² — почти как у NVIDIA H100. Показатели производительности Taalas называет «шокирующими»: десятикратный рост транзакций в секунду по сравнению с высокопроизводительной инфраструктурой при снижении производственных издержек в 20 раз. При этом в устройстве не используются HBM, сложные системы охлаждения или многослойная упаковка.

Есть и обратная сторона подхода. Жесткая привязка к модели означает, что изменить веса нейросети после выпуска чипа не получится. Для масштабирования на современные LLM с триллионом параметров Taalas предлагает кластерные решения. Например, конфигурация из 30 чипов с DeepSeek R1 уже показала результат в 12 000 транзакций в секунду на пользователя. Теперь главный вопрос для компании — не технические ограничения, а рыночное внедрение подобной бизнес-модели.


*  все изображения - Taalas

Источник: wccftech.com
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости