Исследовательская группа стартапа в области искусственного интеллекта Perplexity разработала модифицированную версию китайской языковой модели искусственного интеллекта DeepSeek-R1, которая работает без первоначальных ограничений.
Компания Perplexity интегрировала китайскую модель искусственного интеллекта DeepSeek R1 в свою Pro-версию, чтобы расширить функциональность своей платформы. Модель, разработанная китайской компанией DeepSeek, отличается эффективной обработкой сложных задач, включая математический анализ, генерацию кода и многоэтапные исследования.
Чтобы решить проблемы конфиденциальности, Perplexity размещает модель исключительно на инфраструктурах в США и Европе. Генеральный директор Аравинд Шринивас подчеркивает, что никакие пользовательские данные не передаются на китайские серверы. Открытый исходный код модели также обеспечивает прозрачную проверку базы кода третьей стороной. Технически система взаимодействует только с собственными серверами Perplexity.
Являясь моделью с открытым исходным кодом, R1 предлагает разработчикам возможности настройки для конкретных вариантов использования. Компании могут интегрировать ИИ в свои системы через API или размещать его локально. Такая гибкость делает модель особенно интересной для организаций, ищущих экономически эффективные решения на основе ИИ, не полагаясь на фирменные системы.
Первоначальный DeepSeek-R1 отказывался отвечать на вопросы по некоторым деликатным темам, таким как Тайвань, уйгурское меньшинство в Китае или события на площади Тяньаньмэнь в 1989 году — модель ИИ явно следовала цензурным правилам Пекина. Поэтому исследователи разработали специальную процедуру после обучения модели, чтобы устранить эти ограничения.
DeepSeek-R1 всколыхнул сектор ИИ, поскольку ранее неизвестная китайская компания со значительно меньшими ресурсами, чем гиганты Кремниевой долины, сумела вывести на рынок модель ИИ, сопоставимую с моделями OpenAI, Google, xAI и пр. Выпуск DeepSeek-R1 также подтвердил, что в области фундаментальных моделей вновь уделяется внимание открытому исходному коду.
Для обучения разработчики сначала выделили около 300 цензурируемых тематик и создали на их основе многоязычный классификатор цензуры. Таким образом, они собрали набор данных из 40 000 многоязычных подсказок. Затем модель была подвергнута постобучению с использованием адаптированной версии фреймворка Nvidia NeMo 2.0.
Масштабные тесты с более чем 1000 примерами на разных языках должны подтвердить, что новая модель теперь может в полной мере реагировать на деликатные темы. Как показали контрольные тесты, первоначальные навыки в области математики и логического мышления были сохранены. Модель теперь доступна через платформу HuggingFace, а также может быть использована через API Sonar.