Платим блогерам
Блоги
СтарыйДед
Google утверждает, что PaliGemma 2 лучше справляется с определением музыкальных партитур, химическими формулами и составлением отчëтов о рентгенографии грудной клетки.

В мире искусственного интеллекта (ИИ) постоянно появляются новые модели, которые расширяют возможности машинного "зрения" и языкового понимания. Одной из таких моделей является PaliGemma, разработанная и выпущенная компанией Google. Недавно Google представила обновлённую версию этой модели — PaliGemma 2. Первая версия PaliGemma уже доказала свою эффективность как мощный инструмент для визуального и языкового анализа. Эта модель визуального языка (VLM) способна идентифицировать объекты на изображениях, добавлять субтитры к изображениям и даже коротким видеороликам, а также отвечать на вопросы об изображениях. Эти возможности делают PaliGemma универсальным и полезным инструментом для различных задач, включая объектное распознавание, текстовое распознавание на изображениях и более глубокий анализ визуального контента.

Google официально представила публике модель PaliGemma 2, которая призвана заменить и улучшить функционал оригинальной модели. PaliGemma 2 доступна в нескольких вариантах, включая модели с 3, 10 и 28 миллиардами параметров, а также версии с различными разрешениями: 224, 448 и 896 пикселей. Это разнообразие позволяет разработчикам выбирать модель, наиболее подходящую для их конкретных задач. Одной из ключевых особенностей PaliGemma 2 является её способность создавать длинные текстовые субтитры, которые выходят за рамки простого распознавания объектов. Эта модель может интерпретировать эмоции людей на изображениях, описывать действия и общую атмосферу сцены. Если, например, кто-то выглядит счастливым или грустным, PaliGemma 2 может это распознать и отразить в своих описаниях. 

Кроме того, PaliGemma 2 показывает значительные улучшения в других областях, таких как распознавание музыкальных партитур, химических формул, анализ структуры таблиц в документах и составление отчëтов на основе рентгеновских снимков. Эти возможности делают модель особенно полезной для научных и технических приложений. Код и модели PaliGemma 2 уже доступны на платформах, таких как Hugging Face, Kaggle и Ollama. Это облегчает разработчикам интеграцию модели в свои проекты без необходимости значительных изменений в коде. Благодаря этому, PaliGemma 2 может быть легко внедрена в различные приложения, от облачных сервисов до устройств на основе NVIDIA Jetsons. 

+
Написать комментарий (0)

Популярные новости

Сейчас обсуждают