Файлы формата PDF мешают большим языковым моделям собирать данные

Блоги

27 февр., 13:10 Блогер

Тем не менее, сама Adobe и Google создали инструменты для решения этой проблемы

Компания Adobe представила формат Portable Document Format (PDF) три десятилетия назад. Фиксированные макеты, которые сделали этот формат популярным, как оказалось, мешают большим языковым моделям брать данные из этих файлов. Структурные особенности таких файлов приводят к малозаметным, но всё равно существенным ошибкам.

Искусственный интеллект обучен читать строки текста только слева направо. Научные статьи с многочисленными колонками могут оказаться ему не по зубам, или он может посчитать нижние колонтитулы частью основного текста. Это увеличивает проблему галлюцинаций.

Изображение: GrokПростые текстовые форматы строятся на основе логических объектов документа, но файлы PDF используют графические координаты. Это делает их отлично визуально согласованными, но для понимания смысла необходимо учитывать порядок расположения текста, иерархию и контекст, а они в файле не представлены в явном виде.

Способность формата PDF внедрять скрипты и ссылки привела к тому, что каждая пятая атака злоумышленников по электронной почте задействует подобные файлы. Несмотря на такие проблемы, в мире в настоящее время существует примерно 2,5 трлн файлов PDF, которые содержат научные работы, правительственные бланки, налоговые декларации и много других видов документов.

Компания Adobe уже внедрила ИИ-помощника в своё приложение Acrobat Reader, призванного извлекать краткую суть из документов PDF. Google дала такую же возможность инструментам разработчиков чат-бота Gemini, чтобы можно было преобразовывать файлы PDF в удобные для моделирования текстовые структуры.

#искусственный интеллект #большие языковые модели #pdf

Источник: techspot.com

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи