Файлы формата PDF мешают большим языковым моделям собирать данные

Тем не менее, сама Adobe и Google создали инструменты для решения этой проблемы

27 февраля 2026, пятница 13:10

Компания Adobe представила формат Portable Document Format (PDF) три десятилетия назад. Фиксированные макеты, которые сделали этот формат популярным, как оказалось, мешают большим языковым моделям брать данные из этих файлов. Структурные особенности таких файлов приводят к малозаметным, но всё равно существенным ошибкам.

Искусственный интеллект обучен читать строки текста только слева направо. Научные статьи с многочисленными колонками могут оказаться ему не по зубам, или он может посчитать нижние колонтитулы частью основного текста. Это увеличивает проблему галлюцинаций.

Изображение: GrokПростые текстовые форматы строятся на основе логических объектов документа, но файлы PDF используют графические координаты. Это делает их отлично визуально согласованными, но для понимания смысла необходимо учитывать порядок расположения текста, иерархию и контекст, а они в файле не представлены в явном виде.

Способность формата PDF внедрять скрипты и ссылки привела к тому, что каждая пятая атака злоумышленников по электронной почте задействует подобные файлы. Несмотря на такие проблемы, в мире в настоящее время существует примерно 2,5 трлн файлов PDF, которые содержат научные работы, правительственные бланки, налоговые декларации и много других видов документов.

Компания Adobe уже внедрила ИИ-помощника в своё приложение Acrobat Reader, призванного извлекать краткую суть из документов PDF. Google дала такую же возможность инструментам разработчиков чат-бота Gemini, чтобы можно было преобразовывать файлы PDF в удобные для моделирования текстовые структуры.

Перейти к полной версии Комментарии

Файлы формата PDF мешают большим языковым моделям собирать данные

Теги

Лента материалов