Компания Adobe представила формат Portable Document Format (PDF) три десятилетия назад. Фиксированные макеты, которые сделали этот формат популярным, как оказалось, мешают большим языковым моделям брать данные из этих файлов. Структурные особенности таких файлов приводят к малозаметным, но всё равно существенным ошибкам.
Искусственный интеллект обучен читать строки текста только слева направо. Научные статьи с многочисленными колонками могут оказаться ему не по зубам, или он может посчитать нижние колонтитулы частью основного текста. Это увеличивает проблему галлюцинаций.
Способность формата PDF внедрять скрипты и ссылки привела к тому, что каждая пятая атака злоумышленников по электронной почте задействует подобные файлы. Несмотря на такие проблемы, в мире в настоящее время существует примерно 2,5 трлн файлов PDF, которые содержат научные работы, правительственные бланки, налоговые декларации и много других видов документов.
Компания Adobe уже внедрила ИИ-помощника в своё приложение Acrobat Reader, призванного извлекать краткую суть из документов PDF. Google дала такую же возможность инструментам разработчиков чат-бота Gemini, чтобы можно было преобразовывать файлы PDF в удобные для моделирования текстовые структуры.