Платим блогерам
Редакция
Новости Software Игнатий Колыско
Для тех, кому действительно нужно.

Microsoft выпустила на GitHub открытый инструмент MarkItDown — библиотеку Python для преобразования файлов и офисных документов в формат Markdown. Этот легковесный язык разметки с простым текстовым синтаксисом — его легко читать, писать и понимать.

Может быть интересно

Благодаря чёткому и предсказуемому синтаксису Markdown, алгоритмы ИИ могут легко анализировать текст и понимать его структуру. Markdown поддерживается многими популярными инструментами, включая GitHub и блокноты Jupyter.

MarkItDown поддерживает следующие форматы файлов:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Изображения (метаданные EXIF и OCR)
  • Аудио (метаданные EXIF и транскрипция речи)
  • HTML (специальная обработка Wikipedia и др.)
  • Различные текстовые форматы (csv, json, xml и др.)

Библиотека распространяется по открытой лицензии MIT, позволяющей разработчикам свободно использовать, изменять и распространять код с обязательным указанием авторства и оригинальной лицензии. MarkItDown можно скачать с GitHub, установить с помощью команды pip install markitdown или из исходников командой pip install -e.

Кроме того, MarkItDown можно настроить для использования больших языковых моделей (LLM) при описании изображений. Для этого необходимо указать параметры mlm_client и mlm_model в объекте MarkItDown.

Преобразованные файлы можно использовать для индексации, текстового анализа и других задач.

Написать комментарий (0)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Сейчас обсуждают