Docling: готовим данные для RAG и LLM

2025-08-24 14:27 LLM Опенсорс

Если вы когда-либо строили RAG (Retrieval-Augmented Generation) пайплайн, вы знаете, что самая грязная, при этом критически важная работа происходит на самом первом этапе — подготовке данных. Модель может быть сколь угодно умной, но если вы кормите ее мусором, на выходе будет... ну, вы поняли. Проблема в том, что "исходные данные" — это чаще всего зоопарк из PDF, DOCX, PPTX, HTML-страниц и прочего цифрового хаоса.

Просто выдрать из них текст? Это полумера, которая убивает всю структуру: таблицы превращаются в кашу, колонки слипаются, заголовки и сноски перемешиваются с основным текстом. В итоге ваша LLM получает на вход не структурированный документ, а какой-то бред.

И вот здесь на сцену выходит Docling — библиотека, которая ставит своей целью раз и навсегда решить проблему унифицированной обработки документов. Это не просто очередной парсер PDF. Это полноценный фреймворк, созданный командой из IBM Research, который можно описать как швейцарский нож для инженера, работающего с данными. Давайте разберемся, что он умеет и почему на него стоит обратить самое пристальное внимание.

Что такое Docling? Ключевые возможности

Если коротко, Docling — это SDK и CLI для парсинга десятков форматов документов в единое, унифицированное представление, идеально подходящее для дальнейшего использования в AI-приложениях.

Ключевая идея — DoclingDocument. Неважно, что у вас на входе — кривой скан PDF, маркетинговая презентация в PPTX или корпоративный отчет в DOCX — на выходе вы получите предсказуемый и богатый объект, с которым удобно работать программно.

Вот лишь часть его возможностей:

🗂️ Мультиформатность: Нативная поддержка PDF, DOCX, PPTX, XLSX, HTML, Markdown, изображений (PNG, TIFF, JPEG), аудио (WAV, MP3) и многого другого.
📑 Глубокое понимание PDF: Это не просто извлечение текста. Docling анализирует структуру страницы, порядок чтения, распознает таблицы, блоки кода, формулы и даже классифицирует изображения. Это его killer-фича.
🧬 Единый формат DoclingDocument: Все документы приводятся к общей, выразительной структуре. Больше не нужно писать кастомные парсеры под каждый тип файла.
🔒 Локальное выполнение: Вся обработка может происходить на вашей машине без отправки данных в облака. Критически важно для работы с конфиденциальной информацией.
🤖 Готовые интеграции: Бесшовная работа с популярными AI-фреймворками, такими как LangChain, LlamaIndex, Crew AI и Haystack. Это значит, что вы можете встроить Docling в свой RAG-пайплайн буквально в несколько строк.
👓 Поддержка VLM и ASR: Docling умеет работать не только с текстом. Он интегрируется с Visual Language Models (например, с собственной легковесной моделью SmolDocling) для анализа изображений и с моделями Automatic Speech Recognition (ASR), такими как Whisper, для транскрибации аудио.

Проект активно развивается, и в ближайших планах — извлечение метаданных (авторы, заголовки, ссылки), распознавание графиков и даже понимание химических структур.

Установка и быстрый старт

Docling устанавливается как любой стандартный Python-пакет:

pip install docling

[!TIP] Для работы с некоторыми функциями, вроде распознавания текста на изображениях (tesserocr) или продвинутых VLM, могут потребоваться дополнительные зависимости. Установить их можно так: pip install "docling[vlm,tesserocr]".

Давайте сразу посмотрим на простой пример. Возьмем статью про сам Docling с arXiv и сконвертируем ее в Markdown.

from docling.document_converter import DocumentConverter

# Источником может быть локальный путь или URL
source_url = "https://arxiv.org/pdf/2408.09869"

# Инициализируем конвертер
converter = DocumentConverter()

# Запускаем конвертацию
result = converter.convert(source_url)

# result.document - это и есть тот самый DoclingDocument
# Его можно экспортировать в разные форматы
markdown_output = result.document.export_to_markdown()

Всего несколько строк, и у вас есть чистый, структурированный Markdown из сложного PDF-документа. Но это лишь верхушка айсберга. Вся магия — в объекте result.document, который содержит не просто текст, а дерево элементов: заголовки, параграфы, таблицы, списки, изображения.

Docling также предоставляет удобный CLI для быстрой обработки файлов прямо из терминала:

# Простая конвертация (вывод в консоль по умолчанию в Markdown)
docling https://arxiv.org/pdf/2206.01062

# Конвертация с использованием VLM-пайплайна и модели SmolDocling
# Это позволяет извлекать информацию не только из текста, но и из изображений в документе
docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

Архитектура "под капотом": конвейеры и бэкенды

Чтобы по-настоящему оценить мощь Docling, нужно заглянуть в его архитектуру. Она модульная и расширяемая, что позволяет гибко настраивать процесс обработки. В основе лежат три ключевых компонента: DocumentConverter, Pipelines и Backends.

DocumentConverter — это ваш основной интерфейс. Вы создаете его экземпляр и передаете ему документы. Он сам определяет формат файла и выбирает подходящую стратегию обработки.
Pipeline (Конвейер) — это последовательность шагов обработки документа. Docling поставляется с несколькими встроенными пайплайнами:
- SimplePipeline: Используется для "простых" форматов вроде DOCX, HTML, Markdown, где структура уже явно задана. Он напрямую использует соответствующий бэкенд для преобразования в DoclingDocument.
- StandardPdfPipeline: Гораздо более сложный конвейер для PDF и изображений. Он включает в себя шаги по распознаванию текста (OCR), анализу макета страницы, сегментации на блоки (заголовки, абзацы, таблицы), восстановлению порядка чтения и т.д.
- AsrPipeline: Пайплайн для аудиофайлов, который использует модели распознавания речи для получения текста.
Backend — это "рабочая лошадка", компонент, отвечающий за низкоуровневый парсинг конкретного формата файла. Например:
- MsWordDocumentBackend разбирает .docx.
- HTMLDocumentBackend парсит HTML.
- DoclingParseV4DocumentBackend — это мощный бэкенд для PDF, который использует внутренние разработки IBM для глубокого анализа структуры документа.

Такая архитектура дает огромную гибкость. Вы можете создавать свои собственные FormatOption при инициализации DocumentConverter, чтобы, например, для всех PDF-файлов использовать другой пайплайн или кастомный бэкенд.

Работа с PDF

Давайте остановимся на самой сильной стороне Docling — работе с PDF. Большинство библиотек просто извлекают текстовые "куски" в том порядке, в котором они хранятся внутри файла, что часто не совпадает с визуальным порядком чтения. В результате текст из двух колонок превращается в мешанину.

StandardPdfPipeline в Docling делает все иначе. Вот примерный процесс:

Рендеринг и OCR: Если PDF содержит только изображения (скан), Docling прогоняет страницы через движок OCR (например, Tesseract или EasyOCR) для извлечения текста и его координат.
Анализ макета (Layout Analysis): Библиотека анализирует расположение блоков на странице, определяя, где находятся заголовки, абзацы, изображения, таблицы, списки.
Восстановление порядка чтения: На основе анализа макета Docling выстраивает логический порядок следования блоков, корректно обрабатывая многоколоночные тексты.
Извлечение таблиц: Одна из самых сложных задач. Docling умеет не просто находить таблицы, но и восстанавливать их структуру: строки, столбцы, объединенные ячейки.
Извлечение формул и кода: Специализированные модели находят и корректно форматируют математические формулы и блоки кода.

В результате вместо "простыни" текста вы получаете структурированный DoclingDocument, где каждый элемент (параграф, таблица, заголовок) является отдельным объектом со своим содержимым и метаданными. Для подготовки данных в RAG это бесценно. Вы можете, например, чанковать документ не по фиксированному числу символов, а по семантическим блокам — параграфам или разделам.

За гранью текста: VLM и ASR

Docling не ограничивается текстовыми документами. Его мультимодальные возможности делают его инструментом на вырост.

Vision Language Models (VLM)

Интеграция с VLM позволяет "читать" изображения внутри документов. Представьте PDF с диаграммами или графиками. Обычный парсер извлечет текст, но проигнорирует визуальную информацию. С VLM-пайплайном Docling может:

Сгенерировать текстовое описание для каждого изображения.
Ответить на вопросы по изображению (Visual Question Answering).
Классифицировать изображения (например, "график", "схема", "фотография").

Эта информация добавляется в DoclingDocument и становится доступной для вашего RAG-пайплайна, обогащая контекст, который получит LLM.

Automatic Speech Recognition (ASR)

Точно так же AsrPipeline позволяет обрабатывать аудиофайлы. Вы можете "скормить" ему запись митинга или лекции в формате .mp3, а на выходе получить DoclingDocument с полной текстовой транскрипцией.

Экосистема и интеграции: Встраиваем в свой стек

Хороший инструмент должен легко встраиваться в существующие рабочие процессы. И здесь у Docling все в порядке. Он изначально создавался с прицелом на AI-экосистему.

В документации вы найдете готовые рецепты для интеграции с:

LangChain: Используйте DoclingLoader для загрузки документов напрямую в формате, понятном LangChain.
LlamaIndex: Аналогичная интеграция для тех, кто предпочитает этот фреймворк.
Haystack: Полная поддержка для построения пайплайнов на базе Haystack.
Crew AI & Bee Agent Framework: Интеграции для создания AI-агентов, которые могут использовать Docling для "чтения" документов.

Это означает, что замена вашего текущего, возможно, не самого удачного загрузчика документов на Docling потребует минимальных усилий, но даст колоссальный прирост в качестве данных на входе.

Понравился материал?

Ваша поддержка — это энергия для новых статей и проектов. Спасибо, что читаете!

Почему это важно?

Фундамент любого успешного AI-проекта — это качественные данные. Docling атакует самую сложную и неблагодарную часть этой проблемы: превращение хаоса из сотен разных форматов в чистый, структурированный и обогащенный набор данных.

Это мощный, продуманный и активно развивающийся инструмент, который экономит много времени и, что важнее, повышает качество ответа вашей финальной модели. Если вы серьезно занимаетесь RAG, LLM или просто работаете с извлечением информации из документов на Python, Docling — это та библиотека, которую стоит попробовать. Она может стать тем самым недостающим звеном, которое превратит ваш прототип в надежное продакшен-решение.

Олег Булыгин