От команды

Извлечение данных из PDF

Извлекайте таблицы, их строки и ячейки из любого PDF в формате JSON — бесплатно и без регистрации. Работает на PdfQL, декларативном языке запросов PDF.

Что вы хотите извлечь?

select(tables) // Сгенерированный PdfQL запрос

Выберите PDF

📄

Перетащите PDF сюда для обработки

or нажмите для загрузкиТолько PDF · Макс 20 МБ

Запуск

Как это работает

Выберите режим извлечения — таблицы, строки, ячейки или напишите свой запрос PdfQL.

Выберите PDF — Выберите PDF — перетащите файл или нажмите для выбора. Файлы обрабатываются на сервере и не хранятся.

Результат извлечения — Получите JSON — скопируйте в буфер обмена или скачайте как .json файл.

Режимы извлечения

ТаблицыПолная структура таблицы с заголовками и строками

СтрокиПлоский массив массивов строк для каждой таблицы

ЯчейкиОтдельные значения ячеек из всех таблиц

PdfQLПользовательский декларативный запрос для продвинутых сценариев

О языке запросов PDF (Концепт)

PdfQL — язык запросов для PDF

Прочитайте о дизайне и целях PdfQL — декларативном языке для извлечения структурированных данных из PDF.

Читать статью об языке →

Альфа-версия: это ранний прототип. Сложные многоколоночные макеты и сканированные PDF могут давать некорректные результаты. Файлы не хранятся после обработки.