Извлечение данных из PDF

Извлекайте таблицы, их строки и ячейки из любого PDF в формате JSON — бесплатно и без регистрации. Работает на PdfQL, декларативном языке запросов PDF.

1
Что вы хотите извлечь?
select(tables) // Сгенерированный PdfQL запрос
2
Выберите PDF
📄
Перетащите PDF сюда для обработки
or нажмите для загрузкиТолько PDF · Макс 20 МБ
3
Запуск
Как это работает
1
Выберите режим извлечения — таблицы, строки, ячейки или напишите свой запрос PdfQL.
2
Выберите PDF — Выберите PDF — перетащите файл или нажмите для выбора. Файлы обрабатываются на сервере и не хранятся.
3
Результат извлечения — Получите JSON — скопируйте в буфер обмена или скачайте как .json файл.
Режимы извлечения
ТаблицыПолная структура таблицы с заголовками и строками
СтрокиПлоский массив массивов строк для каждой таблицы
ЯчейкиОтдельные значения ячеек из всех таблиц
PdfQLПользовательский декларативный запрос для продвинутых сценариев
О языке запросов PDF (Концепт)
PdfQL — язык запросов для PDF
Прочитайте о дизайне и целях PdfQL — декларативном языке для извлечения структурированных данных из PDF.
Читать статью об языке →
Альфа-версия: это ранний прототип. Сложные многоколоночные макеты и сканированные PDF могут давать некорректные результаты. Файлы не хранятся после обработки.