Tech News & Advice

Как автоматически извлечь таблицы из PDF

Рейтинги редактора:

Пользовательский рейтинг:

[Общий: 0 Средний: 0]

В этом уроке объясняется как автоматически извлекать таблицы из PDF.

Я использовал многофункциональное программное обеспечение «Многофункциональный инструмент Bytescout PDF» для этой задачи. Это программное обеспечение имеет очень интересную функцию. Используя эту функцию, программа автоматически определяет таблицу(ы) на определенной странице входного PDF-файла. Как только таблица будет обнаружена, у вас будет возможность сохранить ее в выбранном вами месте назначения. Вы также можете выбрать выходной формат как TXT, CSV, XML, JSON или XLS. для сохранения таблицы PDF.

Программное обеспечение также имеет функцию сначала обнаруживать таблицы на всех страницах PDF, а затем извлекать все эти таблицы. Однако во время моего тестирования все таблицы были извлечены с использованием этой опции, но также был извлечен некоторый текстовый контент. Итак, этот вариант не работает идеально, но его можно попробовать, если в PDF-документе много таблиц.

автоматически обнаружить таблицу PDF и сохранить

Также доступно несколько опций, которые вы можете настроить перед обнаружением таблиц. Вы можете установить минимальное количество строк, столбцов, минимальные разрывы строк между таблицами и т. д. для обнаружения таблицы. Итак, программа предоставляет практически все необходимые возможности для извлечения таблиц из PDF.

Примечание: Это программное обеспечение также имеет множество других функций. Ты можешь извлекать аудио и видео из PDF, извлекать вложения файлов из PDF, разделить и объединить PDF, конвертировать PDF в TIFF и многое другое. Здесь я сосредоточусь на извлечении таблицы из PDF.

Автоматически извлекайте таблицы из PDF с помощью этого бесплатного программного обеспечения:

Шаг 1: Загрузите этот многофункциональный инструмент Bytescout PDF (Ссылка здесь) и установите его.

Шаг 2: Откройте интерфейс и добавьте PDF-файл. Он поддерживает как одностраничные, так и многостраничные PDF-файлы.

Шаг 3: В левой части интерфейса имеется несколько опций, доступных в разных категориях. Вам нужно найти и нажать на Обнаружение таблиц опция доступна в разделе Извлечение данных категория.

выберите опцию обнаружения таблиц

Шаг 4: Откроется небольшое окно. Это окно содержит несколько опций, связанных с обнаружением и извлечением таблиц. Вы можете управлять этими параметрами в соответствии с вашими потребностями. Некоторые из важных опций:

  • Установите минимальное количество строк и столбцов для обнаружения таблицы.
  • Установите максимально допустимое количество недопустимых строк.
  • Выберите режим обнаружения столбцов: «Группы контента и границы», «Таблицы с границами», «Границы» и «Группы контента». Я рекомендую вам выбрать первый режим.
Окно «Определить таблицы»

Шаг 5: Используйте «Определить следующую таблицу», чтобы проверить, есть ли какая-либо таблица на текущей странице или нет. Если какая-либо таблица существует, она обнаружит ее и покроет таблицу красной рамкой. Теперь вы можете переключиться на другую страницу и обнаружить таблицу на этой конкретной странице.

Шаг 6: Когда вы это сделаете, нажмите Приступаем к извлечению кнопка. Он покажет все доступные форматы вывода.

выбрать выходной формат

Выберите формат, после чего будет представлено еще несколько вариантов:

  • Сохраняйте форматирование текста.
  • Обрезать пробелы.
  • Соотношение пространств между колоннами.
  • Извлечь текущую страницу или определенный диапазон и т. д. Вы можете выбрать диапазон страниц, если вам нужно извлечь таблицы с нескольких страниц. Однако, как я упоминал вначале, помимо извлечения таблиц, этот параметр также извлекает текстовое содержимое, доступное на страницах PDF.
установить параметры и сохранить таблицу

Установите эти параметры, а затем вы можете нажать на это Извлечь в файл кнопка сохранения таблицы.

Вердикт:

Должно быть, вы уже пробовали множество инструментов PDF, но этот немного особенный. Эта уникальная функция автоматического извлечения таблиц из файла PDF действительно фантастическая. Кроме того, нам предоставляется несколько форматов вывода для сохранения таблиц, что является дополнительной функцией. Я обязательно порекомендую его вам.

Получить это программное обеспечение.

Бесплатная односторонняя синхронизация каталогов: одностороннее зеркало

Бесплатная односторонняя синхронизация каталогов: одностороннее зеркало

Рейтинги редактора:Пользовательский рейтинг:[Общий: 0 Средний: 0]Одностороннее зеркало это беспла...

Читать далее

Защита папок паролем, скрытие папок с помощью папки блокировки Anvide

Защита папок паролем, скрытие папок с помощью папки блокировки Anvide

Рейтинги редактора:Пользовательский рейтинг:[Общий: 0 Средний: 0]Папка блокировки Anvide это бесп...

Читать далее

Онлайн-курс по искусственному интеллекту в Финляндии для изучения основ искусственного интеллекта

Онлайн-курс по искусственному интеллекту в Финляндии для изучения основ искусственного интеллекта

Рейтинги редактора:Пользовательский рейтинг:[Общий: 1 Средний: 5]ИИ — это следующая большая вещь,...

Читать далее