Осуществляется ли полнотекстовый поиск по файлам формата PDF? – ответы на вопросы пользователей в 1С-КПД – База знаний 1С-КПД
Вопросы и ответы
30.12.2019
Константин
1 минута
Файлы

Осуществляется ли полнотекстовый поиск по файлам формата PDF?

       PDF-файлы могут содержать текст и графические элементы.

       Файлы, полученные со сканера, содержат только графический слой (современные сканеры часто сканируют несколько страниц в pdf-файл). Для извлечения текстов таких файлов в «1С:Документооборот» используется программа ImageMagick, которая преобразует PDF-файл в несколько файлов формата .png. Затем при помощи компоненты CuneiForm из этих файлов извлекается текст.

       Текст из файлов формата PDF, которые содержат текстовый слой, может быть извлечен с помощью плагина Adobe iFilter.

        ImageMagick, CuneiForm и плагины iFilter необходимо самостоятельно установить на компьютер, на котором будет производиться извлечение текстов.

       Если тексты извлекаются на сервере необходимо установить компоненту GhostScript на сервере.

       Также должно быть включено распознавание текста: Настройка и администрирование - Настройка программы - Работа с файлами - Распознавание изображений с помощью CuneiForm.



       Если не удается найти pdf-файл, надо первым делом проверить, есть ли текст в реквизите «Текстовый образ».
whatsapp