Как настроить автоматическое извлечение текстов в "1С:Документооборот" на сервере приложений "1С"?
Задача:
Для работы полнотектового поиска в "1С:Документооборот" по содержимому файлов нужно, чтобы программа "1С:Документооборот" могла извлекать тексты. "1С:Документооборот" умеет извлекать тексты из файлов популярных форматов средствами операционной системы Windows для дальнейшего использования в полнотекстовом поиске. Данная процедура в клиент-серверном варианте под Windows должна производиться на сервере.Решение:
В Windows обязательно надо проверить региональные настройки (особенно это важно, если Windows не русский). Если русский язык в системе не установлен, то при извлечении русских текстов на сервере "1С" будут проблемы, так как извлечение текстов осуществляется средствами операционной системы MS Windows.
Для того, чтобы извлечение текстов в "1С:Документооборот" производилось на сервере, надо включить настройку "Извлекать тексты только на сервере" в настройках программы.

За это отвечает регламентное задание "Извлечение текста".
Из форматов txt, html, doc, xls текст будет извлекаться средствами Windows. А вот из форматов docx и xlxs – нет. Для извлечения текстов данных форматов в "1С:Документообороте" надо установить Pack от Microsoft.
Есть 32 и 64 битные версии Pack-ов от Microsoft. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта microsoft по ссылке файлы Filters:
- FilterPack32bit.exe или
- FilterPack64bit.exe.
Запускаем фильтр-пак и устанавливаем его.

Для извлечения текстов из pdf файлов с текстовым слоем в "1С:Документооборот" нужно установить IFilter. Есть разные версии iFilters: платные и бесплатные, под разные форматы (в том числе и для Autocad). PDF является самым популярным форматом у пользователей.
Есть 32 и 64 битные версии PDF IFilter. Все зависит от разрядности сервера "1С:Предприятия". Ставим тот, который нам подходит. Скачиваем с сайта adobe по ссылкам фильтры:
- https://www.adobe.com/support/downloads/detail.jsp?ftpID=2611 ifilter60.exe или
- https://www.adobe.com/support/downloads/detail.jsp?ftpID=5542 PDFFilter64installer.msi.
Запускаем PDF Filter и устанавливаем его.

В программе "1С:Документооборот" под Администратором установим в настойках программы флаг "Извлекать тексты только на сервере". Это нужно для того, чтобы извлечение текстов не зависело от того, где работают пользователи (в тонком клиенте под Линукс и в браузерах извлечение текстов не работает).
Загрузим файлы в формате doc и в формате pdf в хранилище Файлы.

Проверим тестовые образы файлов pdf и doc.


Видим, что содержимое файлов успешно извлекается.
Проверим расписание регламентного задания "Извлечение текста".

И проверим, как выполнялись фоновые задания.

Этот и другие материалы Владимира Лушникова опубликованы в блоге "1С:Документооборот".
Поделиться ссылкой: