Распознавание текста

Имя пакета программы: fly-ocr
Версия пакета программы: 0.0.8 и выше
Условия запуска программы: любой пользователь может запустить и использовать программу

О программе

Оптическое распознавание текста на изображениях и в документах формата PDF.

Запуск

Программа запускается:

  • через графический интерфейс: Пуск — Графика — Распознавание текста;
  • через терминал — выполнить команду:

fly-ocr

Добавление файла изображения или PDF

Добавление файла

Чтобы добавить один или более файлов изображений или PDF, следует:

  • в строке меню выбрать Файл — Добавить изображения, либо на панели инструментов нажать кнопку [Добавить изображения];
  • в открывшемся окне выбрать один или более файлов и нажать кнопку [Открыть].

Добавленные файлы будут отображены во вкладке Изображения панели Источники.

Добавление файлов из папки

Чтобы добавить файлы из папки, следует:

  • в строке меню выбрать Файл — Добавить каталог, либо на панели инструментов нажать кнопку [Добавить каталог];
  • в открывшемся окне выбрать нужную папку с файлами и нажать кнопку [Открыть].

Добавленные файлы будут отображены в списке во вкладке Изображения панели Источники.

Добавление файла из буфера обмена

Чтобы добавить файл из буфера обмена, следует в строке меню выбрать Файл — Вставить из буфера обмена, либо на панели инструментов панели Источники нажать кнопку [Вставить из буфера обмена]. Добавленный файл будет отображен во вкладке Изображения панели Источники.

Добавление снимка экрана

Чтобы добавить снимок экрана, следует в строке меню выбрать Файл — Сделать снимок экрана, либо на панели инструментов панели Источники нажать кнопку [Сделать снимок экрана].

Сделанный снимок будет отображен во вкладке Изображения панели Источники.

Добавление отсканированного файла

Чтобы добавить отсканированный файл, следует:

  • на панели Источники перейти во вкладку Отсканировать;
  • нажать кнопку [...] и в открывшемся окне выбрать устройство сканирования;
  • задать параметры сканирования в секции ниже;

  • при необходимости нажать кнопку [Специфические параметры сканера] и в открывшемся окне задать параметры сканера;

  • нажать кнопку [Сканировать].

Отсканированный файл будет отображен в списке во вкладке Изображения панели Источники.

Удаление файла

Чтобы удалить один или более файлов из списка, следует:

  • выбрать файл или файлы, которые необходимо удалить;
  • на панели инструментов панели Источники нажать кнопку [Удалить изображение из списка].

Все выбранные файлы будут удалены из списка.

Чтобы удалить все файлы в списке, следует на панели инструментов панели Источники нажать кнопку [Очистить список].

Просмотр и масштабирование изображения

Для просмотра изображения следует выбрать его миниатюру во вкладке Изображения панели Источники. Выбранное изображение будет отображено на панели просмотра.

Масштабирование изображения выполняется с помощью кнопок на панели инструментов панели просмотра:

  • [Увеличить] — увеличить изображение;

  • [Уменьшить] — уменьшить изображение;

  • [Обычный размер] — исходный размер изображения;

  • [Наилучшее заполнение] — масштаб изображения по размерам панели просмотра;

  • [По ширине] — масштаб изображения по ширине.

Редактирование изображения

Перед выполнением распознавания текста можно отредактировать изображение-источник. Следует выбрать изображение на панели Источники и выполнить необходимые преобразования с помощью кнопок панели просмотра.

Поворот изображения:

  • против часовой стрелки на 90° — [Повернуть влево]. Также можно в строке меню выбрать Правка — Повернуть влево;

  • по часовой стрелке на 90° — [Повернуть вправо]. Также можно в строке меню выбрать Правка — Повернуть вправо;

  • на произвольный угол — выбрать режим вращения из выпадающего списка (повернуть текущую страницу или все страницы), в поле ввести угол, на который следует повернуть изображение, и нажать клавишу <Enter>.

Изменение яркости — в поле Яркость ввести нужное значение вручную, либо воспользоваться стрелками.

Изменение контрастности — в поле Контрастность ввести нужное значение вручную, либо воспользоваться стрелками.

Изменение разрешения — в поле Разрешение ввести нужное значение вручную, либо воспользоваться стрелками.

Инвертирование цветов — установить флаг Инвертировать цвета.

Настройки распознавания текста

Языки распознавания текста

Чтобы выбрать языки, используемые при распознавании текста, следует:

  • на панели инструментов нажать кнопку [Выбор языков распознавания], либо из выпадающего списка выбрать Выбор языков;

  • в открывшемся окне Выбор языков распознавания выбрать нужные языки:
    • чтобы добавить язык в список используемых, следует выбрать его в колонке Доступные языки и нажать кнопку [>>];
    • чтобы убрать язык из списка используемых, следует выбрать его в колонке Выбранные языки и нажать кнопку [<<];
  • для сохранения настроек следует нажать кнопку [Да].

Чтобы найти нужный язык в списке доступных, можно воспользоваться фильтром. Фильтрация списка происходит по мере ввода текста. Для очистки фильтра следует нажать кнопку, указанную на рисунке.

Разрешенные и запрещенные символы

Чтобы ограничить набор символов, которые программа будет распознавать, следует:

  • из выпадающего списка Выбор языков распознавания выбрать Разрешенные / запрещенные символы;

  • в открывшемся окне Разрешенные / запрещенные символы выбрать с помощью переключателя:
    • Не распознавать эти символы (список запрещенных) — в поле ниже следует ввести без пробелов все символы, которые не должны распознаваться;
    • Распознавать только следующие символы (список разрешенных) — в поле ниже следует ввести без пробелов все символы, которые должны распознаваться;
  • для сохранения нажать кнопку [Закрыть].

Разбиение страницы

Режим разбиения страницы определяет, как будет считываться текст — как одна строка, как одно слово и другие способы.

Для выбора режима разбиения страницы следует на панели инструментов выбрать Выбор языков распознавания — Режим разбиения страницы и установить переключатель в соответствующее положение.

Распознавание текста

Распознавание текста на одной или нескольких страницах

Для распознавания текста следует:

  • из выпадающего списка Распознать выбрать режим вывода результатов — простой текст или текст с форматированием;

  • выбрать страницы, на которых следует распознать текст:
    • только текущая страница — нажать кнопку [Распознать];
    • только выбранные страницы — выбрать нужные страницы, затем из выпадающего списка выбрать Выбранные страницы;
    • все страницы в определенном диапазоне — из выпадающего списка выбрать Несколько страниц, в открывшемся окне Диапазон страниц ввести нужный диапазон и нажать кнопку [Да].

Результат сканирования отображается на панели Результаты.

При необходимости, распознанный текст можно отредактировать (см. Редактирование результатов) и отформатировать (см. Форматирование результатов).

Распознавание текста в выделенной области страницы

Чтобы распознать текст в определенной области или областях страницы, следует:

  • на панели просмотра зажать левую кнопку мыши и переместить указатель таким образом, чтобы прямоугольная рамка охватила весь нужный текст;
  • при необходимости, создать дополнительные рамки, зажав клавишу <Ctrl>;

  • нажать кнопку [Распознать].

Для автоматического определения областей страницы, в которых присутствует текст, следует нажать кнопку [Автоопределение структуры].

Нажатие правой кнопкой мыши на области вызывает контекстное меню области:

  • Порядок — определяет порядок расположения выделенной области в итоговом тексте;
  • Удалить — удалить область;
  • Распознать — распознать текст в области;
  • Распознать в буфер обмена — распознать текст в области и скопировать его в буфер обмена;
  • Сохранить как изображение — сохранить область как изображение.

Обработка результатов распознавания текста

Редактирование результатов

Если результаты распознавания текста отображаются в режиме Обычный текст (см. Распознавание текста), полученный текст можно отредактировать перед сохранением.

Допускается ввод и удаление текста, а также копирование и вставка.

Для поиска и замены текста следует нажать кнопку [Найти и заменить] на панели Результаты.

Будет отображена панель поиска и замены.

В поле Найти следует ввести поисковой запрос. Чтобы учитывать регистр при поиске, следует установить флаг С учетом регистра. Переход между результатами поиска выполняется с помощью кнопок [Найти следующее] (1) и [Найти предыдущее] (2).

В строке Заменить следует при необходимости ввести заменяющий текст.

Чтобы отменить изменение, следует нажать кнопку [Отменить], чтобы вернуть изменение — кнопку [Вернуть].

Для удаления всего текста результата следует нажать кнопку [Очистить результаты].

Форматирование результатов

Чтобы удалить все разрывы строки в тексте результата, следует:

  • на панели Результаты раскрыть выпадающий список Удалить разрывы строк в выбранном тексте;

  • выбрать нужные опции:
    • Перед ним стоит знак конца предложения — будут сохранены разрывы строки после точек, а также восклицательных и вопросительных знаков;
    • Перед ним или после него стоит кавычка — будут сохранены разрывы строки до и после кавычек.
    • Удалять переносы слов — если в распознанном тексте имеются переносы слов, они также будут удалены;
    • Сжимать символы пробелов — несколько одинаковых пробельных символов подряд будут заменены одним;
    • Сохранять абзацы — если распознанный текст разбит на абзацы, они будут сохранены при удалении разрывов строк;
    • Отображать пробелы — графическое отображение всех пробельных символов (пробел, табуляция, перенос строки и другие);

  • нажать кнопку [Удалить разрывы строк в выбранном тексте].

Чтобы удалить разрывы строки только в определенной части текста, следует предварительно выделить нужный текст.

Сохранение результатов

Для сохранения распознанного текста в файл следует:

  • в строке меню выбрать Файл — Сохранить как, либо на панели инструментов нажать кнопку [Сохранить распознанный текст];

  • в открывшемся окне Сохранить распознанный текст:
    • выбрать папку сохранения;
    • ввести название файла в поле Путь;
    • выбрать расширение файла из выпадающего списка Фильтр имен, либо установить флаг Автоматически выбирать расширение файла для автоматического определения подходящего формата;
  • нажать кнопку [Сохранить].

Настройки программы

Выбор системы распознавания текста

Чтобы выбрать систему распознавания текста, следует:

  • в строке меню выбрать Правка — Настройки, либо на панели меню нажать кнопку [Настройки];

  • в открывшемся окне Настройки выбрать нужную систему распознавания текста из выпадающего списка Система распознавания;

  • для сохранения настроек нажать кнопку [Да].

Выбор шрифта панели результатов

Чтобы выбрать шрифт для отображения распознанного текста на панели результатов, следует:

  • в строке меню выбрать Правка — Настройки, либо на панели меню нажать кнопку [Настройки];

  • в открывшемся окне Настройки:
    • для использования шрифта по умолчанию установить флаг По умолчанию;
    • для настройки шрифта:
      • снять флаг По умолчанию;
      • нажать кнопку, указанную на рисунке;

      • в открывшемся окне Выбор шрифта задать параметры шрифта и нажать кнопку [Да];
  • в окне Настройки нажать кнопку [Да].

Выбор кодировки экспортируемых файлов

Чтобы изменить кодировку экспортируемых файлов результатов, следует:

  • в строке меню выбрать Правка — Настройки, либо на панели меню нажать кнопку [Настройки];

  • в открывшемся окне Настройки выбрать из выпадающего списка Кодировка текстового файла:
    • Системная кодировка — кодировка, используемая системой;
    • UTF-8;
  • для сохранения настроек нажать кнопку [Да].

Автоматическое открытие экспортированных файлов

Чтобы экспортированные файлы (см. Сохранение результатов) автоматически открывались, следует:

  • в строке меню выбрать Правка — Настройки, либо на панели меню нажать кнопку [Настройки];

  • в открывшемся окне Настройки установить флаг Автоматически открывать экспортированные документы;
  • для сохранения настроек нажать кнопку [Да].

Настройка интерфейса программы

Панель Источники

На панели Источники отображаются:

  • список файлов-источников текста и кнопки для управления списком;
  • кнопки для добавления источников с помощью снимка экрана и сканирования документа.

Панель Источники отображается по умолчанию.

Чтобы скрыть панель Источники, следует в строке меню снять флаг Вид — Источники. Чтобы отобразить панель Источники, следует в строке меню установить флаг Вид — Источники.

Панель Результаты

На панели Результаты отображаются:

  • распознанный текст;
  • кнопки для редактирования распознанного текста.

Панель Результаты скрыта по умолчанию, и отображается по завершении распознавания текста.

Чтобы отобразить панель Результаты, следует в строке меню снять флаг Вид — Результаты. Чтобы скрыть панель Результаты, следует в строке меню установить флаг Вид — Результаты.

Отображение файлов-источников

По умолчанию файлы на панели Источники отображаются в виде миниатюр.

Чтобы файлы отображались в виде списка, следует нажать кнопку [Просмотр изображений в виде списка].

Чтобы файлы отображались в виде миниатюр, следует повторно нажать кнопку [Просмотр изображений в виде списка].