Многие из нас почти каждый день что-то распечатывают. Но иногда требуется и обратный процесс — получение «электронного» текста с бумажных носителей. Что в таких случаях делать? Перепечатывать отсканированные страницы с текстом дело неблагодарное и если быть откровенным — достаточно глупое. Особенно в наше время, когда компьютеры способны выполнять сверхсложные операции по вычислению, сравнению и даже предсказанию. Так размышлял я, начиная поиск бесплатного программного обеспечения для «вылущивания» текста из изображений.
И в принципе я не ошибся. Хотя таких инструментов не много, но они есть, а некоторые из них даже очень неплохие. Есть даже онлайн-сервисы, которые хоть и не дают вдоволь поиграть с настройками, однако позволяют быстро (без установки ПО) загрузить отсканированные тексты и получить цифровые документы.
Эту категорию программного обеспечения обозначают аббревиатурой OCR (Optical Character Recognition) и используют для конвертации отсканированных книг и документов в цифровой текст, который можно редактировать в обычных текстовых процессорах. После тестирования десятка таких бесплатных программ и онлайн-сервисов я отобрал по два лучших (по моему мнению) представителя.
Программы
Среди наиболее качественных бесплатных «стационарных» OCR-программ в первую очередь можно отметить CuneiForm. Это программа для оптического распознавания, редактирования (исправления) и сохранение в популярных форматах текста отсканированного с бумажных носителей.
В полученных с помощью CuneiForm текстовых документах сохраняется структура документа и его форматирование. Также эта программа распознает таблицы различной степени сложности, разнообразные шрифты, распечатки с принтеров, тексты пишущей машинки и т. п. Для повышения качества распознавания в программе используется проверка результата работы с помощью словарей, которые можно дополнять.
Другая достаточно качественная OCR-программа — gImageReader. Хотя вообще-то это не программа, а только пользовательский интерфейс для движка Tesseract, который нужно загрузить и инсталлировать до установки gImageReader. Движок Tesseract использует словари и средства проверки орфографии от OpenOffice, которые также нужно устанавливать отдельно.
Таким образом установка и настройка gImageReader превращается если не в сложную, то во всяком случае в довольно тягостную процедуру. Как по мне, это не позволяет рекомендовать ее широкому кругу пользователей. Но возможности программы достаточно широки и тот, кто пройдет все этапы установки получит хороший инструмент.
Онлайн-сервисы
NewOCR.com поддерживает конвертирование изображений из форматов JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Есть возможность распознавания текста, состоящего из нескольких колонок; вращения, нормализации контраста и удаление теней из исходного изображения, загрузки результата в различных форматах, копирования и ссылки на редактирование и перевод текста в сервисах Google.
Второй онлайн-сервис — i2OCR работает с форматами TIF, JPEG, PNG, BMP, GIF, PBM, PGM и PPM. Этот сервис не обладает столькими удобными инструментами, как предыдущий, но его результаты достаточно качественные, а интерфейс прост и удобен, поэтому i2OCR может быть использован в качестве «резервного» средства.
P. S.
Я начал этот обзор с намерением найти средство для конвертировать в электронный вид отфотографированный многостраничный документ. К сожалению ни одна из бесплатных программ и онлайн-сервисов не смогли корректно обработать эти фото. В лучшем случае распознавался только небольшой фрагмент текста на странице. Обработка «нелинейного» текста оказалась слишком сложной задачей. Конечно в этом есть и моя вина (нужно было фотографировать более аккуратно), но приходилось уже работать с тем что было.
После тщетных поисков бесплатного решения пришлось обращаться к коммерческому. А именно (это не реклама) — к онлайн-сервису FineReader Online. Конвертация 45 фотографий страниц документа в текст стоила мне $5. Не скажу, что все опозналось идеально, но подправить два-три предложения на страницу не так трудно, как перепечатывать все заново.
У CuneiForm огромный плюс — есть версия под нормальную ОС.
Спасибо за это! Я даже денег готова дать!))