«Потому, что программное обеспечение должно быть доступным!»

Бесплатные OCR-инструменты

20 января 2013 | Автор: Softbloger
Теги: текст, конвертация, офис, софт, Best Free

Многие из нас почти каждый день что-то распечатывают. Но иногда требуется и обратный процесс — получение «электронного» текста с бумажных носителей. Что в таких случаях делать? Перепечатывать отсканированные страницы с текстом дело неблагодарное и если быть откровенным — достаточно глупое. Особенно в наше время, когда компьютеры способны выполнять сверхсложные операции по вычислению, сравнению и даже предсказанию. Так размышлял я, начиная поиск бесплатного программного обеспечения для «вылущивания» текста из изображений.

И в принципе я не ошибся. Хотя таких инструментов не много, но они есть, а некоторые из них даже очень неплохие. Есть даже онлайн-сервисы, которые хоть и не дают вдоволь поиграть с настройками, однако позволяют быстро (без установки ПО) загрузить отсканированные тексты и получить цифровые документы.

Эту категорию программного обеспечения обозначают аббревиатурой OCR (Optical Character Recognition) и используют для конвертации отсканированных книг и документов в цифровой текст, который можно редактировать в обычных текстовых процессорах. После тестирования десятка таких бесплатных программ и онлайн-сервисов я отобрал по два лучших (по моему мнению) представителя.

Программы

Среди наиболее качественных бесплатных «стационарных» OCR-программ в первую очередь можно отметить CuneiForm. Это программа для оптического распознавания, редактирования (исправления) и сохранение в популярных форматах текста отсканированного с бумажных носителей.

Бесплатные OCR-инструменты

В полученных с помощью CuneiForm текстовых документах сохраняется структура документа и его форматирование. Также эта программа распознает таблицы различной степени сложности, разнообразные шрифты, распечатки с принтеров, тексты пишущей машинки и т. п. Для повышения качества распознавания в программе используется проверка результата работы с помощью словарей, которые можно дополнять.

Другая достаточно качественная OCR-программа — gImageReader. Хотя вообще-то это не программа, а только пользовательский интерфейс для движка Tesseract, который нужно загрузить и инсталлировать до установки gImageReader. Движок Tesseract использует словари и средства проверки орфографии от OpenOffice, которые также нужно устанавливать отдельно.

Бесплатные OCR-инструменты

Таким образом установка и настройка gImageReader превращается если не в сложную, то во всяком случае в довольно тягостную процедуру. Как по мне, это не позволяет рекомендовать ее широкому кругу пользователей. Но возможности программы достаточно широки и тот, кто пройдет все этапы установки получит хороший инструмент.

Онлайн-сервисы

NewOCR.com поддерживает конвертирование изображений из форматов JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Есть возможность распознавания текста, состоящего из нескольких колонок; вращения, нормализации контраста и удаление теней из исходного изображения, загрузки результата в различных форматах, копирования и ссылки на редактирование и перевод текста в сервисах Google.

Второй онлайн-сервис — i2OCR работает с форматами TIF, JPEG, PNG, BMP, GIF, PBM, PGM и PPM. Этот сервис не обладает столькими удобными инструментами, как предыдущий, но его результаты достаточно качественные, а интерфейс прост и удобен, поэтому i2OCR может быть использован в качестве «резервного» средства.

P. S.

ФотографияЯ начал этот обзор с намерением найти средство для конвертировать в электронный вид отфотографированный многостраничный документ. К сожалению ни одна из бесплатных программ и онлайн-сервисов не смогли корректно обработать эти фото. В лучшем случае распознавался только небольшой фрагмент текста на странице. Обработка «нелинейного» текста оказалась слишком сложной задачей. Конечно в этом есть и моя вина (нужно было фотографировать более аккуратно), но приходилось уже работать с тем что было.

После тщетных поисков бесплатного решения пришлось обращаться к коммерческому. А именно (это не реклама) — к онлайн-сервису FineReader Online. Конвертация 45 фотографий страниц документа в текст стоила мне $5. Не скажу, что все опозналось идеально, но подправить два-три предложения на страницу не так трудно, как перепечатывать все заново.

 (голосов: 2)


Комментарии (2):
elenavl
2 февраля 2013 20:36
Спасибо за это! Я даже денег готова дать!))
T_E_M_A
2 февраля 2013 11:10
У CuneiForm огромный плюс - есть версия под нормальную ОС.

Информация

Комментировать статьи на нашем сайте возможно только в течении 30 дней со дня публикации.
Реклама
Друзья