Лучшая программа для распознавания текста

Друзья, ответьте только на один вопрос — вот если нужно преобразовать текст из бумажного или сканированного источника в Word или тому подобное, вы будете вручную перепечатывать или найдете бесплатную программу для распознавания текста и сделаете все за пару минут? Я думаю выбор тут очевидный — мы же не дураки и ценим свое драгоценное время.

Смотри — он не знает о существовании аналогов FineReader

В данный момент хорошо подойдет цитата с баша (это такой цитатник рунета, который в последнее время становится все менее популярным)… мол программисты настолько ленивы, что лучше потратят большую часть времени на поиск автоматизации, чем будут делать любую монотонную работу. Я думаю тут со мной многие разделят точку зрения и прочувствуют эмоции айтишников. Нет, ну правда, не вбивать же все это ручками — времени может уйти просто невероятное количество, а если немного поразмыслить — данную задачку можно решить достаточно быстро.

[ads]

Тут вот мне нашептали на ухо, что якобы лучше чем FineReader еще ничего не придумали. Конечно же я могу с этим согласиться — ФайнРидер на мой взгляд лидер, да и денег он стоит. Я понимаю что кряки и хаки для данной программы существует, но рядовым пользователям иногда очень сложно разобраться с механизмами защиты программы (да оно и не нужно). Мы настолько привыкли к халявному софту, что даже и не подозреваем что у (не дешевых между прочим) программ существует добротная и совершенно бесплатная альтернатива.

Если вам нужно по быстрому распознать один листочек и забыть, то лучше обратиться к онлайн сервисам — их сейчас очень много и они на любой вкус и цвет, за маленькие объемы денег не берут. Ну а если нужно периодически прибегать к оцифровке документов а денег на FineReader нету (а пиратку нет возможности поставить по известным причинам), то самое время взглянуть на open sourse разработки — о них то мы сегодня и поговорим.

CuneiForm — Бесплатный аналог FineReader

С чего бы начать описание… в общем на Windows 10 это все дело замечательно работает, хотя когда я подглядел интерфейс я немного засомневался — он явно застрял во временах доминирования 98 окошек и смотрится это немного необычно. Но мы же не на иконки будем смотреть? — нас интересуют тактические свойства программы для распознавания текста, а у CuneiForm с этим полный порядок. Думаю пора начать…

Если ссылка по каким либо причинам недоступна — оповести автора

Официальная [urlspan]страница загрузки[/urlspan] на сайте CuneiForm

С установкой проблем не должно возникнуть — тут все предельно просто и ничего лишнего и гадкого в систему не устанавливается, хотя кто его знает — продадутся и напихают различных Мэйл.Спутников и Амиго браузеров, так что не расслабляйтесь.

Переходим к следующему шагу, а именно распознаванию текста. Я нашел в сети непонятный сканированный листок А4 с неизвестным мне текстом — на нем и будем проводить эксперименты (короче теперь это наш подопытный кролик). Как я уже написал выше — интерфейс тут такой, что не забалуешь… Жмем «Открыть…» и выбираем положение нужного нам файлика с изображением (можно сразу принять со сканера, но таковой у меня отсутствует ввиду того, что нет в нем необходимости)

Далее необходимо упростить работу программе и выделить нужные области для распознавания, чтобы особо не вникать — можете выбрать пункт «Авторазметка», в подавляющем большинстве случаев этого достаточно. Следующий пункт — «Распознавание», думаю тут ничего особо рассказывать нечего (и так все понятно, ничего нажимать не нужно)

Завершающий шаг — сохранение нашего оцифрованного текста в файл. Если он нужен вам в виде привычного документа — это безусловно «Формат RTF», он откроется и в Microsoft Office любой версии и бесплатные офисные пакеты тоже съедят его без проблем. А форматы txt и html — скорее всего вам ни к чему. Раз вы не знаете их предназначение, то делать ими нечего… а если нужны, то знаете зачем — и смысл их описывать?!

CuneiForm распознает текст достаточно быстро и сохранение тоже не растягивается как у коммерческих конкурентов. Как можете видеть ниже — текст отлично распознавался и замечательно открылся в MS Office 2013 — никаких проблем с совместимостью нет, а я немного побаивался кривой верстки.

Конечно же в тексте присутствуют некоторые недочеты, но подкорректировать их значительно проще чем набивать весь текст с нуля. Можно сказать с интерфейсом и особенностью работы мы разобрались, но что делать если файлов для распознавания очень много? — об этом далее в заметке…

CuneiForm — Приложение для пакетного распознавания текста

Как видите и львы тут из обоев для Windows 98 — прям ностальгия нахлынула… но друзья, небольшое дополнение — программа для распознавания текста у меня корректно работает только в случае запуска от имени администратора… она и в обычном режиме в общем-то работает, но постоянно ругается непонятно на что и производительность у нее гораздо ниже — так что админ наше всё!

Для распознавания большого количества изображений нам нужно создать «Пакет» с ними и придумать ему имя, чтобы в дальнейшем понимать что у нас и где, а не рвать на голове волосы не найдя нужного в общем многообразии документов.

Следующий шаг — это настройки параметров распознавания. Скажу честно — тут я вам не советник, просто посмотрите на свой документ и заполните нужные параметры здесь… максимум что я могу порекомендовать — это установить «Автоповорот страниц», мало ли что там с документом и как он сканировался.

Далее нужно выбрать папку с изображениями или кнопкой «Добавить…» выбрать нужные из списка. Скорее всего ввиду своей древности (или винтажности) простое перетягивание картинок в окно программы тупо не работает, но зато легально и бесплатно — страдайте молодежь!

Что делать с исходными файлами после того, как они будут обработаны? — НИЧЕГО не надо. Вдруг программа их криво распознает и удалит исходники — будет очень неприятно. Так что пускай все останется на местах, а удалить или переместить куда-нибудь мы и сами можем в любой момент.

Задайте форматы результатов распознавания и укажите место для их сохранения. Тут, как и всегда, ничего сложного — выбираем папку куда все это дело сохранять… и не забудьте выбрать в каком формате. Для большинства подойдет RTF.

И, наконец, последний шаг — пускай меня покарают дизайнеры, но я опишу это как «Давайте поиграем со шрифтами»… но я бы оставил все как есть для максимальной совместимости с различными офисными пакетами.

Ну вот вроде и все, нацарапал небольшой обзор приложения для распознавания текста и рад… На самом деле такого софта достаточно много, но вот CuneiForm запомнилась больше остальных. Конечно же с возможностью ФайнРидера ей не сравниться, но просто распознать текст — это ей по зубам.

P.S. Дорогие друзья, я знаю что все мы привыкли к дорогим и самым передовым примерам программного обеспечения — это касается не только программы распознавания текста, но есть же хорошие аналоги, которые можно скачать совершенно бесплатно… и тсссс! совершенно легально! Надеюсь заметка помогла вам решить определенные задачи, ну а если нет — прошу в комментарии.

Обсуждение: 2 комментария

Александр

01.12.2020 в 11:20 дп

Куни Форм? Серьезно? Какой датой статья, не увидел! Ссылка не работает, отписал! Что дальше?

Ответить
1. alimugik
  
  01.12.2020 в 11:41 дп
  
  14 года статья)) уже дофига лет блог не развивается и получил свое продолжение на itshneg.com — судя по всему приложение для распознавания текста более не поддерживается авторами
  
  Ответить

Оставить комментарий Отменить ответ

Отправляя сообщение, Вы разрешаете сбор и обработку персональных данных.
Политика конфиденциальности.