
OCR бесплатно
Оптическое распознавание символов, OCR — задача очень востребованная. Применений у такого метода много; вряд ли найдётся хотя бы один человек, работающий с книгами и документами вообще, который хотя бы раз не сталкивался с такой задачей: перевести картинку (или PDF файл и т.д.) в текст. Желательно, бесплатно и с наилучшим возможным качеством.
Рассказывать про ABBYY Finereader, видимо, не нужно. Но, поскольку этот продукт коммерческий, следует упомянуть как минимум CuneInform, бесплатную программу того же рода. Если вы не пользовались вторым вариантом, рекомендую проверить в деле.
Начиная с сегодняшнего дня, возможность автоматического распознавания текстов предлагается и для русского языка на Документах Google (в общей сложности для 34 языков и всех вариантов Google Apps). Ниже следует пояснение, где это делается и два примера того, что получается.
Качество OCR от Google
Чтобы увидеть опцию использования OCR, откройте страницу Документов (введите имя и пароль, если необходимо) и нажмите на кнопку «Загрузить». То, что вас интересует, подчёркнуто красным на снимке ниже:

Вы можете выбрать язык для распознаваемого текста. Чтобы не быть голословным, привожу два примера использования этого сервиса.
Пример 1. Страница Web-сайта. Сделан снимок окна браузера, оттуда вырезан фрагмент и отправлен на распознавание. Вот результат (выше исходная картинка, ниже итог распознавания).

Пример 2. Фотография страницы книги. Снимок сделан на камеру моего телефона (HTC Desire), качество картинки сами видите какое. Как и в предыдущем примере, вначале сама картинка, затем итоги распознавания.

Должен признать, что в целом я доволен качеством распознавания, учитывая, что входные картинки были в небольшом разрешении. Поэкспериментируйте сами — думаю, что этот новый инструмент распознавания текста заслуживает вашего внимания.
И, пока мы здесь: что, на ваш взгляд, справляется с этой задачей лучше всего? Какие программы или сервисы?
Адрес уведомления об обратной ссылке для этой записи:
Блог в СИНДИКАТе | Проза жизни | ИНФОтека | де Мотиватор | Люди, имена и блоги
Если явным образом не выражено иначе, все работы на данном сайте доступны по лицензии
Creative Commons Attribution-Noncommercial-No Derivative Works 3.0 Unported License.
Перевод текста упомянутой выше лицензии на русский язык
© 2008-2012 Константин Бояндин
Хостинг: Blue Light Host, Великобритания




Комментарии
забавно получается наверно
Ну, все не все, но многие
Ну, все не все, но многие обзаводятся сетевыми аналогами.
OCR
Что-то мне подсказывает, что у гугла какой-то дилетантский OCR получился. Я не доволен качество. Ридер почти бы не сделал ошибок
Посмотрим, что
Посмотрим, что воспоследует.
Русский язык добавлен в их список недавно. Что-то подсказывает мне, что Google умеет учиться на ошибках и значительно улучшать свои сервисы.
Отправить комментарий