Читайте также:
|
|
В то время как переход от символьной информации к графической (растровой) достаточно элементарен и без труда осуществим, например, при выводе текста на экран или печать, обратный переход (от печатного текста к текстовому файлу в машинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ первоначально использовались перфоленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. «В защиту» перфокарт скажем, что наиболее «продвинутые» устройства перфорации делали надпечатку на карте для проверки ее содержания.
В середине 70-х гг. прошлого века была предложена технология OCR — Optical Character Recognition (оптическое распознавание символов) для ввода информации в ЭВМ, заключающаяся в следующем:
• сходный документ печатается на бланке с помощью пишущей машинки, оборудованной стилизованным шрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, подобно тому, как это делаем мы и сейчас, нанося на почтовый конверт цифры индекса);
• полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое кодирует каждый символ и определяет его позицию на листе;
• информация переносится в память ЭВМ, образуя электронный образ документа или документ во внутреннем представлении.
Очевидно, что по сравнению с перфолентами (перфокартами) OCR-документ удобнее хотя бы тем, что он без особого труда может быть прочитан и проверен человеком, и вообще представляет собой «твердую копию» соответствующего введенного документа. Было разработано несколько модификаций подобных шрифтов разной степени «удобочитаемости» (OCR-A, OCR-B и пр.).
Очевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный (считывание стилизованных символов), но интеллектуальный (распознавание их).
OCR-технология в данном виде просуществовала недолго и в настоящее время приобрела следующую структуру:
• считывание исходного документа осуществляется универсальным сканером, создающим растрового образ и записывающий его в оперативную память и/или в файл;
• распознавание полностью возлагается на программные продукты, которые, естественно, получили название OCR-software.
Типичным представителем данного семейства программ является ABBYY Fine Reader, технологический процесс которого включает следующие шаги:
• сканирование исходного документа (страницы);
• разметка областей (ручная или автоматическая), требующих различные виды обработки (страницы разворота книги, таблицы, рисунки, колонки текста и пр.);
• распознавание — создание и вывод на экран текстового файла (с вставленными рисунками и таблицами, если это необходимо);
• контроль правильности (ручной, автоматический, полуавтоматический);
• вывод информации в выходной файл в заданном формате (.doc или.rtf для Word,.xls для Excel и пр.).
Данные, полученные на каждом этапе (изображение, текстовый файл), сохраняются под «общей вывеской» страницы с номером, что позволяет в любой момент вернуться и повторить разметку, распознавание и пр.
Дата добавления: 2015-07-20; просмотров: 81 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Табличная информация и ее обработка | | | Предметные технологии |