Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Технологии распознавания изображений

Введение | Факторы информатизации и последовательность развития информационных процессов и систем | Классификация информации | Работа с текстовой информацией | Работа с графической информацией | Компоненты и структуры АИС | Классификация АИС | Типы баз данных | Международная система по атомной науке и технике INIS | Техническое обеспечение АИС |


Читайте также:
  1. III. ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ
  2. IV. Педагогическая деятельность как социальное созидание личности. Современные педагогические технологии
  3. IV. Установление методов и технологии ремонта ТС
  4. V ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
  5. V. Образовательные технологии
  6. Автоматизация проектирования АИС (CASE-технологии)
  7. Анализ состояния и эффективности применяемой технологии и техники добычи пластового газа

В то время как переход от символьной информации к графиче­ской (растровой) достаточно элементарен и без труда осуществим, например, при выводе текста на экран или печать, обратный пере­ход (от печатного текста к текстовому файлу в машинном коде) весьма затруднителен. Именно в связи с этим для ввода информа­ции в ЭВМ первоначально использовались перфоленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» доку­менты, что было бы гораздо удобнее. «В защиту» перфокарт скажем, что наиболее «продвинутые» устройства перфорации делали надпе­чатку на карте для проверки ее содержания.

В середине 70-х гг. прошлого века была предложена технология OCR — Optical Character Recognition (оптическое распознавание символов) для ввода информации в ЭВМ, заключающаяся в следующем:

• сходный документ печатается на бланке с помощью пишущей машинки, оборудованной стилизованным шрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, подобно тому, как это делаем мы и сейчас, нанося на почтовый конверт цифры индекса);

• полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое кодирует каждый символ и определяет его позицию на листе;

• информация переносится в память ЭВМ, образуя электронный образ документа или документ во внутреннем представ­лении.

Очевидно, что по сравнению с перфолентами (перфокартами) OCR-документ удобнее хотя бы тем, что он без особого труда может быть прочитан и проверен человеком, и вообще представляет собой «твердую копию» соответствующего введенного документа. Было разработано несколько модификаций подобных шрифтов разной степени «удобочитаемости» (OCR-A, OCR-B и пр.).

Очевидно также, что считывающее устройство представляет со­бой сканер, хотя и специализированный (считывание стилизованных символов), но интеллектуальный (распознавание их).

OCR-технология в данном виде просуществовала недолго и в настоящее время приобрела следующую структуру:

• считывание исходного документа осуществляется универсальным сканером, создающим растрового образ и записывающий его в оперативную память и/или в файл;

• распознавание полностью возлагается на программные продук­ты, которые, естественно, получили название OCR-software.

Типичным представителем данного семейства программ являет­ся ABBYY Fine Reader, технологический процесс которого включает следующие шаги:

• сканирование исходного документа (страницы);

• разметка областей (ручная или автоматическая), требующих различные виды обработки (страницы разворота книги, таблицы, рисунки, колонки текста и пр.);

• распознавание — создание и вывод на экран текстового фай­ла (с вставленными рисунками и таблицами, если это необхо­димо);

• контроль правильности (ручной, автоматический, полуавтома­тический);

• вывод информации в выходной файл в заданном формате (.doc или.rtf для Word,.xls для Excel и пр.).

Данные, полученные на каждом этапе (изображение, текстовый файл), сохраняются под «общей вывеской» страницы с номером, что позволяет в любой момент вернуться и повторить разметку, распо­знавание и пр.


Дата добавления: 2015-07-20; просмотров: 81 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Табличная информация и ее обработка| Предметные технологии

mybiblioteka.su - 2015-2024 год. (0.005 сек.)