Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Основные процедуры и методы распознавания изображений



Читайте также:
  1. I I . Выполнение процедуры
  2. I. ОСНОВНЫЕ ЗАДАЧИ ОРГАНОВ НАРОДНОГО КОНТРОЛЯ
  3. II. Методы и методики диагностики неосознаваемых побуждений.
  4. II. Основные аспекты экономического учения Смита
  5. II. ОСНОВНЫЕ ЗАДАЧИ НА 1938 ГОД
  6. II. Основные определения
  7. II.9. МЕТОДЫ АТОМНО-ЭМИССИОННОГО СПЕКТРАЛЬНОГО АНАЛИЗА

 

Операция предобработки применяется практически всегда после снятия информации с видеодатчика и преследует цель снижения помех на изображении, возникших в результате дискретизации и квантования, а также подавления внешних шумов. Как правило, это операции усреднения и выравнивания гистограмм.

Сегментация обычно понимается как процесс поиска однородных областей на изображении. Этот этап весьма трудный и в общем виде не алгоритмизированный до конца для произвольных изображений. Наиболее распространены методы сегментации, основанные на определении однородных яркостей (цветов) или однородностей типа текстур.

После сегментации возникают помехи в виде как разрозненных изменений изолированных элементов изображения, так и в виде искажений некоторых связных областей. На практике при борьбе с подобными помехами наибольшее распространение получили цифровые фильтры-маски и нелинейные фильтры типа медианных. При этом в случае сегментации путем выделения границ использование усредняющих фильтров-масок невозможно, так как границы при этом не подчеркиваются, а размываются. Для подчеркивания контуров применяются специальные операторы интегрального типа.

Распознавание - чаще всего конечный этап обработки, лежащий в основе процессов интерпретации и понимания. Входными для распознавания являются изображения, выделенные в результате сегментации и, частично, отреставрированные. Они отличаются от эталонных геометрическими и яркостными искажениями, а также сохранившимися шумами.

Для реальных задач распознавания применяются, в основном, четыре подхода, использующие методы: корреляционные, основанные на принятии решений по критерию близости с эталонами; признаковые и синтаксические - наименее трудоемкие и нормализации, занимающие промежуточное положение по объему вычислений.

Каждый из подходов в распознавании имеет право на существование. Более того, в рамках каждого подхода есть свои конкретные алгоритмы, имеющие определенную область применения, которая зависит от характера различий входных и эталонных изображений, от помеховой обстановки в поле зрения, требований к объемам вычислений и скорости принятия решений.

12. Методы сжатия изображений: классификация, метод RLE, LZV.

Алгоритмы сжатия можно разделить на две категории: симметричные и асим­метричные. При симметричном сжатии время, затрачиваемое на кодирование и де­кодирование данных, примерно одинаково, а алгоритмы, применяемые при этом, дос­таточно близки. При асимметричном сжатии в одном направлении (обычно при коди­ровании) расходуется значительно больший объем машинного времени, чем в другом.

Сжатие без потерь (lossless) подразумевает, что восстановленные после сжа­тия данные будут полностью (с точностью до бита) идентичны исходным. Сжатие с потерями (lossy) применяется только для сжатия мультимедийной инфор­мации (в основном, изображений и звуковых файлов) и означает, что восстановленные после сжатия данные не будут соответствовать исходным.

LZW - метод сжатия (графических изображений), основанный на алгоритме поиска одинаковых последовательностей во всем файле.

Сжатие в RLE происходит за счет замены цепочек одинаковых байт на пары "счетчик, значение".

 

13. Методы сжатия изображений: классификация метод Хаффмана.

Метод кодирования Хаффмана - метод сжатия данных, основанный на использовании относительной частоты встречаемости индивидуальных элементов. Часто встречающиеся элементы кодируются более короткой последовательностью битов.

Кодирование Хаффмана имеет высокую эффективность при относительно равномерном распределении уровней пикселей.

 

14. Представление и сжатие изображений: пирамидальное представление, метод квадрантов, цепное кодирование.

Пирамидальная техника: Итерационная субдискретизация (блок пикселей заменяется одним пикселем с усредненным значением, получившееся изображение опять разбивается на блоки, заменяемые одним пикселом, и т.д.); в итоге, получаем одно значение (усредненный уровень серого). Получаемые (и хранимые) «разностные» изображения, в которых значение каждого пиксела равны разнице между реальным и усредненным по блоку значениями, позволяют восстановить оригинальное изображение. Своего рода обобщение иерархического блочного кодирования

Естественный подход для постепенного (progressive) отображения (передачи) графики: сначала отображение в плохом разрешении, затем последовательно все в более лучшем.

 

15. Мультимедийные базы данных.

16. Методы построения и принципы поиска информации в мультимедийных базах данных.

1. С помощью иерархической классификации изображений

При поиске пользователь использует иерархию, например:

1. Художественные произведения

1.1. Живопись

1.1.1. Россия

1.1.1.1. 19-ый век

2. С помощью индекса признаков:

Изображения рассматриваются как документы с индексом терминов

1. Поиск по содержимому

Поиск по шаблону, возвращающий изображения похожие на заданное изображение, фигуру и т.д.

а) Реляционное представление:

• Представление изображения: идентификатор изображения и его основные свойства (атрибуты)

• Представление объекта: объекты (сегменты, прямоугольники) внутри изображений; извлекаются вручную или автоматически

Атрибуты включают: id изображения, id объекта, координаты минимального ограничивающего прямоугольника, признаки

• Обобщение: вероятностные отношения - объект x находится в изображении i с вероятностью p

• Запросы: применять стандартную технику запросов, используя значения признаков в условиях запроса

б) Пространственное представление:

• Например, с помощью R- или R*-деревьев

• Построить одно R-дерево для всех изображений в базе данных

• Страница, соответствующая листу, содержит близко-расположенные объекты (их MBR’ы) со списком указателей на исходные изображения

• Также сохранены дополнительные свойства (признаки) объекта

• Для не пространственных свойств объектов может быть построен отдельный индекс

 

17. Аппаратные средства мультимедиа технологий.

Звуковые и видео карты, сидиромы, ТВ-тюнеры, мпег-плееры (на это фантазии должно хватить;))

 

18. Кино и видео форматы изображения: форматы, принципы реализации.

частота 24 кадра в секунду - для показа в кинотеатрах.

частота 25 кадров в секунду -киноплёнка, предназначенная для показа на ТВ в PAL/SECAM

частота 16 кадров в секунду (старые немые фильмы, любительские фильмы на плёнке 16мм)

Большинство государств на Земле использует модификации трех телевизионных стандартов: NTSC, PAL и SECAM. Эти стандарты несовместимы друг с другом.

 

NTSC (National Television Systems Committee):

Линии/Развертка 525(~487 видимых ~240 на поле)/60
Частота по горизонтали 15.734 kHz
Частота по вертикали 60 Hz (60 half frames per second)
Частота несущей цветового компонента 3.579545 mHz
Полоса пропускания видео 4.2 mHz
Частота несущей звука 4.5 mHz

PAL:

Система PAL B,G,H PAL I PAL D PAL N PAL M
Линии/Развертка 625(~540 видимо) /50 625 (~ 288 на поле) /50 625/50 625/50 525/60
Частота по горизонтали 15.625 kHz 15.625 kHz 15.625 kHz 15.625 kHz 15.750 kHz
Частота по вертикали 50 Hz 50 Hz 50 Hz 50 Hz 60 Hz
Частота несущей цветового компонента 4.433618 MHz 4.433618 MHz 4.433618 MHz 3.582056 MHz 3.575611 MHz
Полоса пропускания видео 5.0 MHz 5.5 MHz 6.0 MHz 4.2 MHz 4.2 MHz
Частота несущей звука 5.5 MHz 6.0 MHz 6.5 MHz 4.5 MHz 4.5 MHz

SECAM:

Система SECAM B,G,H SECAM D,K,K1,L
Линии/Развертка 625/50 (~540 видимо) (~ 288 на поле) 625/50
Частота по горизонтали 15.625 kHz 15.625 kHz
Частота по вертикали 50 Hz 50 Hz
Полоса пропускания видео 5.0 MHz 6.0 MHz
Частота несущей звука 5.5 MHz 6.5 MHz

 

19. Основные понятия сжатия видео.

Определимся с основными понятиями, которые используются при сжатии видео. Видеопоток характеризуется разрешением, частотой кадров и системой представления цветов. Из телевизионных стандартов пришли разрешения в 720х576 и 640х480, и частоты в 25 (стандарты PAL или SECAM) и 30 (стандарт NTSC) кадров в секунду. Для низких разрешений существуют специальные названия CIF - Common Interchange Format, равный 352х288 и QCIF - Quartered Common Interchange Format, равный 176х144. Поскольку CIF и QCIF ориентированы на крайне небольшие потоки, то с ними работают на частотах от 5 до 30 кадров в секунду.

Требования приложений к алгоритму: Для алгоритмов сжатия видео характерны большинство тех же требований приложений, которые предъявляются к алгоритмам сжатия графики, однако есть и определенная специфика: произвольный доступ - подразумевает возможность найти и показать любой кадр за ограниченное время. Обеспечивается наличием в потоке данных так называемых точек входа - кадров, сжатых независимо (т.е. как обычное статическое изображение). Приемлемым временем поиска произвольного кадра считается 1/2 секунды. Быстрый поиск вперед/назад - подразумевает быстрый показ кадров, не следующих друг за другом в исходном потоке. Требует наличия дополнительной информации в потоке. Эта возможность активно используется всевозможными проигрывателями. Показ кадров фильма в обратном направлении. Редко требуется в приложениях. При жестких ограничениях на время показа очередного кадра выполнение этого требования может резко уменьшить степень сжатия. Аудио-визуальная синхронизация - самое серьезное требование. Данные, необходимые для того, чтобы добиться синхронности аудио и видео дорожек, существенно увеличивают размер фильма. Для видеосистемы это означает, что, если мы не успеваем достать и показать в нужный момент времени некий кадр, то мы должны уметь корректно показать, например, кадр, следующий за ним. Если мы показываем фильм без звука, то можно позволить себе чуть более медленный или более быстрый показ. Во времена сравнительно несовершенного немого кино кадры шли настолько неравномерно, насколько неравномерно крутил ручку камеры оператор. Показ без звука фильма, снятого столь несовершенными методами, воспринимается нормально даже при условии, что частота показываемых кадров постоянна (и герои фильма то передвигаются карикатурно быстро, то медленно). Однако смотреть фильм (например, боевик), в котором видеосистема не успевает за звуком - становится мучением. Устойчивость к ошибкам - требование, обусловленное тем, что большинство каналов связи ненадежны. Испорченное помехой изображение должно быстро восстанавливаться. Требование достаточно легко удовлетворяется необходимым числом независимых кадров в потоке. При этом также уменьшается степень сжатия, так как на экране 2-3 секунды (50-75 кадров) может быть одно и то же изображение, но мы будем вынуждены нагружать поток независимыми кадрами. Время кодирования/декодирования. Во многих системах (например, видеотелефонах) общая задержка на кодирование-передачу-декодирование должна составлять не более 150 мс. Кроме того, в приложениях, где необходимо редактирование, нормальная интерактивная работа невозможна, если время реакции системы составляет более 1 секунды.

Редактируемость. Под редактируемостью понимается возможность изменять все кадры так же легко, как если бы они были записаны независимо.

Масштабируемость - простота реализации концепции "видео в окне". Мы должны уметь быстро изменять высоту и ширину изображения в пикселах. Масштабирование способно породить неприятные эффекты в алгоритмах основанных на ДКП (дискретном косинусном преобразовании). Корректно реализовать эту возможность для MPEG на данный момент можно, пожалуй, лишь при достаточно сложных аппаратных реализациях, только тогда алгоритмы масштабирования не будут существенно увеличивать время декодирования. Интересно, что масштабирование достаточно легко осуществляется в так называемых фрактальных алгоритмах. В них, даже при увеличении изображения в несколько раз, оно не распадается на квадраты, т.е. отсутствует эффект "зернистости". Если необходимо уменьшать изображение (что, хоть и редко, но бывает нужно), то с такой задачей хорошо справляются алгоритмы, основанные на wavelet преобразовании (см. описание JPEG-2000). Небольшая стоимость аппаратной реализации. При разработке хотя бы приблизительно должна оцениваться и учитываться конечная стоимость. Если эта стоимость велика, то даже при использовании алгоритма в международных стандартах, производители будут предлагать свои, более конкурентоспособные, алгоритмы и решения. На практике это требование означает, что алгоритм должен реализовываться небольшим набором микросхем.


Дата добавления: 2015-07-10; просмотров: 140 | Нарушение авторских прав






mybiblioteka.su - 2015-2024 год. (0.009 сек.)