Распространенные форматы файлов растровой графики

Читайте также:

Формат	Макс. число бит/пиксел	Макс. число цветов	Макс. размер изображения, пиксел	Методы сжатия	Кодирование нескольких изображений
BMP		16'777'216	65535 x 65535	RLE	-
GIF			65'535 x 65535	LZW	+
JPEG		16'777'216	65535 x 65535	JPEG	-
PCX		16'777'216	65535 x 65535	RLE	-
PNG		281'474'976'710'656	2'147'483'647 x 2 147 483 647	Deflation (вариант LZ77)	-
TIFF		16'777'216	всего 4'294'967'295	LZW, RLE и другие	+

Файлы BMP. Формат файла BMP (сокращенно растровой графики от BitMaP) - это "родной" формат для Windows, поскольку он наиболее близко соответствует внутреннему формату Windows, в котором эта система хранит свои растровые массивы. Для имени файла, представленного в BMP-формате, чаще всего используется расширение BMP, хотя некоторые файлы имеют расширение RLE, означающее run length encoding (кодирование длины серий). Расширение RLE имени файла обычно указывает на то, что произведено сжатие растровой информации файла одним из двух способов сжатия RLE, которые допустимы для файлов BMP-формата. В файлах BMP информация о цвете каждого пиксела кодируется 1, 4, 8, 16 или 24 бит (бит/пиксел). Числом бит/пиксел, называемым также глубиной представления цвета, определяется максимальное число цветов в изображении. Изображение при глубине 1 бит/пиксел может иметь всего два цвета, а при глубине 24 бит/пиксел - более 16 млн. различных цветов.

Структура типичного BMP-файла, содержащего 256-цветное изображение (с глубиной 8 бит/пиксел). Файл разбит на четыре основные раздела: заголовок файла растровой графики, информационный заголовок растрового массива, таблица цветов и собственно данные растрового массива. Не все файлы BMP имеют структуру, подобную показанной на схеме. Например, файлы BMP с глубиной 16 и 24 бит/пиксел не имеют таблиц цветов; в этих файлах значения пикселов растрового массива непосредственно характеризуют значения цветов RGB. Также могут различаться внутренние форматы хранения отдельных разделов файла. Например, информация растрового массива в некоторых 16 и 256-цветных BMP-файлах может сжиматься посредством алгоритма RLE, который заменяет последовательности идентичных пикселов изображения на лексемы, определяющие число пикселов в последовательности и их цвет. В Windows допускается работа с BMP-файлами стиля OS/2, в которых используются различные форматы информационного заголовка растрового массива и таблицы цветов.

Структура файла BMP

Заголовок файла растровой графики (14 байт) Сигнатура файла BMP (2 байт) Размер файла (4 байт) Не используется (2 байт) Не используется (2 байт) Местонахождение данных растрового массива (4 байт)

Информационный заголовок растрового массива (40 байт) Длина этого заголовка (4 байт) Ширина изображения (4 байт) Высота изображения (4 байт) Число цветовых плоскостей (2 байт) Бит/пиксел (2 байт) Метод сжатия (4 байт) Длина растрового массива (4 байт) Горизонтальное разрешение (4 байт) Вертикальное разрешение (4 байт) Число цветов изображения (4 байт) Число основных цветов (4 байт)

Таблица цветов (длина изменяется от 8 до 1024 байт)

Собственно данные растрового массива (длина переменная)

Файлы PCX. PCX стал первым стандартным форматом графических файлов для хранения файлов растровой графики в компьютерах IBM PC. На этот формат, применявшийся в программе Paintbrush фирмы ZSoft, в начале 80-х гг. фирмой Microsoft была приобретена лицензия, и затем он распространялся вместе с изделиями Microsoft. В дальнейшем формат был преобразован в Windows Paintbrush и начал распространяться с Windows. Хотя область применения этого популярного формата сокращается, файлы формата PCX все еще широко распространены сегодня.

Файлы PCX разделены на следующие три части: заголовок PCX, данные растрового массива и факультативная таблица цветов. 128-байт заголовок PCX содержит несколько полей, в том числе поля размера изображения и числа бит для кодирования информации о цвете каждого пиксела. Информация растрового массива сжимается с использованием простого метода сжатия RLE. Формат PCX первоначально был разработан для адаптеров CGA- и EGA-дисплеев и в дальнейшем был модифицирован для использования в адаптерах VGA и адаптерах истинных цветов. Кодирование цвета каждого пиксела в современных изображениях PCX может производиться с глубиной 1, 4, 8 или 24 бит.

Файлы TIFF. Если PCX - один из самых простых для декодирования форматов растровой графики, то TIFF (Tagged Image File Format, формат файлов изображения, снабженных тегами) - один из самых сложных. Файлы TIFF имеют расширение TIFF. Каждый файл начинается 8-байт заголовком файла изображения (IFH), важнейший элемент которого - каталог файла изображения (Image File Directory, IFD) - служит указателем к структуре данных. IFD представляет собой таблицу для идентификации одной или нескольких порций данных переменной длины, называемых тегами; теги хранят информацию об изображении. В спецификации формата файлов TIFF определено более 70 различных типов тегов. Например, тег одного типа хранит информацию о ширине изображения в пикселах, другого - информацию о его высоте. В теге третьего типа хранится таблица цветов (при необходимости), а тег четвертого типа содержит сами данные растрового массива. Изображение, закодированное в файле TIFF, полностью определяется его тегами, и этот формат файла легко расширяется, поскольку для придания файлу дополнительных свойств достаточно лишь определить дополнительные типы тегов.

Несмотря на свою сложность, файловый формат TIFF остается одним из лучших для передачи растровых массивов с одной платформы на другую благодаря своей универсальности, позволяющей кодировать в двоичном виде практически любое изображение без потери его визуальных или каких-либо иных атрибутов.

Файлы GIF. Большинство ведущих специалистов-графиков, имеющих дело с алгоритмом LZW, сталкиваются с юридическими проблемами при использовании популярного межплатформенного формата файлов растровой графики GIF (Graphics Interchange Format - формат обмена графическими данными, произносится "джиф"), разработанного компанией CompuServe. Обычно для имени файлов GIF используется расширение GIF. Структура файла GIF зависит от версии GIF-спецификации, которой соответствует файл. В настоящее время используются две версии, GIF87a и GIF89a. Первая из них проще. Независимо от номера версии, файл GIF начинается с 13-байт заголовка, содержащего сигнатуру, которая идентифицирует этот файл в качестве GIF-файла, номер версии GIF и другую информацию. Если файл хранит всего одно изображение, вслед за заголовком обычно располагается общая таблица цветов, определяющая цвета изображения. Если в файле хранится несколько изображений (формат GIF, аналогично TIFF, позволяет в одном файле кодировать два и больше изображений), то вместо общей таблицы цветов каждое изображение сопровождается локальной таблицей цветов. В файле GIF87a вслед за заголовком и общей таблицей цветов размещается изображение, которое может быть первым из нескольких располагаемых подряд изображений. Каждое изображение состоит из 10-байт описателя изображения, расположенной вслед за ним локальной таблицы цветов и битов растрового массива. Для повышения эффективности использования памяти данные растрового массива сжимаются с помощью алгоритма LZW. Файлы GIF89a имеют аналогичную структуру, но они могут содержать четыре типа блоков расширения с дополнительной информацией о каждом изображении. Это блоки расширения для управления графикой, которые описывают, как изображение должно выводиться на экран; блоки расширения с обычным текстом, содержащие текст, отображаемый вместе с графикой; блоки расширения для комментария, содержащие комментарии в коде ASCII; и блоки расширения прикладных программ, в которых хранится информация, принадлежащая только создавшей этот файл программе. Блоки расширения могут находиться практически в любом месте файла после общей таблицы цветов. Основные достоинства GIF заключаются в широком распространении этого формата и его компактности. Но ему присущи два достаточно серьезных недостатка. Один из них состоит в том, что в изображениях, хранящихся в виде GIF-файла, не может быть использовано более 256 цветов. Второй, возможно, еще более серьезный, заключается в том, что разработчики программ, использующие в них форматы GIF, должны иметь лицензионное соглашение с CompuServe и вносить плату за каждый экземпляр программы; такая ценовая политика была принята CompuServe после того, как Unisys объявила, что начнет добиваться соблюдения своих прав собственности и потребовала от тех, кто пользуется алгоритмом сжатия LZW, вносить лицензионные платежи. Возникшее в результате этого запутанное юридическое положение тормозит внедрение программистами в свои графические программы средств для работы с файлами GIF.

Файлы PNG. Формат PNG (Portable Network Graphic - переносимый сетевой формат, произносится "пинг") был разработан для замены GIF, чтобы обойти юридические препятствия, стоящие на пути использования GIF-файлов. PNG унаследовал многие возможности GIF и, кроме того, он позволяет хранить изображения с истинными цветами. Еще более важно, что он сжимает информацию растрового массива в соответствии с вариантом пользующегося высокой репутацией алгоритма сжатия LZ77 (предшественника LZW), которым любой может пользоваться бесплатно.

Файлы JPEG. Формат файла JPEG (Joint Photographic Experts Group - Объединенная экспертная группа по фотографии, произносится "джейпег) был разработан компанией C-Cube Microsystems как эффективный метод хранения изображений с большой глубиной цвета, например, получаемых при сканировании фотографий с многочисленными едва уловимыми (а иногда и неуловимыми) оттенками цвета. Самое большое отличие формата JPEG от других рассмотренных здесь форматов состоит в том, что в JPEG используется алгоритм сжатия с потерями (а не алгоритм без потерь) информации. Алгоритм сжатия без потерь так сохраняет информацию об изображении, что распакованное изображение в точности соответствует оригиналу. При сжатии с потерями приносится в жертву часть информации об изображении, чтобы достичь большего коэффициента сжатия. Распакованное изображение JPEG редко соответствует оригиналу абсолютно точно, но очень часто эти различия столь незначительны, что их едва можно (если вообще можно) обнаружить.

Глубина цвета (бит на пиксель)	Количество цветов	Название режима
		Bitmap, Line Art
2-8	4-256	Indexed
	65 536	Hi Color
	16 772 216	True Color

Формат	Макс. число бит/пиксел	Макс. число цветов	Макс. размер изображения, пиксел	Методы сжатия	Применение
BMP		16'777'216	65535 x 65535	RLE	Формат предназначен для Windows, поэтому поддерживается всеми приложениями.
GIF			65'535 x 65535	LZW	Создан специально для передачи изображений в глобальных сетях. Обладает самым эффективным методом сжатия, что необходимо для сокращения времени передачи изображений. Допускает хранение в одном файле нескольких изображений Чаще всего такая возможность используется на страницах Web.
JPEG		16'777'216	65535 x 65535	JPEG	Предназначен для сохранения точечных файлов со сжатием Сжатие по этому методу уменьшает размер файла от десятых долей процента до ста раз (практический диапазон - от 5 до 15 раз), но сжатие в этом формате происходит с потерями качества (в пределах допустимого).
PCX		16'777'216	65535 x 65535	RLE	Практически вышел из употребления, заменен на GIF и TIFF
PNG		281'474'976'710'656	2'147'483'647 x 2 147 483 647	Deflation (вариант LZ77)	PNG унаследовал многие возможности GIF и, кроме того, он позволяет хранить изображения с истинными цветами. Он сжимает информацию растрового массива в соответствии с вариантом пользующегося высокой репутацией алгоритма сжатия LZ77 (предшественника LZW).
TIFF		16'777'216	всего 4'294'967'295	LZW, RLE и другие	Универсальный формат для хранения сканированных изображений с цветовыми каналами (файл с расширением TIF). Включает и схемы сжатия для уменьшения размера файла

3. Предварительная обработка изображений – точечные операции: соляризация, линейное контрастирование, препарирование, пороговая обработка.

Однако имеется группа процедур, где осуществляется так называемая поэлементная обработка. Здесь результат обработки в любой точке кадра зависит только от значения входного изображения в этой же точке. Очевидным достоинством таких процедур является их предельная простота.

Задача контрастирования заключается в "растягивании" реального динамического диапазона на всю шкалу. Контрастирование можно осуществить при помощи линейного поэлементного преобразования g =af+b. При диалоговой обработке изображений иногда проще не определять параметры преобразования, а непосредственно строить его в табличной форме, ориентируясь на границы распределения вероятностей функции яркости.

Смысл соляризации заключается в том, что участки исходного изображения, имеющие уровень белого или близкий к нему уровень яркости, после обработки имеют уровень черного. При этом сохраняют уровень черного участки, имеющие его на исходном изображении. Уровень белого приобретают участки, имеющие на входе средний уровень яркости (уровень серого). Препарирование представляет собой целый класс поэлементных преобразований изображений, заключающихся в приведении изображения к такому виду, который, возможно, весьма далек от естественного, но удобен для визуальной интерпретации или дальнейшего машинного анализа. Характеристики применяемых на практике процедур препарирования приведены на рисунках.


а) превращает полутоновое изображение, содержащее все уровни яркости, в бинарное (текст, штриховые рисунки, изображение отпечатка пальца, чертежи).	б) выполняет яркостный срез изображения, выделяя участки, где яркость соответствует выделенному интервалу, участки "фона" - черные. Перемещая выделенный интервал по яркостной шкале и изменяя его ширину, детально исследуется содержание картины.	в) выполняет яркостный срез с сохранением фона. Изображение в целом сохраняется, но на нем "высвечиваются" участки, попавшие в заданный интервал яркостей.

г) выполняет яркостный срез с сохранением фона. На изображении "высвечиваются" участки, попавшие в заданный интервал яркостей, которые примыкает к границе шкалы яркости (неполная пороговая обработка).	д) контрастное масштабирование (в простейшем варианте совпадает с линейным контрастированием), здесь "рабочий" интервал яркостей растягивается на весь диапазон допустимых значений	е) контрастное масштабирование, связанное с обращением функции яркости, то есть получение "негатива".

ж) представление "рабочего" интервала яркостей на однородном черном фоне, по сути это линейное контрастирование, применяемое к избранному диапазону входного изображения.	з) представление "рабочего" интервала яркостей на однородном белом фоне, по сути это линейное контрастирование, применяемое к избранному диапазону входного изображения.	и) представление "рабочего" интервала яркостей на сером фоне – это линейное контрастирование, применяемое к избранному диапазону входного изображения.

	к) пилообразное контрастирование, при этом различные яркостные диапазоны одновременно подвергаются локальному яркостному контрастированию, могут появляться ложные контуры.

4. Гистограммы и их преобразования (Преобразование гистограмм, эквализация).

Обработка изображений выполняется в два этапа. На первом этапе измеряется гистограмма исходного оцифрованного изображения, представляющая собой таблицу чисел, каждое из которых показывает количество точек в кадре, имеющих данную яркость, и получают оценку интегрального распределения:

На втором этапе выполняется само нелинейное преобразование, обеспечивающее необходимые свойства выходного изображения.

Все методы поэлементного преобразования изображений, целью которых является видоизменение законов распределения, называются гистограммными методами. В частности, преобразование, при котором выходное изображение имеет равномерное распределение, называется эквализацией (выравниванием) гистограмм. Процедуры преобразования гистограмм применяются как к изображению в целом, так и к отдельным его фрагментам. Характерной чертой многих изображений, получаемых в реальных изображающих системах, является значительный удельный вес темных участков и сравнительно малое число участков с высокой яркостью. Эквализация служит для выравнивания интегральных площадей участков с различными яркостями.

5. Использование гистограммы в алгоритмах обработки изображений.

В каждом конкретном случае выбирают ту процедуру преобразования гистограмм, которая приводит к наилучшему, с точки зрения пользователя, результату. Также можно улучшить контраст, используя нормализацию гистограммы. Отметим, что процедуры преобразования гистограмм могут применяться как к изображению в целом, так и к отдельным его фрагментам. Последнее может быть полезным при обработке нестационарных изображений, содержание которых существенно различается по своим характеристикам на различных участках. В этом случае лучшего эффекта можно добиться, применяя гистограммную обработку к отдельным участкам. Необходимо иметь в виду, что в результате обработки не удается получить идеальное распределение вероятностей выходного изображения, поэтому полезно проводить контроль его гистограммы. Характерной чертой многих изображений, получаемых в реальных изображающих системах, является значительный удельный вес темных участков и сравнительно малое число участков с высокой яркостью. Эквализация призвана откорректировать картину, выровняв интегральные площади участков с различными яркостями. Сравнение исходного и обработанного изображений показывает, что происходящее при обработке перераспределение яркостей приводит к улучшению визуального восприятия.

6. Представление цвета в изображениях. Цветовые модели.

Назначение цветовой модели - дать средства описания цвета в пределах некоторого цветового охвата, в том числе и для выполнения интерполяции цветов. Наиболее часто в компьютерной графике используются модели RGB, CMY, HSV и HLS. RGB — трехканальная цветовая модель. Эта модель представляется в виде трехмерной системы координат. Каждая координата отражает вклад каждой составляющей в результирующий цвет в диапазоне от нуля до максимального значения. Внутри полученного куба и «находятся» все цвета, образуя цветовое пространство. Особенные точки и линии модели:

· Начало координат: в этой точке все составляющие равны нулю, излучение отсутствует (черный цвет)

· Точка, ближайшая к зрителю: в этой точке все составляющие имеют максимальное значение (белый цвет)

· На линии, соединяющей предыдущие две точки (по диагонали), располагаются серые оттенки: от черного до белого (серая шкала, обычно — 256 градаций), т.к. все три составляющих одинаковы и располагаются в диапазоне от нуля до максимального значения

· Три вершины куба дают чистые исходные цвета, остальные три отражают двойные смешения исходных цветов.

· CMYK — четырехканальная цветовая модель. Cyan (голубой), Magenta (пурпурный), Yellow (желтый), BlасК (черный). Модель CMYK аналогична модели RGB, в которой перемещено начало координат.

· Особенные точки и линии модели.

· Начало координат: при полном отсутствии краски (нулевые значения составляющих) получится белый цвет (белая бумага)

· Точка, ближайшая к зрителю: при смешении максимальных значений всех трех компонентов должен получиться черный цвет.

· Линия, соединяющая предыдущие две точки (по диагонали). Смешение равных значений трех компонентов даст оттенки серого.

· Три вершины куба дают чистые исходные цвета, остальные три отражают двойные смешения исходных цветов.

· HSB — это трехканальная модель цвета. Она получила название по первым буквам английских слов: цветовой тон (hue), насыщенность (saturation), яркость (brightness).

· Характеризующие параметры цвета.

· Цветовой тон (собственно цвет).

· Цветовые тона или спектральные цвета располагаются на цветовом круге. Цветовой тон характеризуется положением на цветовом круге и определяется величиной угла в диапазоне от 0 до 360 градусов. Эти цвета обладают максимальной насыщенностью и максимальной яркостью.

· Насыщенность (процент добавления к цвету белой краски) — это параметр цвета, определяющий его чистоту.

· Яркость (процент добавления черной краски) — это параметр цвета, определяющий освещенность или затемненность цвета.

· В общем случае, любой цвет получается из спектрального цвета добавлением определенного процента белой и черной красок, то есть фактически серой краски.

· L*a*b — трехканальная цветовая модель. Она была создана Международной комиссией по освещению (С1Е) с целью преодоления существенных недостатков моделей RGB, CMYK, HSB, в частности, она призвана стать аппаратно-независимой моделью и определять цвета без оглядки на особенности устройства (монитора, принтера, печатного станка и т. д.). Любой цвет данной модели определяется светлотой (L) двумя хроматическими компонентами: параметром a, который изменяется в диапазоне от зеленого до красного, и параметром b, изменяющимся в диапазоне от синего до желтого.

7. Линейные фильтры и свертки. Сглаживание через усреднение, сглаживание с помощью гауссиана.

ИХ – импульсная двухмерная характеристика; КИХ-фильтры, которые имеют конечное число элементов (т.е. область S конечна); БИХ-фильтры, которые имеют бесконечное число элементов.

Линейный фильтр — динамическая система, применяющая некий линейный оператор ко входному сигналу для выделения или подавления определённых частот сигнала и других функций по обработке входного сигнала.

Фильтр центрируется на одном пикселе (i,j). Последний модифицируется при помощи: 1) Умножения каждого окружающего пикселя, включая и центральный, на его соответствующий вес из фильтра и суммирования всех результатов 2) Деления суммы, полученной в шаге 1, на сумму весов из фильтра. В результате получим новое значение для пикселя (i,j).

Медианная фильтрация. Обнаружение границ. Градиент изображения, оператор Робертса, оператор Собела.

Рассмотрим задачу выделения и локализации краев (границ). Края — это такие кривые на изображении, вдоль которых происходит резкое изменение яркости или ее производных по пространственным переменным. Наиболее интересны такие изменения яркости, которые отражают важные особенности изображаемой поверхности. К ним относятся места, где ориентация поверхности меняется скачкообразно, либо один объект загораживает другой, либо ложится граница отброшенной тени, либо отсутствует непрерывность в отражательных свойствах поверхности и т.п. В любом случае нужно локализовать места разрывов яркости или ее производных, чтобы узнать нечто о вызвавших их свойствах изображенного объекта. Рассмотрим также применение дифференциальных операторов для выделения тех особенностей изображения, которые помогают локализовать участки, где можно обнаружить фрагмент края. Вполне естественно, что зашумленность измерений яркости ограничивает возможность выделить информацию о краях. Мы обнаруживаем противоречие между чувствительностью и точностью, и приходим к выводу, что короткие края должны обладать большей контрастностью, чем длинные, чтобы их можно было распознать. Выделение краев можно рассматривать как дополнение к сегментации изображения, поскольку края можно использовать для разбиения изображений на области, соответствующие различным поверхностям. Интуитивно краем обычно является граница между двумя областями, каждая из которых имеет приблизительно равномерную яркость. Часто края на изображениях возникают как результат наличия силуэтных линий объектов. В этом случае две упомянутые области являются изображениями двух разных поверхностей. Края также возникают из-за отсутствия непрерывности в ориентации поверхности и разрывов в ее отражательных свойствах. Если мы возьмем сечение функции яркости вдоль прямой, расположенной под прямым углом к краю, то, как правило, обнаружим скачок в ее значениях. На практике перепад не будет резким ввиду размывания и ограничений, вносимых зрительным устройством. Кроме того, иногда яркостные перепады вдоль краев лучше моделируются в виде скачков в первых производных яркости, нежели в самой яркости.

8. Методы сегментации изображений (зачем, как).

Сегментация:

• Выявление областей (представляющих интерес в каком-то отношении) в изображениях

• Сегмент – связная область, удовлетворяющая предикату однородности

• Основа для последующего поиска

• Одна из самых трудных задач обработки изображений

• Несколько возможных (эвристических) методов

Сегментацией изображения называется разбиение изображения на непохожие по некоторому признаку области. Предполагается, что области соответствуют реальным объектам, или их частям, а границы областей соответствуют границам объектов. Сегментация играет важную роль в задачах обработки изображений и компьютерного зрения

Задачи автоматической сегментации делятся на два класса:

выделение областей изображения с известными свойствами

разбиение изображения на однородные области

Между этими двумя постановками задачи есть принципиальная разница. В первом случае задача сегментации состоит в поиске определенных областей, о которых имеется априорная информация (например, мы знаем цвет, форму областей, или интересующие нас области представляют собой изображения известного объекта). Методы этой группы узко специализированы для каждой конкретной задачи. Сегментация в такой постановке используется в основном в задачах машинного зрения (анализ сцен, поиск объектов на изображении).

Во втором случае никакая априорная информация о свойствах областей не используется, зато на само разбиение изображения накладываются некоторые условия (например, все области должны быть однородны по цвету и текстуре). Так как при такой постановке задачи сегментации не используется априорная информация об изображенных объектах, то методы этой группы универсальны и применимы к любым изображениям. В основном сегментация в этой постановке применяется на начальном этапе решения задачи, для того чтобы получить представление изображения в более удобном виде для дальнейшей работы. Для грубой оценки качества метода в конкретной задаче обычно фиксируют несколько свойств, которыми должна обладать хорошая сегментация. Качество работы метода оценивается в зависимости от того, насколько полученная сегментация обладает этими свойствами. Наиболее часто используются следующие свойства [1]:

• однородность регионов (однородность цвета или текстуры)

• непохожесть соседних регионов

• гладкость границы региона

• маленькое количество мелких «дырок» внутри региона и т. д.

Кластеризация цветового пространства. В постановке задачи сегментации прослеживается аналогия с задачей кластеризации (или обучения без учителя). Для того чтобы свести задачу сегментации к задаче кластеризации, достаточно задать отображение точек изображения в некоторое пространство признаков и ввести метрику (меру близости) на этом пространстве признаков. В качестве признаков точки изображения можно использовать представление ее цвета в некотором цветовом пространстве, примером метрики (меры близости) может быть евклидово расстояние между векторами в пространстве признаков. Тогда результатом кластеризации будет квантование цвета для изображения. Задав отображение в пространство признаков, можно воспользоваться любыми методами кластерного анализа. Наиболее популярные методы кластеризации, используемые для сегментации изображений – к-средних [35] (обобщенный метод Ллойда), EM алгоритм[5]. Основная проблема методов кластеризации, состоит в том, что пространственное расположение точек либо не учитывается совсем, либо учитывается косвенно (например, используя координаты точки как один из признаков). Поэтому обычно после кластеризации точек изображения проводят процедуру выделения связных компонент. Методы кластеризации плохо работают на зашумленных изображениях: часто теряют отдельные точек регионов, образуется много мелких регионов, и. т. п.

Выращивание регионов, дробление-слияние. Методы этой группы учитывают пространственное расположение точек напрямую.

Методы выращивания регионов основаны на следующей идее. Сначала по некоторому правилу выбираются центры регионов (seeds), к которым поэтапно присоединяются соседние точки, удовлетворяющих некоторому критерию. Процесс выращивания регионов (region growing) останавливается, когда ни одна точка изображения не может быть присоединена ни к одному региону. Применяются разные критерии, на основании которых точка присоединяется или не присоединяется к региону: близость (в некотором смысле) точки к центру региона; близость к соседней точке, присоединенной к региону на предыдущем шаге; близость по некоторой статистике региона; стоимость кратчайшего пути от точки до центра региона, и т. п. В основном процедура выращивания региона используется для получения отдельных регионов, однако, применяя эту процедуру последовательно или одновременно для нескольких регионов, можно получить разбиение всего изображения. Существуют различные стратегии выбора зерен (seeds) и выращивания регионов [14, 15, 16, 17].

Методы дробления-слияния состоят из двух основных этапов: дробления и слияния.[4, 6] Дробление начинается с некоторого разбиения изображения, не обязательно на однородные области. Процесс дробления областей происходит до тех пор, пока не будет получено разбиение изображения (пересегментация), удовлетворяющее свойству однородности сегментов. Затем происходит объединение схожих соседних сегментов до тех пор, пока не будет получено разбиение изображения на однородные области максимального размера. Конкретные методы различаются алгоритмами, используемыми на этапах дробления и слияния. Для получения пересегментации изображения используются алгоритмы k-средних [10], watershed [9, 12], fuzzy expert systems [13], на втором этапе используются алгоритмы k-средних [10], самоорганизующиеся карты Кохонена [11,6], fuzzy expert systems [16], и т. д. На этапе слияния регионов используются relaxation process[3], k-средних [10], SIDE-уравнения [14], самоорганизующиеся карты Кохонена [9],и т. д.

Моделирование изображения Марковским полем. Хорошей моделью изображения служит Марковское случайное поле [7, 8]. Данная модель основана на предположении, что цвет каждой точки изображения зависит от цветов некоторого множества соседних точек. Предложено также обобщение модели изображения также можно обобщить на текстурную сегментацию [7]. Данный подход является достаточно сложным в реализации, однако может являться наиболее адекватным в случае важности учёта текстуры при сегментации. Подробнее о Марковских полях можно прочитать в [7, 8].

Методы, основанные на операторах выделения краев. При данном подходе задача сегментации формулируется как задача поиска границ регионов. Методы поиска границ хорошо разработаны для полутоновых изображений. Полутоновое изображение рассматривается как функция двух переменных (x и y), и предполагается, что границы регионов соответствуют максимумам градиента этой функции. Для их поиска применяется аппарат дифференциальной геометрии (в простейшем случае это фильтры Roberts, Kirsch, Prewitt, Sobel).

Для повышения устойчивости к шуму, перед применением фильтрации изображение обычно размывают. Благодаря коммутативности оператора Лапласа и Гауссова фильтра, можно одновременно осуществлять размытие и поиск границ. В методе Canny комбинируются результаты поиска границ при разной степени размытия.

9. Машинный анализ и распознавание объектов.

Сравнение с эталоном. Проблема — большое количество эталонов, которые надо хранить, и медленная процедура поиска. Кроме того, невозможно учесть различие в положении, ориентации, размерах или расстояния до объекта, а также модификации формы объекта (человек стоит, сидит, бежит, и т.д.). Признаки. Основные методы в машинном зрении основаны на использовании признаков для обнаружения и опознания объектов. Для описания объектов используется набор признаков (x1, x2, …, xN). N — размерность пространства признаков. Признаком может служить, например: цвет, яркость, положение в пространстве, ориентация.

Кластер-анализ. Кластер-анализ — автоматическое распределение множества объектов (-образцов) на классы. Классы определяются как компактные множества («облака») в пространстве признаков: два объекта относятся к одному и тому же классу, если представляющие их точки в пространстве признаков находятся рядом (в одном облаке). Кластер-анализ применяется не только в ИИ и не только для машинного зрения. Это универсальные алгоритмы, широко используемые для статистической обработки данных. В том числе и в ситуациях, когда «правильная» классификация объектов неизвестна. Цель — классификация образов (отнести образ к определенному классу).
Основные подходы в кластер-анализе:

· Статические алгоритмы.

· Обучение (с учителем или без учителя).

Типы алгоритмов: Разделяющие гиперплоскости: для каждого класса в пространстве признаков строится гиперплоскость, отделяющая точки этого класса от остальных точек. Своеобразной реализацией этого алгоритма является персептрон.

Метод комитетов: для разделения двух классов в пространстве признако строится совокупность гиперплоскостей. Для данной точки принадлежность ее к тому или иному классу определяется «большинством голосов» гиперплоскостей, входящих в комитет.

Вычисление оценок (расстояние от заданной точки до кластеров в пространстве признаков).

Основная проблема кластер-анализа: трудно выделить информативные признаки. Не по любому набору признаков можно правильно классифицировать объекты. Модели. Строится модель (=схема) объекта, описывающая основные составные части и соотношения признаков — вне зависимости от размеров, ориентации и конфигурации объекта.
Пример: нет «треугольника вообще» (каждый треугольник либо прямоугольный, либо остроугольный, либо тупоугольный), «человека вообще» (мужчина/женщина, старик/ребенок и т.п.)
Стратегия распознавания: строится гипотеза («Это дом»), которая затем проверяется на соответствие модели («крыша, стена, дверь, окна»).

10. Выделение признаков. Типы признаков. Инвариантность признаков.

Метрические признаки, принимающие определенные значения на некотором числовом отрезке (площадь, средняя яркость и т. д.);

логические признаки, принимающие значения 1 или 0 (истинно или ложно данное утверждение об изображении); примерами таких утверждений служат: изображение имеет «дыры», контур изображения неодносвязен, форма изображения – прямоугольник, площадь области изображения не больше 10;

топологические признаки, как и логические, относятся к качественному характеру изображения, но могут принимать не два, а несколько значений; примерами являются число компонент связности контура изображения, число дыр в связной области объекта;

структурно-лингвистические признаки связаны с двумя близкими подходами к проблеме распознавания – структурным и лингвистическим. При структурном подходе изображение считается состоящим из частей. Частями изображения являются непроизводные элементы, которые в совокупности с правилами их соединения образуют специальный язык (грамматику). Анализ такой грамматики составляет суть лингвистического подхода к распознаванию. Грубо говоря, структурно-лингвистические методы, которые называют также синтаксическими, направлены на синтаксическую формализацию классов изображений: каждому классу соответствует грамматика с определенными правилами, каждому входному изображению – фраза. Изображение считается соответствующим данному классу, если отвечающая ему фраза удовлетворяет правилам грамматики для этого класса изображений.

где Е – область рассматриваемого изображения; S(Е) – ее площадь; l(Е) – длина контура. Очевидно, признак n(E) инвариантен к смещениям, к поворотам и к изменениям масштаба. Метрические признаки формы инвариантны к изменениям яркости. В случае отсутствия преобразований яркости или при известном законе яркостных преобразований можно использовать в качестве признаков яркостные характеристики полутоновых изображений. Основными яркостными признаками являются:

· средняя яркость в области изображения Вср;

· максимальная и минимальная яркость Bmах, Bmin;

· модальное значение яркости Bmod;

· разброс (дисперсия) значений яркости

11. Распознавание изображений.

При создании систем технического зрения (СТЗ) возникает ряд трудностей и проблем:

· Изображения предъявляются на сложном фоне.

· Изображения эталона и входные изображения отличаются положением в поле зрения.

· Входные изображения не совпадают с эталонами за счет случайных помех.

· Отличия входных и эталонных изображений возникает за счет изменения освещенности, подсветки, локальных помех.

· Эталоны и изображения могут отличать геометрические преобразования, включая такие сложные как аффинные и проективные.

Для решения задачи в целом и на отдельных ее этапах применяются различные методы.

Классификацию основных методов обработки и распознавания СТЗ изображений приведены на схеме, где указаны основные процедуры и методы обработки от начального этапа восприятия поля зрения посредством датчиков, например, телекамеры до конечного, которым является распознавание.

Дата добавления: 2015-07-10; просмотров: 115 | Нарушение авторских прав

12 Следующая ⇒

mybiblioteka.su - 2015-2025 год. (0.071 сек.)