Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Multi-label классификация

Постановка задачи | Задача классификации | Наивный Байесовский Классификатор | Стохастический Градиентный Спуск | Предобработка информации | Инструкция пользователя | Рабочий режим | Тестовый режим | Рабочий режим | Машинный эксперимент |


Читайте также:
  1. V. ОЦЕНКА КАЧЕСТВА И КЛАССИФИКАЦИЯ ДОКАЗАТЕЛЬНОЙ СИЛЫ МЕТОДОВ, ПРИВЕДЕННЫХ В РАЗДЕЛЕ ЛЕЧЕНИЕ.
  2. VI. ОЦЕНКА КАЧЕСТВА И КЛАССИФИКАЦИЯ ДОКАЗАТЕЛЬНОСТИ ИСЛЛЕДОВАНИЙ ПО ТЕХНОЛОГИИ МОНИТОРИНГА ВЧД.
  3. XVII. КЛАССИФИКАЦИЯ ПОРОД СОБАК FCI
  4. Анализ опасных и вредных производственных факторов на предприятиях. Классификация несчастных случаев
  5. Безопасность жизнедеятельности и теория риска. Классификация опасных ситуаций по критериям риска и уровню управления.
  6. В.1. Классификация и структура кадров на предприятии.

Multi-label классификация (примерный перевод – «многотемная классификация») – один из видов задач классификации, где каждому примеру необходимо присвоить сразу несколько меток принадлежности к определенному классу. Формально задача может быть описана как нахождение модели, которая будет ставить в соответствие входные примеры бинарным векторам , а не скалярным значениям, как в классической задаче классификации.

Существует два основных подхода для решения данной задачи – методы трансформации проблемы и методы адаптации алгоритмов. Методы трансформации проблемы преобразуют проблему к набору проблем бинарной классификации, которые могут быть решены с помощью классификаторов, способных решать бинарные задачи классификации. Методы адаптации алгоритмов, в свою очередь, модифицируют алгоритмы классификации так, чтобы они могли напрямую решать задачу multi-label классификации. Таким образом, вместо того, чтобы упрощать проблему они пытаются непосредственно решать проблему multi-label классификации.

В области machine learning классическими считаются методы трансформации проблемы, которые демонстрируют наилучшее качество предсказаний. Среди них самым распространенным и популярным считается метод двоичных отношений (binary relevance method). Данный метод предполагает создание и обучения одного бинарного классификатора для каждой возможной метки. Далее, когда модели подается новый пример, она присваивает данному примеру все метки для которых соответствующие классификаторы дали положительный ответ. Метод превращения задачи в набор бинарных задач классификации имеет много общего с методом one-vs.-all мультиклассовой классификации. Тем не менее, надо учитывать что это не идеально тот же метод – он тренирует отельный классификатор для каждой метки, но не для каждого возможного значения этой метки.

Мерой «многотемности» данного набора данных можно оценить с помощью двух статистических формул:

· Кардинальность меток (label cardinality) – среднее количество меток, присвоенных каждому примеру в наборе данных:

· Плотность меток – количество меток на каждый пример из набора данных деленное на общее количество различных меток, усреднённое по всем примерам: , где

Методы оценки производительности multi-label классификации в корне отличаются от используемых в многоклассовой или бинарной классификации, в связи с естественными отличиями данной задачи классификации. Если – правильный набор меток для данного примера, а – набор предсказанных меток, то можно определить следующие метрики для такого примера:

· Hamming loss – доля ошибочных меток во всем наборе меток. Является функцией потерь, потому ее оптимальное значение равно 0. Тесно связанная с ней метрика Hamming Score, также именуемая «точность в многотемной задаче» (accuracy in the multi-label setting), определяется как количество правильных меток деленное на объединение предсказанных и правильных меток:

· Precision, recall и F1-метрика (F1-score). Precision (точность) равна доле правильно предсказанных меток от общего количества предсказанных меток - . Recall (полнота) характеризует все ли правильные ответы вернул классификатор, равна доле правильно предсказанных меток от общего количества правильных меток - . Метрика F1 – фактически является гармоническим средним от Precision и Recall,

· Метрика точного соответствия (Exact Match Metric). Самая строгая метрика, представляет собой долю примеров для которых классификатор смог верно указать все метки.

 

Выводы

Суммируя все вышесказанное мы можем указать, что задача, которая стоит перед нами является гибридом multi-label и multiclass классификации. Для каждого примера нам требуется предсказывать одну или несколько меток (например, страна, в которой произошло событие, или индустрия, с которой связано произошедшее событие), каждой метке может быть присвоено несколько различных значений. Подобные задачи имеют название multi-task классификация или multiclass – multi-output классификация. Задачи, подобные этой относительно успешно решаются в такой области как Document classification (классификация документов), что позволяет предположить, что ее методы могут быть успешно адаптированы для решения стоящей перед нами задачи. Рассмотрим некоторые методы применяемые в рамках классификации документов, а также применяемые в этой области классификаторы.


Дата добавления: 2015-11-16; просмотров: 187 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Стратегия One-vs.-rest| Методы и алгоритмы, реализованные в программной системе

mybiblioteka.su - 2015-2024 год. (0.008 сек.)