Генетический алгоритм отбора входных данных

Читайте также:

Генетический алгоритм отбора входных данных - Genetic Algorithm Input Selection пакета ST Neural Networks реализует элегантный автоматизированный подход к выбору значимых входных данных. Можно считать его «интеллектуальной» формой метода проб и ошибок.

Этот алгоритм экзаменует большое число комбинаций входных переменных с помощью вероятностных и обобщенно-регрессионных нейронных сетей. Сети этих типов выбраны потому, что для них общее время обучения/оценки очень мало, а также потому, что они очень сильно страдают от присутствия ненужных входных переменных (и поэтому являются хорошим средством их обнаружения).

Каждый возможный вариант набора входных переменных можно представить в виде битовой маски. Ноль в соответствующей позиции означает, что эта входная переменная не включена во входной набор, единица - что включена. Таким образом, маска представляет собой строку битов - по одному на каждую возможную входную переменную - и Генетический алгоритм отбора входных данных - Genetic Algorithm Input Selection оптимизирует такую битовую строку.

Алгоритм следит за некоторым набором таких маскирующих строк, оценивая каждую из них по контрольной ошибке (если были заданы контрольные наблюдения; если нет, то вместо нее используется ошибка обучения). По значениям ошибки производится отбор лучших вариантов масок, которые комбинируются друг с другом с помощью искусственных генетических операций: скрещивания и мутации (случайных изменениях отдельных битов). Поскольку часто бывает желательно иметь как можно меньше входных переменных, даже ценой некоторого увеличения ошибки, можно включить в алгоритм штраф за элемент (Unit Penalty), который будет прибавляться к ошибке при добавлении каждой новой переменной.

Лучшая из найденных маскирующих строк выводится на экран. Вы можете просмотреть ее, чтобы понять, какие переменные были отобраны, или же просто нажать кнопку Применить - Apply - программа ST Neural Networks автоматически сделает неучитываемыми все отвергнутые алгоритмом переменные из исходного набора данных. Алгоритм проверяет только те переменные, которые обозначены как входные, поэтому если вы не хотите, чтобы какие-то переменные попали во входной набор, просто пометьте их как неучитываемые до запуска генетического алгоритма.

Понижение размерности

Обсуждение

Другой - альтернативный или дополняющий первый - подход к отсечению лишних переменных основан на понижении размерности. Цель его заключается в таком преобразовании входных данных, чтобы та же информация была записана с помощью меньшего числа переменных. Этот метод позволяет распознавать ситуации, когда истинная размерность данных меньше числа входных переменных. Иными словами, те же данные иногда можно задать с помощью меньшего числа переменных, если найти подходящее преобразование.

В пакете ST Neural Networks реализованы различные методы понижения размерности, и самый распространенный из них - это анализ главных компонент, сокращенно АГК (Bishop, 1995; Press, 1992). Метод представляет собой такое линейное преобразование входных данных, при котором количество переменных уменьшается до заданного предела, но при этом максимально сохраняется вариация данных. Цель состоит в том, чтобы сохранить как можно больше информации, однако здесь же следует заметить, что не всегда направления максимальной вариации данных несут максимальную информацию.

Дата добавления: 2015-11-30; просмотров: 185 | Нарушение авторских прав

mybiblioteka.su - 2015-2024 год. (0.006 сек.)