Статистические (регрессионные) модели.

Читайте также:

В настоящее время имеются различные статистические пакеты обработки данных, с помощью которых можно эффективно решать на компьютере статистические задачи для случайных величин с нормальным (гауссовским) законом распределения. Однако экспериментальные исследования показывают, что отклонение от нормального закона распределения характерны для погрешностей различных измерительных приборов. В случае негауссовских распределений случайных величин возможности решения статистических задач резко сужаются, поскольку во многих случаях отсутствуют проверенные и эффективные методики решения таких задач аналитическими или численными методами. Применительно к измерительным задачам можно указать следующие проблемы:

оптимальный выбор числа интервалов группирования данных при построении гистограмм в зависимости от закона распределения и объема выборки случайной величины;
идентификация формы гистограммы для выборки достаточно большого объема N при наличии практически всегда имеющихся систематических отклонений эмпирической плотности вероятности от расчетной. Применение любых критериев согласия при проверке гипотезы о виде закона распределения правомерно только при условии малой величины таких отклонений. При этом допустимая величина таких отклонений зависит от N и должна уменьшаться с увеличением объема анализируемой выборки величина таких отклонений должна быть равна нулю. На практике это условие не выполняется, поскольку реальные данные не подчиняются каким-либо параметрическим семействам распределений;
генерирование одной или нескольких выборок случайных чисел с различными законами распределения и коэффициентами корреляции между отдельными парами случайных величин.
суммирование случайных погрешностей измерений с различными законами для плотностей вероятности и коэффициентами корреляции между отдельными погрешностями и статистический анализ результирующей погрешности;
статистический анализ случайных погрешностей результатов косвенных измерений;
аналитический расчет для различных законов распределения величины доверительного интервалов, в который случайная величина попадает с заданной доверительной вероятностью;
определение доверительных интервалов для оценки параметров распределения случайной величины по имеющейся выборке ее значений при неизвестном законе распределения;
оценка параметров распределения флуктуационной составляющей временного процесса при наличии нелинейного тренда, характер изменения которого может быть в достаточной мере произвольным и заранее неизвестным.

В основе решения этих задач лежат методы, основанные на приближенной аналитической аппроксимации функций распределения для некоторых классов симметричных и несимметричных плотностей вероятности, и метод статистического моделирования (метод Монте-Карло). С появлением мощных и быстродействующих компьютеров этот метод позволяет эффективно решать не только конкретные измерительные задачи, но и перечисленные выше статистические задачи, решение которых представляет интерес как для метрологии и теории измерений, так и для других областей науки, техники и иной практической деятельности, в которых широко используется методы статистической обработки данных.

К статистическим задачам относится также задача построения функциональных зависимостей по экспериментальным или расчетным данным, которая является одной из основных задач регрессионного анализа. В литературе регрессионный анализ рассматривается в основном для случая линейного вхождения параметров в математическую модель исследуемой зависимости. Если часть неизвестных параметров входит в математическую модель зависимости нелинейным образом, то необходимо решать более сложные регрессионные задачи нелинейной параметризации. Разработка программного обеспечения для решения этой задачи применительно к различным нелинейным по параметрам зависимостям как в случае среднеквадратического, так и в случае равномерного (чебышевского) приближений имеет важное практическое значение.

Успешное решение задачи нелинейного регрессионного анализа существенно зависит от используемой в итерационном процессе начальной оценки параметров. Получение начальных оценок параметров для различных конкретных моделей математических зависимостей является одной из задач нелинейного регрессионного анализа. Для зависимостей, заданных на конечном интервале значений аргумента, представляет интерес их аппроксимация дробно-степенными полиномами, в которых одно или несколько слагаемых имеют неизвестные показатели степени. В результате решения аппроксимационной задачи требуется найти оптимальные значения этих показателей степени вместе с весовыми коэффициентами перед всеми слагаемыми. По сравнению с обычными полиномами с известными целочисленными показателями степени такие полиномы, как правило, позволяют добиться меньшей погрешности аппроксимации при одинаковом числе неизвестных (искомых) параметров. Задача выбора вида функциональной зависимости (задача приближения функций) еще 5-10 лет назад считалась неформализуемой. Однако появление быстродействующих компьютеров привело к существенному прогрессу в решении этой задачи. На практике нередко требуется найти наилучшую аппроксимацию для монотонно возрастающих или убывающих функций у(х), заданных на полубесконечном интервале значений аргумента и стремящихся к известному постоянному значению, т.е. монотонных функций, заданных на полубесконечном интервале значений аргумента и принимающих известные экстремальные значения на границах этого интервала. Для решения этой задачи в настоящее время отсутствует программное обеспечение. Таким образом, можно указать следующие задачи нелинейного регрессионного анализа, решение которых представляет практический интерес:

разработка программного обеспечения для решения задач регрессионного анализа при нелинейном вхождении неизвестных параметров в аппроксимационную формулу как в случае среднеквадратического, так и в случае равномерного приближений;
разработка программного обеспечения для исследования статистических характеристик нелинейных оценок параметров;
разработка аналитических алгоритмов для начальной оценки параметров дробно-степенных зависимостей;
разработка программного обеспечения для решения задачи приближения монотонной функции, заданной на полубесконечном интервале значений аргумента и принимающей известные экстремальные значения на границах этого интервала, т. е. для решения задачи выбора из заданного класса функций наилучшей функции по критериям наибольшей точности и простоты для описания экспериментальной или расчетной зависимости. [http://www.people.nnov.ru/labutin/statmodel.html]

Термину регрессионная модель, используемому в регрессионном анализе, можно сопоставить синонимы: «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «проверка статистических гипотез». Регрессионная модель есть прежде всего гипотеза, которая должна быть подвергнута статистической проверке, после чего она принимается или отвергается.

Регрессионная модель — это параметрическое семейство функций, задающее отображение

где — пространство параметров, — пространство свободных переменных, — пространство зависимых переменных.

Так как регрессионный анализ предполагает поиск зависимости мат.ожидания случайной величины от свободных переменных , то в её состав входит аддитивная случайная величина :

Предположение о характере распределения случайной величины называются гипотезой порождения данных. Эта гипотеза играет центральную роль в выборе критерия оценки качества модели и, как следствие, в способе настройки параметров модели.

Модель является настроенной (обученной) когда зафиксированы её параметры, то есть модель задаёт отображение

для фиксированного значения .

Различают математическую модель и регрессионную модель. Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой — объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создаётся параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели — нахождение её параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика — основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели.

Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными.

Примеры регрессионных моделей: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи, например, однослойный персептрон Розенблатта, радиальные базисные функции и прочее.

И регрессионная, и математическая модель, как правило, задают непрерывное отображение. Требование непрерывности обусловлено классом решаемых задач: чаще всего это описание физических, химических и других явлений, где требование непрерывности выставляется естественным образом. Иногда на отображение накладываться ограничения монотонности, гладкости, измеримости, и некоторые другие. Теоретически, никто не запрещает работать с функциями произвольного вида, и допускать в моделях существование не только точек разрыва, но и задавать конечное, неупорядоченное множество значений свободной переменной, то есть, превращать задачи регрессии в задачи классификации. [http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C]

Дата добавления: 2015-07-15; просмотров: 300 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Алгоритмы глобального поиска	\|	Разность;

mybiblioteka.su - 2015-2026 год. (0.121 сек.)