Регрессия и корреляция

Читайте также:

До сих пор обсуждаемые методы обработки данных касались в основном одного признака. Важной статистической задачей является установление существования взаимосвязи между несколькими факторами (например, необходимо выяснить, изменяются ли два признака самостоятельно, независимо друг от друга, или изменение одного из них вызвано варьированием другого).

Рассмотрим случай, когда у изделия (или процесса) замеряются два признака . При этом могут возникать следующие варианты:

1. Оба признака тесно связаны друг с другом (например, длина ребра и объём куба). Этот вид связи называют функциональной. Функциональная связь(или зависимость) между признаками выражается конкретной формулой.

2. Оба признака не строго связаны друг с другом. В этом случае отдельно взятому значению признака может соответствовать ряд распределения значений . Если это распределение значений не изменяется с изменением величины , то оба признака и не зависят друг от друга.

3. Если для каждого фиксированного значения получают распределение признака и, наоборот, для каждого фиксированного значения получают распределение признака , то между этими признаками имеется статистическая (корреляционная) связь.

При анализе данных, требуется выявить независимые параметры. Для установления корреляционной связи между переменными и результаты наблюдений представляют в виде корреляционной матрицы (табл. 2.9). Для этого значения и разбивают на ряд интервалов и определяют средние значения интервалов. В ячейки, образованные пересечением строк и столбцов, заносятся частоты попадания пар значений в соответствующие интервалы по и . В последние строку и столбец записывают суммарные частоты по соответствующим стокам и столбцам.

Уже из обзора табл. 2.9 видно, что с возрастанием возрастает и . Однако эту связь нужно выразить количественно и оценить статистически.

Эта оценка производится следующим образом.

1. Вычисляем частные средние значения для по строкам. Для первой строки значения =25 соответствуют значениям =11 и 13 с частотами 3 и 2. Частная средняя этих значений равна ;

для второй строки - .

2. Результаты вычисления частных средних для всех строк запишем в табл.2.10.

3. Отложив данные табл.2.10 на графике, получим корреляционную зависимость от .

Связь между двумя количественными признаками проявляется в виде определённой тенденции. Например, если один признак увеличивается, то другой увеличивается или уменьшается. На практике связь между признаками в интересующей экспериментатора области бывает линейной или допускающей линеаризацию (например, логарифмированием, извлечением корня, разложением в ряд и отбрасыванием малых высшего порядка малости).

"Наилучшая" прямая, выравнивающая опытные данные, определяется метод ом наименьших квадратов, при котором сумма квадратов отклонений по вертикали от найденной прямой должна быть минимальной. Эта наилучшая прямая называется линией регрессии у относительно .

Таблица 2.9

Корреляционная матрица

x y	10-12	12-14	14-16	16-18	18-20	20-22	22-24	24-26	26-28	28-30	30-32	32-34
20-30
30-40
40-50
50-60
60-70
70-80
80-90
90-100
100-110
110-120
120-130

Таблица 2.10

Значения частных средних


		13,7	15,4	17,5	20,1	21,8	24,7	27,0	29,3

Если обозначить через наблюдаемые значения признаков, то линия регрессии выразится в виде , где - средние арифметические.

Коэффициент регрессии b определяется по формуле:

Если рассматривать характер изменения х по у, т.е. что х зависит от значений признака у, тогда линия регрессии будет иметь вид:

, где .

Заметим, что две линии регрессии, вычисленные по приведенным формулам в случае статистической связи признаков х и у не совпадают.

Тесноту связи между признаками характеризует коэффициент корреляции:

или ,

где - среднеквадратические отклонения.

Чтобы оценить достоверность коэффициента корреляции, необходимо предварительно оценить его ошибку .

Далее определяется критерий существенности: .

Если величина , то коэффициент корреляции считается достоверным, т.е. связь между двумя факторами является доказанной. Если <3, то связь отсутствует.

Коэффициент корреляции принимает значения в интервале -1, +1. Если , то линейная связь между признаками х и у отсутствует. Если же, наоборот, , то между признаками существует линейная функциональная связь. Если r>0, то связь прямая, а если r<0, то связь обратная. В зависимости от величины коэффициента корреляции делают следующие заключения:

	практически нет связи;
	слабая связь;
	средняя связь;
	сильная связь;
	практически функциональная связь.

Регрессионный анализ позволяет представить результаты эксперимента в виде функциональной зависимости.В частности, результат эксперимента (функция отклика) может быть описан полиномом:

Введенное уравнение называют уравнением регрессии.

Уравнение регрессии - приближённая математическая модель процесса или явления, полученная на основе экспериментальных данных. Уравнение адекватно описывает результаты опытов, если среднеквадратичные отклонения экспериментальных данных не превышают ошибку воспроизводимости значений, рассчитанных по уравнению регрессии, т.е. расчётная кривая лежит в поле разброса экспериментальных данных. Значения коэффициентов регрессии могут быть вычислены методом наименьших квадратов, либо методом ортогональных планов (см. пример в главе 3). После вычисления коэффициентов регрессии осуществляется проверка их значимости. Целью её является выяснение того, с какой степенью достоверности полученные значения коэффициентов регрессии отличаются от нуля.

Для проверки значимости коэффициентов регрессии вычисляется средняя дисперсия воспроизводимости (m - число опытов в одной из серий). Далее вычисляется дисперсия коэффициентов регрессии и с использованием t-критерия осуществляется проверка коэффициентов регрессии по формуле .

Если опытное значение t-критерия для какого-либо коэффициента регрессии окажется равным или меньше критического, то данный коэффициент регрессии незначим и влиянием фактора, характеризующегося данным коэффициентом, можно пренебречь.

После оценки значимости коэффициентов регрессии переходим к проверке адекватности (соответствия) выбранного уравнения регрессии опытным данным. Для этого вычисляем дисперсию, характеризующую неадекватность уравнения регрессии:

где k - число параллельных измерений; m - число отдельных измерений в одной из серий опытов; f=m-q - число степеней свободы; q - число коэффициентов регрессии; - среднее значение результатов измерений; значение результатов измерений, вычисленных по уравнению регрессии (вычисления значений производятся путём подстановки численных значений коэффициентов регрессии в выбранное уравнение регрессии).

Определяем опытное значение F-критерия (критерия Фишера):

где - критическое значение критерия Фишера, определяемое по табл.4 Приложения; - средняя дисперсия воспроизводимости.

Если опытное значение F-критерия окажется меньше или равно критическому, то принятое уравнение регрессии адекватно описывает экспериментальные данные.

Для применения методов регрессионного анализа необходимо соблюдение следующих условий: значения изучаемых параметров процесса в каждом опыте должны быть независимыми, нормально распределёнными случайными величинами; при этом ошибка в параметрах системы, начальных и граничных условиях должна быть пренебрежимо мала по сравнению с ошибкой в параметрах процесса; дисперсии параметров системы при переходе от опыта к опыту должны быть однородными при достаточной повторяемости опытов.

При обработке эксперимента необходимо наилучшим образом выбрать форму представления его результатов. В качестве такой формы при конструировании математических моделей целесообразно выбирать степенные, экспоненциальные и тригонометрические ряды или их отрезки.

Существенное значение при обработке экспериментальных данных занимает линеаризация эмпирических зависимостей, например, путём логарифмирования экспоненциальных зависимостей. Для некоторой фиксированной и ограниченной области варьирования параметров нелинейные модели (уравнения регрессии) можно привести к линейному виду путём разложения в ряд Тейлора.

Результаты эксперимента могут быть представлены в таблицах, На фотоснимках, на осциллограммах и лентах регистрирующих приборов, в виде записей на магнитные ленты и диски и т.д. Эта информация называется необработанными данными. Обработанные данные составляет та же информация после математической обработки и наглядного (в виде диаграмм, схем, рисунков, графиков и т.д.) представления результатов.

Для дальнейшего изучения предмета рекомендуем использовать руководства по корреляционному и регрессионному анализу, например, монографию Э. Фёрстер, Б. Ренц "Методы корреляционного и регрессионного анализа" M.: Финансы и статистика,

Дата добавления: 2015-08-10; просмотров: 129 | Нарушение авторских прав

Читайте в этой же книге: Нормальное распределение | Случайные величины и их числовые характеристики | Крутое восхождение по поверхности отклика | Выбор и кодирование факторов |

<== предыдущая страница	\|	следующая страница ==>
Ошибки эксперимента	\|	Проверка статистических гипотез

mybiblioteka.su - 2015-2025 год. (0.012 сек.)