Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Регрессионный анализ 1 страница

Читайте также:
  1. Bed house 1 страница
  2. Bed house 10 страница
  3. Bed house 11 страница
  4. Bed house 12 страница
  5. Bed house 13 страница
  6. Bed house 14 страница
  7. Bed house 15 страница

 

Регрессионный анализ это поиск аналитического выражения связи, в котором изменение результативного признака обуславливается влиянием одного или нескольких факторных признаков, а множество всех прочих факторов принимается за постоянные (или усредненные) величины

Связь между случайными величинами может быть прямо пропорциональной, гиперболической, параболической, экспоненциальной и др.

В основе регрессионного анализа лежит метод наименьших квадратов, который заключается в построении такой математической модели, что сумма квадратов отклонений эмпирических данных от теоретических была бы минимальной.

В уравнении однофакторной линейной регрессии , параметр означает среднее изменение величины результативного признака , в зависимости от изменения значений факторного признака х, если все остальные факторы, влияющие на результативный признак рассматриваются как неизменные. Параметр показывает, насколько в среднем величина одного признака Y изменяется при изменении на единицу меры другого корреляционно связанного с Y признака X. Свободный член отражает усредненное влияние всех неучтенных факторов.

При исследовании корреляции между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (рубли, секунды, килограммы и т.д.), очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Эта модель отображает зависимость между переменными величинами xi и yi в системе прямоугольных координат. Зависимость может быть от () и от (). Наглядно эти зависимости можно представить в виде диаграммы рассеивания или корреляционного поля.

Пример. В результате группировки 100 рабочих по общему стажу работы и месячной заработной плате получена следующая корреляционная таблица, представленная в виде интервального вариационного ряда:

 

Группы рабочих по общему стажу работы (лет) Группы рабочих по размеру заработной платы (руб.)  
100-120 120-140 140-160 160-180 180-200 200-220 220-240 Итого
0-5                
5-10                
10—15                
15-20                
20—25                
25—30                

 

Для характеристики связи между рассматриваемыми показателями необходимо провести корреляционно-регрессионный анализ двумерной модели.

Решение. Обозначим общий производственный стаж рабочих через , а их месячную заработную плату - .

Для графического изображения зависимости в прямоугольной системе координат по оси абсцисс отложим значения признака – фактора (производственный стаж), а по оси ординат – средние значения интервалов зависимого признака (заработную плату).

 

Рис. 7 Корреляционное поле

 

На основе анализа корреляционного поля можно предположить, что между заработной платой и стажем рабочих существует прямая регрессия:

.

Для нахождения значений величин и , входящих в систему нормальных уравнений, составим расчетные таблицы, введя в них одновременно и величины, необходимые для расчета коэффициента корреляции (в качестве вариант возьмем середины интервалов):

 

x y               my у my у2 my
2,5                    
7,5                   1462,5
12,5                   2812,5
17,5                    
22,5                    
27,5                    
mx                    
X mx                    
X2 mx                    
∑у mxy 12,5     237,5   247,5 112,5      
x ∑у mxy                    

 

Коэффициент корреляции вычисляется по формуле:

.

Из таблицы определяются: ,

Например, для (X=150) , для (Y=12,5)

,

 

Подставим найденные величины в формулу коэффициента корреляции и получим:

Полученное значение коэффициента корреляции по шкале Чеддока указывает на наличие заметной линейной связи между общим производственным стажем и заработной платой рабочих.

Вычислим коэффициенты уравнения регрессии, для этого подставим найденные значения в систему уравнений, полученную на основе метода наименьших квадратов:

получим:

.

В результате совместного решения уравнений находим: =143,1 и =2,89. Искомое уравнение прямой регрессии примет вид:

.

Это уравнение показывает, что между общим производственным стажем и заработной платой рабочих имеется прямая связь: с увеличением стажа на один год размер месячной заработной платы возрастает в среднем на 2р.89 у.е. ().

Однако чаще уравнение регрессии записывают с использованием выборочного коэффициента корреляции:

,

где , ,

объем выборки

Для данной задачи

, , , , , окончательно

Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.


3. Контрольные задания

Вариант 1

№1 В организации имеется 6 компьютеров. Вероятность того, что один компьютер работает, равна 0,8. Найти вероятность того, что работают 4 компьютера; не менее 4 компьютеров.

 

№2 На заводе выпускаются приборы, в которых используются детали, поступающие с трех предприятий, при этом первое предприятие поставляет 30% деталей, второе – 50%, а третье – 20%. При перевозке портится с первого предприятия 2% деталей, со второго – 1%, а с третьего – 4%. Найти вероятность того, что случайно выбранная деталь окажется испорченной.

 

№3 В результате экзамена по социологии студенты получили следующие оценки:

4, 4, 2, 3, 5, 5, 3, 5, 3, 3, 4,5, 5, 4, 2, 4, 3, 5, 4, 3, 4, 3, 4, 3, 2,

2, 3, 3, 4, 4, 4, 4, 2, 4, 4, 4, 2, 3, 3, 3, 4, 5, 4, 2, 2, 3, 5, 4, 4, 3.

По выборке 50 значений независимой случайной величины требуется:

1. Составить вариационный ряд.

2. Построить полигон частот, относительных частот, гистограмму, кумуляту, огиву.

3. Найти выборочную среднюю, дисперсию, среднеквадратическое отклонение, коэффициент асимметрии, эксцесс, размах варьирования, моду, медиану.

4. Проверить гипотезу о нормальном распределении при .

 

№4 Банк, изучая возможности предоставления кредитов, сделал опрос населения с целью определения среднего размера долга, который могут взять жители. Было опрошено 500 человек. Среднее значение суммы составило 3000 рублей. Найти границы 95%-го доверительного интервала для оценки неизвестного среднего размера кредита для всего населения города при отклонении 800 рублей. Распределение считать нормальным.

№5 Известно, что когда доход семьи низкий, то все деньги тратятся на предметы первой необходимости. В связи с этим изучался вопрос: есть ли связь между доходом (у.е.) семьи и тем, сколько денег (у.е.) семья тратит на развлечения. Было опрошено 15 респондентов. Получены следующие результаты:

 

Доход семьи                              
Часть дохода, которая тратится на развлечения                              

Используя различные показатели тесноты связи выяснить, есть ли связь между доходом семьи и его частью, которая тратится на развлечения.

 

№6 Физическая подготовка 9 спортсменов была проверена при поступлении в спортивную школу, а затем после месяца тренировок. Результаты проверки (в баллах) приведены в таблице (в первой строке указано число баллов, полученных каждым спортсменом при поступлении в школу; во второй строке – после обучения):

 

Баллы при поступлении                  
Баллы после тренировок                  

Требуется при уровне значимости 0,05 выяснить, улучшилась ли физическая подготовка спортсменов, в предположении, что число баллов распределено нормально.

 

№7 Составить уравнение регрессии.

 

у х 0,5 0,7 0,9 1,1 1,3 1,5
0,2              
0,5              
0,8              
1,1              
1,4              
1,7              
               
            N=100

Вариант 2

№1 На помощь пострадавшим от стихийного бедствия было отправлено 5000 ампул с лекарствами. Вероятность того, что в пути разобьется ампула с лекарством равна 0,0002. Найти вероятность того, что в дороге могут разбиться 3 ампулы.

 

№2 Для участия в пробеге преподаватель физкультуры выбрал с I курса 4 студента, со II курса - 6 студентов, с III курса – 5 студентов. Физическая подготовка студентов такова, что вероятности занять призовое место студентами I, II, III курсов соответственно равны 0,9; 0,7; 0,8. Наудачу выбранный студент занял призовое место. К какой из групп вероятнее всего принадлежал этот студент?

 

№3 В некоторой компании возраст сотрудников составил следующие величины:

18, 26, 50, 26, 38, 35, 45, 42, 24, 25, 20, 26, 44, 24, 40, 45, 24, 44, 25, 26, 28, 23, 53, 24, 19, 26, 28, 45, 30, 35, 23, 29, 23, 39, 50, 26, 49, 60, 33, 34, 49, 26, 28, 28, 44, 19, 40, 62, 32, 47.

По выборке 50 значений независимой случайной величины требуется:

1. Составить вариационный ряд.

2. Построить полигон частот, относительных частот, гистограмму, кумуляту, огиву.

3. Найти выборочную среднюю, дисперсию, среднеквадратическое отклонение, коэффициент асимметрии, эксцесс, размах варьирования, моду, медиану.

4. Проверить гипотезу о нормальном распределении при .

 

№4 Стоимость разных услуг, при обслуживании 200 автомашин в авторемонтной мастерской, в среднем составила 800 рублей. В каких размерах может быть стоимость услуг с вероятностью 0,98 при среднеквадратическом отклонении 500 рублей. Распределение считать нормальным.

 

№5 Общественная организация старается привлечь внимание молодежи к экологическим проблемам. В связи с этим сотрудники проводят семинары на экологические темы. В результате тестирования группы из 10 молодых людей до и после проведенного ими семинара по экологии были получены следующие результаты:

 

Баллы до семинара                    
Баллы после семинара                    

 

Используя различные показатели тесноты связи выяснить, есть ли связь между баллами, полученными слушателями до и после семинара. Заинтересовали ли члены организации молодых людей?

 

№6 Главный бухгалтер большой компании при регулярной проверке работы двух фирм обнаружил неправильно оформленные счета. В первой фирме из 1500 регулярно выбираемых счетов в среднем 35 оказывались с незначительными нарушениями. Во второй фирме при проверке 2000 счетов в среднем 30 оказывались с нарушениями. При и можно ли утверждать, что фирмы работают одинаково? Принять уровень значимости Распределения считать нормальными.

 

№7 Составить уравнение регрессии.

 

x y             ny
               
               
               
               
               
nx              

 

 

Вариант 3

№1 Врач ставит правильный диагноз с вероятностью 0,8. Найти вероятность того, что из 7 пациентов двум пациентам будет поставлен неверный диагноз.

 

№2 Ателье закупает 60% тканей на оптовом рынке, а 40% из магазина тканей. При этом ткань с дефектом в первом случае обнаруживается 5%, а во втором случае 2%. Заказчик выбирает ткань для изделия. Найти вероятность того, что он выберет ткань без дефекта.

 

№3 На выполнение одного задания некоторого теста студенты тратят разное время, фиксируемое преподавателем (в секундах). Были протестированы 50 студентов. Время, потраченное на выполнение теста, составило:

70, 71, 70, 67, 70, 66, 70, 72, 64, 68, 66, 70, 69, 66, 67, 75, 66, 71, 68, 66, 70, 69, 66, 67, 75, 66, 71, 68, 69, 71, 69, 60, 69, 70, 64, 75, 70, 71, 73, 66, 71, 69, 78, 65, 70, 69, 69, 78, 68, 72.

По выборке 50 значений независимой случайной величины требуется:

1. Составить вариационный ряд.

2. Построить полигон частот, относительных частот, гистограмму, кумуляту, огиву.

3. Найти выборочную среднюю, дисперсию, среднеквадратическое отклонение, коэффициент асимметрии, эксцесс, размах варьирования, моду, медиану.

4. Проверить гипотезу о нормальном распределении при .

 

№4При поступлении в учебное заведение протестированы 12 студентов. Получены следующие результаты в баллах: 105, 90, 110, 120, 100, 90, 95, 85, 100, 110, 96, 111. По этим данным найти 95%-ый доверительный интервал для оценки среднего балла поступающих при среднеквадратическом отклонении равном 5. Распределение считать нормальным.

 

№5 Существует мнение, что отсутствие студентов на занятиях влияет на экзаменационную оценку по соответствующему предмету. Имеются сведения о пропущенных занятиях студентов (в %) и оценке полученной на экзамене (по 100 бальной системе).

 

Пропущенные занятия                        
Оценка по предмету                        

 

Используя различные показатели тесноты связи выяснить, есть ли связь между посещаемостью студентов и оценкой, полученной на экзамене.

 

№6 Произведена обработка результатов 7 испытаний нового самолета. При этом каждый раз максимальная скорость развиваемая самолетом оказывалась различной: 425, 430, 439, 440, 420, 426, 423м/с. Необходимо проверить при уровне значимости 0,01 гипотезу о том, что самолеты такого типа могут развить максимальную скорость в среднем равную 420 м/с. Распределение считать нормальным.

 

№7 Составить уравнение регрессии.

 

x y           ny
             
             
             
             
             
nx            

Вариант 4

№1 Среди 10 преподавателей кафедры, имеющих степень кандидата наук, 7 преподавателей имеют степень кандидата экономических наук. Найти вероятность того, что из 6 случайным образом выбранных преподавателей, 4 преподавателя имеют степень кандидата экономических наук.

 

№2 На новогоднем празднике в одной организации детям сотрудников профсоюзный комитет решил подарить игрушки: зайцев и мишек. Из закупленных игрушек оказалось 40% зайцев, среди них 70% серого цвета, а остальные – белого. Среди мишек 60% коричневые, а остальные белые. Ребенку досталась игрушка белого цвета. Найти вероятность того, что это заяц.

 

№3 На вопрос сколько часов в неделю каждый студент уделял на подготовку к занятиям по некоторому предмету, были получены следующие ответы 50 студентов:

3, 4, 2, 2, 2, 0, 4, 4, 0, 3, 1, 2, 3, 4, 2, 3, 2, 3, 3, 4, 4, 3, 3, 6, 4, 3, 1, 3, 2, 3, 2, 4, 4, 5, 6, 5, 4, 3, 5, 2, 3, 1, 2, 1, 4, 5, 4, 2, 6, 5.

По выборке 50 значений независимой случайной величины требуется:

1. Составить вариационный ряд.

2. Построить полигон частот, относительных частот, гистограмму, кумуляту, огиву.

3. Найти выборочную среднюю, дисперсию, среднеквадратическое отклонение, коэффициент асимметрии, эксцесс, размах варьирования, моду, медиану.

4. Проверить гипотезу о нормальном распределении при .

 

№4 Социологический опрос по случайной выборке 750 жителей города показал, что в среднем они посещают театр 1,14 раз в год. Можно ли при 95% доверительности и среднеквадратическим отклонением равным 1,2 утверждать, что в среднем жители города посещают театр чаще одного раза в год? Распределение считать нормальным.

 

№5 Исследовался вопрос о том, как влияет средняя цена за 1 билет (в у. е.) в театрах города на наполняемость залов.

 

Средняя цена за билет              
Процент наполняемости залов              

 

Используя различные показатели тесноты связи выяснить, есть ли связь между средней ценой билета в театр и наполняемостью залов.

 

№6 Для составления каждого теста преподавателю необходимо 30 минут. При сопоставлении работы 15 преподавателей оказалось, что среднее время подготовки теста 35 минут. При уровне значимости определить: можно ли утверждать, что среднее время соответствует норме, если среднеквадратическое отклонение равно . Распределение считать нормальным.

 

№7 Составить уравнение регрессии.

 

x y             ny
               
               
               
               
               
nx              

 


Дата добавления: 2015-08-05; просмотров: 82 | Нарушение авторских прав


Читайте в этой же книге: Теория вероятностей - это раздел математики, в котором изучаются случайные явления (события) с устойчивой частостью и выявляются закономерности при массовом их повторении. | СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ | Критерий χ 2 (хи квадрат - критерий К.Пирсона). | Решение. | КОРРЕЛЯЦИОННЫЙ АНАЛИЗ | Решение. | РЕГРЕССИОННЫЙ АНАЛИЗ 3 страница | РЕГРЕССИОННЫЙ АНАЛИЗ 4 страница | РЕГРЕССИОННЫЙ АНАЛИЗ 5 страница | Критические точки распределения Стьюдента |
<== предыдущая страница | следующая страница ==>
Решение.| РЕГРЕССИОННЫЙ АНАЛИЗ 2 страница

mybiblioteka.su - 2015-2024 год. (0.03 сек.)