Двумерный статистический анализ данных

Читайте также:

Теперь мы можем перейти к более сложному виду анализа, каким является двумерный анализ.Здесь рассматривается связь между двумя переменными. Мы имеем пары наблюдений, полученные на одном объекте. Нас интересует, как один изучаемый признак связан с другим. Данные приведены в таблице.

Таблица 12

Взаимосвязь между уровнем образования и занятиями физкультурой

	Уровень образования	Всего
Низкий	Высокий
Делают зарядку
Не делают зарядку
Всего

В таблице 12 два столбца – для образования и две строки – для занятий физкультурой, следовательно, размерность этой таблицы 2×2. Кроме того, имеются дополнительные крайний столбец и крайняя строка (маргиналы таблицы), указывающие общее количество наблюдений в данной строке или в столбце. В правом нижнем углу указана общая сумма, т. е. общее число наблюдений в выборке. Не давшие ответа, уже исключены (для реальных данных их число также стоит указать, но не в таблице, а в подтабличной
сноске).

Многие исследователи при построении таких таблиц пользуются неписаным правилом: для той переменной, которую полагают независимой, отводится верхняя строка (горизонталь), а зависимую располагают «сбоку», по вертикали (разумеется, соблюдение этого правила не является обязательным и ничего с точки зрения анализа не меняет).

Обычно характер взаимоотношений между переменными в небольшой таблице можно определить даже «на глазок», сравнивая числа в столбцах или строках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в проценты, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал столбца, мы получим процент по столбцу.

Например, 50/255×100 = 19,6 %, т. е. 19,6 %, имеющих низкий уровень образования делают зарядку (но не наоборот!). Если делить на маргинал строки, то мы получим другую величину – процент по строке. В частности, можно заметить, что 80 % делающих зарядку, составляют люди с высоким уровнем образования (200/250×100). Деление на общую численность выборки дает общий процент. Так, всего в выборке 50 % людей, делающих зарядку.

Так как вывод о наличии взаимосвязи между переменными требует демонстрации различий между подгруппами по уровню зависимой переменной, при анализе таблицы сопряженности можно руководствоваться простыми правилами.

1) Нужно определить независимую переменную и, в соответствии с принятым определением, пересчитать абсолютные частоты в проценты. Если независимая переменная расположена по горизонтали таблицы, мы считаем проценты по столбцу; если независимая переменная расположена по вертикали, проценты берутся от сумм по строке.

2) Далее сравниваются процентные показатели, полученные для подгрупп с разным уровнем независимой переменной, каждый раз внутри одной категории зависимой переменной (например, внутри категории делающих зарядку). Обнаруженные различия свидетельствуют о существовании взаимосвязи между двумя переменными.

Элементарная таблица сопряженности размерности 2×2 – это минимально необходимое условие для вывода о наличии взаимосвязи двух переменных.

Знания о распределении зависимой переменной недостаточно. Нельзя, например, утверждать, будто из того, что 75 % детей-первенцев имеют интеллект выше среднего, а 25 % – средний и более низкий, следует зависимость между порядком рождения и интеллектом. Необходимо проанализировать и распределение показателей интеллекта для детей-непервенцев. Варьировать должна не только зависимая, но и независимая переменная.

4) Строится диаграмма распределения. Это позволяет наглядно представить связи между признаками. Пример приведен на рис. 4.

Рис. 4. Взаимосвязь между уровнем образования и занятиями физкультурой
по данным таблицы 12

Между двумя переменными могут существовать различные зависимости: линейные и нелинейные.

Между переменными Х и Y существует линейное отношение: если одна переменная возрастает по величине, то это же происходит и с другой. Очевидно, что чем более компактно, «скученно» располагаются точки-наблюдения вокруг пунктирной прямой линии (описывающей идеальное линейное отношение Х и Y), тем сильнее зависимость.

Существует обобщенный показатель, позволяющий оценить, насколько связь между переменными приближается к линейному отношению, которое на диаграмме рассеивания выглядит как прямая линия. Это коэффициенткорреляции, измеряющий тесноту связи между переменными, т. е. их тенденцию изменяться совместно. Само слово «корреляция» означает «взаимосвязь». Как могут быть взаимосвязаны две переменные?

1) Большим значениям одного признака соответствуют более высокие значения другого, и наоборот. Это положительная связь.

2) Увеличение первого признака сопровождается уменьшением второго, а уменьшение первого – увеличением второго. Это отрицательная взаимосвязь.

3) полное отсутствие взаимосвязи.

Коэффициент корреляции отражает всю гамму возможных отношений. Его значение может варьироваться от +1 до –1. Положительные значения указывают на прямую связь между переменными, отрицательные – на обратную. Нуль соответствует случаю отсутствия корреляции. Коэффициент корреляции по-разному вычисляется для измеренных показателей (рост, вес) и для ранжированных данных (оценки, предпочтения), но его окончательная форма и интерпретация остаются теми же. Если данные носят качественный характер (мужчина – женщина, совершеннолетний – несовершеннолетний, работающий – неработающий), то вместо коэффициента корреляции применяются другие меры связи, основанные на сравнении частот. Для тех случаев, когда два ряда получены с помощью разных шкал, имеются свои вычислительные процедуры. Но общая логика анализа сохраняется. В специальной литературе можно ознакомиться с правилами расчета коэффициентов корреляции в зависимости от типа шкалы.

Приведем также графическое изображение возможных вариантов взаимосвязи между переменными.

На рисунке 5 приведены три диаграммы рассеивания.

а) б) в)

Рис. 5. Диаграммы рассеивания для гипотетических данных

Очевидно, что на рисунке 5, а какая-либо связь между x и y попросту отсутствует. На рисунке 5, б воображаемая прямая линия (отмечена пунктиром) пересекла бы диаграмму сверху вниз, из левого верхнего в правый нижний угол. Иными словами, линейная связь в этом случае имеет обратное направление: чем больше X, тем меньше зависимая переменная У.

Заметим также, что «кучность» расположения точек вдоль воображаемой прямой на рисунке 5, б не очень велика, а значит и связь (корреляция) между переменными не только обратная, отрицательная, но еще и не очень сильная, умеренная.

Наконец, на рисунке 5, в зависимую и независимую переменную связывает явно нелинейное отношение: воображаемый график нисколько не похож на прямую линию и напоминает скорее параболу.

Методы анализа, о которых сейчас пойдет речь, не годятся для этого нелинейного случая, так как обычная формула для подсчета коэффициента корреляции даст нулевое значение, хотя связь между переменными существует.

Дата добавления: 2015-08-02; просмотров: 67 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Методы статистического описания	\|	Интерпретация данных двумерного анализа

mybiblioteka.su - 2015-2025 год. (0.008 сек.)