Табулирование данных

Читайте также:

Результаты сводки и группировки материалов статистического наблюдения оформляются в виде таблиц и статистических рядов распределения.

Группировка — объединение единиц статистической совокупности в количественные однородные группы в соответствии со значениями одного или нескольких признаков.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности по определенному варьирующему признаку. Он характеризует состояние (структуру) исследуемого явления, позволяет судить об однородности совокупности, единицах ее изменения, закономерностях развития наблюдаемого объекта. Построение рядов распределения является составной частью сводной обработки статистической информации.

В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения. Последние, в свою очередь, в зависимости от характера вариации признака делятся на дискретные (прерывные) и интервальные (непрерывные) ряды распределения.

Пример атриибутивногоряда Распределение учащихся по полу

Пол	Число
М
Ж
Всего

Пример дискретного ряда Распределение медицинских халатов, реализованных магазином за месяц, по размерам.

Размер халата	Число проданных халатов, шт.







Итого

Пример интервального ряда Результаты ЕГЭ по математике

Сумма покупки, руб.	Число покупок
До 40
40-49
50-59
60-69
70-79
80-89
90 и больше
Итого

Группировка осуществляется поэтапно. Вначале определяется примерное число групп, затем величина интервала. Строится первый вариант группировки, который при необходимости уточняется. Для определения числа групп может применяться формула Стерджесса:

где N — численность совокупности, r — число групп.

Величина интервала определяется по формуле: ,

где x_max, x_min — соответствующие максимальное и минимальное значения признаков совокупности, r — величина интервала. Полученный результат округляется.

Равные интервалы группировки применяются для однородных совокупностей, а для социально-экономических явлений чаще применяются неравноинтервальные группировки. Если крайнее значение единиц совокупности значительно отличается по величине от остальных, применяются группировки с открытыми границами интервалов.

Первый интервал с открытой нижней границей, последний интервал с открытой верхней границей. Величина первого интервала принимается равной величине следующего за ним интервала (не более чем). Величина последнего интервала с открытой верхней границей принимается равной величине предпоследнего интервала. Группировку в Excel можно осуществлять с помощью инструмента Гистограмма Пакета анализа.

Пакет анализа представляет собой надстройку (надстройка, вспомогательная программа, служащая для добавления в Microsoft Office специальных команд или возможностей.), т.е. программу, которая доступна при установке Microsoft Office или Excel. Чтобы использовать надстройку в Excel, необходимо сначала загрузить ее.

Нажмите кнопку Microsoft Office , а затем щелкните Параметры Excel.

1. Выберите команду Надстройки и в окне Управлени е выберите пункт Надстройки Excel.

2. Нажмите кнопку Перейти.

3. В окне Доступные надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

Совет. Если Пакет анализа отсутствует в списке поля Доступные надстройки, то для проведения поиска нажмите кнопку Обзор.

В случае появления сообщения о том, что пакет статистического анализа не установлен на компьютере и предложения установить его, нажмите кнопку Да.

4. После загрузки пакета анализа в группе Анализ на вкладке Данные становится доступной команда Анализ данных.

Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Необходимо сгруппировать полученные данные в виде интервального ряда.

Запишем результаты контрольной на лист MS Excel в виде таблицы. В меню Данные / Анализ данных выберем инструмент «Гистограмма».

«Гистограмма» служит для вычисления частот попадания данных в указанные границы интервалов, а также для построения гистограммы интервального вариационного ряда распределения.

В диалоговом окне данного режима задаются следующие параметры:

1. Входной интервал.

2. Интервал карманов (необязательный параметр) — вводится ссылка на ячейки, содержащие набор граничных значений, определяющих интервалы (карманы). Эти значения должны быть введены в возрастающем порядке. В MS Excel вычисляется число попаданий данных в сформированные интервалы, причем границы интервалов являются строгими нижними границами и нестрогими верхними: а < х ≤.

Если диапазон карманов не был введен, то набор интервалов, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.

3. Метки.

4. Выходной интервал/Новый рабочий лист/Новая рабочая книга.

5. Парето {отсортированная гистограмма) — устанавливается в активное состояние, чтобы представить данные в порядке убывания частоты. Если флажок снят, то данные в выходном диапазоне будут приведены в порядке следования интервалов.

6. Интегральный процент — устанавливается в активное состояние для расчета выраженных в процентах накопленных частот (накопленных частостей) и включения в гистограмму графика куммуляты.

7. Вывод графика — устанавливается в активное состояние для автоматического создания встроенной диаграммы на листе, содержащем выходной диапазон.

Как правило, гистограммы изображаются в виде смежных прямоугольных областей, поэтому столбики гистограммы целесообразно расширить до соприкосновения друг с другом. Для этого в контекстном меню (вызывается правой клавишей мышки) выбрать Формат рядов данных. В появившемся диалоговом окне необходимо активизировать вкладку Параметры и в поле Ширина зазора установить значение 0. После указанных преобразований гистограмма примет стандартный вид.

Распределение признака. Нормальное распределение. Любая переменная имеет свой минимум и максимум, между которыми располагаются ее значения. Расстояние от минимума до максимума называется областью значений переменной, однако мы можем разбить это расстояние на равные отрезки и получить множество ограниченных интервалов значений. Распределение вероятностей позволяет нам судить о том, какова вероятность появления переменной в каждом из интервалов её значения. Существует множество распределений, но наиболее распространенным является нормальное распределение.

Ниже приведена гистограмма распределения, полученного в результате проведения теста на стремление к профессиональной компетентности. Красной линией выделено теоретически возможное нормальное распределение, столбцы диаграммы показывают реальное распределение данных.

Большинство результатов измерений в психологии будет приближено к нормальному распределению. В случае, когда количество людей в выборке исследования мало, мы не получаем нормального распределения, что изображено на следующем рисунке.

Числовые характеристики распределений. Каждое распределение может дать представление об изучаемой совокупности. Однако, этим анализ распределения данных признака не ограничивается, т.к. частотное распределение ничего не говорит о статистических закономерностях, которые описывали бы числовые характеристики изучаемой совокупности.

К характеристикам распределения, описывающим количественно его структуру и строение, относятся:

• характеристики положения;

• рассеивания;

• асимметрии и эксцесса.

К характеристикам положения относятся следующие оценки центральной тенденции: мода (Мо), медиана (Ме), квантили и среднее арифметическое (M).

Наиболее распространенной формой статистических показателей, используемой при количественных признаков, является средняя величина, представляющая собой обобщенную количественную характеристику признака в статистической совокупности в конкретных условиях места и времени.

Сущность средней состоит в том, что в ней взаимопогащаются отклонения значений признака у отдельных единиц совокупности, обусловленные действием случайных факторов. Наиболее распространенным видом средних величин является средняя арифметическая, которая как и все средние, в зависимости от характера имеющихся данных может быть простой или взвешенной.

Средняя арифметическая простая (не взвешенная). Эта форма средней используется в тех случаях, когда расчет осуществляется по не сгруппированным данным. Зависимость для определения простой средней арифметической имеет вид:

Средняя арифметическая взвешенная. При расчете средних величин отдельные значения осредняемого признака могут повторяться (встречаться по несколько раз). В подобных случаях расчет средней производится по сгруппированным данным или вариационным рядам Зависимость для определения средней арифметической взвешенной для дискретного вариационного ряда имеет вид:

, где f_i — частота i-го признака

Наряду со средней арифметической, в санитарной статистике применяются, хотя и реже, такие виды средних, как медиана и мода.

Медиана — это серединная, центральная варианта, делящая вариационный ряд пополам, на две равные части.

Мода — чаще всего встречающаяся или наиболее часто повторяющаяся величина, соответствующая при графическом изображении максимальной ординате, т. е. наивысшей точке графической кривой. Таким образом, при приближенном нахождении моды в простом (несгруппированном) ряду она определяется как наиболее насыщенная или частая величина, как варианта с наибольшим количеством частот.

Средняя арифметическая является результативной суммой всех влияний. В ее формировании принимают участие все без исключения варианты, в том числе и крайние варианты. Медиана и мода, в отличие от средней арифметической, не зависят от величины всех индивидуальных значений, т. е. всех членов вариационного ряда, а обусловливаются относительным расположением или распределением вариант. Поэтому медиану и моду также называют описательными или позиционными средними, т. к. они характеризуют главнейшие свойства данного распределения. Особенно это касается медианы, являющейся в известном смысле, непараметрической величиной. М характеризует всю массу наблюдений, а Ме и Мо — основную массу, без учета воздействия крайних вариант, т. е. исключая крайние значения, зависящие иногда от случайных причин.

Квантиль — это такое значение признака, которое делит распределение в заданной пропорции: слева 0,5%, справа 99,5%; слева 2,5%, справа 97,5% и т.п. Обычно выделяют следующие разновидности квантилей:

1) Квартили Q₁, Q₂, Q₃ — они делят распределение на четыре части по 25% в каждой;

2) Квинтили К₁, К₂, К₃, К₄ — они делят распределение на пять частей по 20% в каждой;

3) Децили D₁,...,D₉, их девять, и они делят распределение на десять частей по 10% в каждой;

4) Процентили P₁, Р₂...,Р99, их девяносто девять, и они делят распределение на сто частей по 1% в каждой части.

Поскольку процентиль — наиболее мелкое деление, то все другие квантили могут быть представлены через процентили. Так, первый квартиль — это двадцать пятый процентиль, первый квинтиль — второй дециль или двадцатый процентиль, и т.п.

Меры разброса (рассеяния). Одинаковые по размеру средние могут быть получены из рядов с различной степенью рассеяния. Средние — это величины, вокруг которых рассеяны различные варианты. Понятно, что чем ближе друг к другу отдельные варианты, (значит меньше рассеяние, колеблемость ряда), тем типичнее его средняя. Существует ряд показателей, с помощью которых как раз и оценивается мера разброса или рассеяния ряда.

Размах — разность между наибольшими и наименьшими значениями в ряде или распределении. Размах учитывает только экстремальные значения и поэтому не дает информации о разбросе отдельных элементов

Дисперсия — средний квадрат отклонения значений от их арифметического среднего

Среднеквадратичное отклонение — положительный корень из дисперсии. Это показатель разброса данных около арифметического среднего.

Коэффициент вариации — это среднеквадратичное отклонение, деленное на арифметическое среднее, выраженное в процентах.

Характеристики асимметрии и эксцесса.

Эксцесс — высота нормального распределения

Асимметрия — скос нормального распределения относительно среднего значения.

В зависимости от эксцесса и стандартного отклонения нормальное распределение может иметь разную форму.

Если распределение не является нормальным, то его нельзя охарактеризовать средним арифметическим и стандартным отклонением. В таком случае мы говорим о непараметрических данных, для которых применяются непараметрические методы статистики.

Непараметрические данные — данные, распределение вероятности которых не соответствует нормальному и не может быть задано параметрами нормального распределения.

Характер распределения данные в психологии часто не соответствует нормальному, что связано главным образом с малой величиной выборки

Для количественного описания полученных в ходе эксперимента данных можно воспользоваться инструментом «Описательная статистика» Пакета анализа.

Режим «Описательная статистика» служит для генерации одномерного статистического отчета по основным показателям положения, разброса и асимметрии выборочной совокупности. В диалоговом окне данного режима задаются следующие параметры:

1. Входной интервал

2. Группирование

3. Метки в первой строке/Метки в первом столбце

4. Выходной интервал/Новый рабочий лист/Новая рабочая книга

5. Итоговая статистика — установите в активное состояние, если в выходном диапазоне необходимо получить по одному полю для каждого из следующих показателей описательной статистики: средняя арифметическая выборки (), средняя ошибка выборки (), медиана (Me), мода (Мо), оценка стандартного отклонения по выборке (), оценка дисперсии по выборке (D), оценка эксцесса по выборке (E_K), оценка коэффициента асимметрии по выборке (A_K), размах вариации выборки (R), минимальный и максимальный элементы выборки, сумма элементов выборки, количество элементов в выборке, k-й наибольший и k-й наименьший элементы выборки, предельная ошибка выборки ().

6. Уровень надежности — установите в активное состояние, если в выходную таблицу необходимо включить строку для предельной ошибки выборки ( ) при установленном уровне надежности. В поле, расположенном напротив флажка, введите требуемое значение уровня надежности (например, значение уровня надежности 95 % равносильно доверительной вероятности = 0,95 или уровню значимости = 0,05).

7. К-й наибольший — - установите в активное состояние, если в выходную таблицу необходимо включить строку для k-го наибольшего (начиная с максимума x_max) значения элемента выборки. В поле, расположенное напротив флажка, введите число k. Еслиk = 1, то строка будет содержать максимальное значение элемента выборки.

8. К-й наименьший — установите в активное состояние, если в выходную таблицу необходимо включить строку для k-то наименьшего (начиная с минимума x_min) значения элемента выборки. В поле, расположенное напротив флажка, введите число k. Если k = 1, то строка будет содержать минимальное значение элемента выборки.

Получим с помощью Описательной статистики данные на примере с результатами контрольной работы по чтению и сделаем выводы. Для этого в окне инструмента заполним все необходимые параметры. После нажатия кнопки Ok, получим результаты.

На основании проведенного выборочного обследования и рассчитанных по данной выборке показателей описательной статистики с уровнем надежности 95% можно предположить, что средняя оценка по чтению колебалась от 74,5 до 86,1 балла.

Поясним, на основании каких показателей описательной статистики был сформулирован соответствующий вывод. Такими показателями являются: средняя арифметическая выборки и предельная ошибка выборки

Из выражения для доверительного интервала: - + находим: 80,3 — 5,8 = 74,5 — левая граница; 80,3 + 5,8= 86,1 — правая граница.

Кроме того, полученные данные позволяют судить о характере распределения. О его нормальности свидетельствуют близкие величины средней арифметической и медианы, а также малые значения асимметрии и эксцесса.

5.3. Самостоятельная работа по теме:

Дата добавления: 2015-07-15; просмотров: 375 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Представление экспериментальных данных в Excel	\|	Занятие №14

mybiblioteka.su - 2015-2024 год. (0.015 сек.)