Статистический анализ вариационных (интервальных) данных

Совокупность значений изучаемого признака с указанием числа их различных значений называется распределением признака. Распределение представляют в форме вариационного ряда. В соотношении значений признака (вариантов) и числа единиц (частот) проявляется закономерность распределения. Она описывается различными статистическими показателями в частности: · частотные показатели; · показатели центра распределения; · показатели степени вариации; · показатели формы распределения. Частотными показателями любого ряда распределения являются абсолютная численность i- и группы — частота fiи относительная частота — частость di, где clip_image002, а clip_image004, или 100%. Кумулятивная (накопленная) частота Si (частость Sd) характеризует объем совокупности со значениями вариантов, не превышающих Xi,. Кумулятивные частотные показатели образуются последовательным суммированием абсолютных или относительных частот, например: S1=fi; S2=f1+f2; S3=f1+f2+f3 и т. д. Плотность частоты (частости) представляет собой частоту, приходящуюся на единицу интервала, т.е. qi=fi/hiили qi=di/hi, где hi, - величина i-го интервала. Данный показатель используют, если интервалы вариационного ряда неравные и необходимо графически изобразить этот ряд в виде гистограммы, а так же при расчете моды. Показатели центра распределения. К показателям центра распределения относят среднюю, моду и медиану. Средняя величина характеризует типичный уровень признака в совокупности. По данным вариационного ряда распределения средняя рассчитывается как арифметическая взвешенная: · на основе частот: clip_image006 · на основе частостей clip_image008 Если используется интервальный ряд распределения то, допуская, что распределение в границах i-го интервала является равномерным, как вариант хi, - используют середину интервала (х'). При этом величину открытого интервала условно считают такой же, как и величину соседнего закрытого интервала. Пример. Провести анализ данных о результатах деятельности предприятия по оказанию услуг. В таблице 5.1 приводится данные о частоте с которой встречается дневная реализация в соответствующем диапазоне. Таблица 5.1 Результаты деятельности предприятии по оказанию услуг населению
Возраст оборудования, тас.руб Количество дней (fi) Середина интервала хi хifi Накопленная частота, Si [xi-xср] [xi-xср]*fi [xi-xср]2 *fi (xi-xср)3 *fi (xi-xср)4 *fi
До 5 10 2,5 25 10 11,2 112,0 1254,4 -14049 157351
5 – 10 19 7,5 142,5 29 6,2 117,8 730,4 -4528,2 28075
10 – 15 30 12,5 375 59 1,2 36,0 43,2 -51,8 62,2
15 – 20 24 17,5 420 83 3,8 91,2 346,6 1316,9 5004,3
20 - 25 12 22,5 270 95 8,8 105,6 929,3 8177,7 71963,4
25 - 30 5 27,5 137,5 100 13,8 69,0 952,2 13140 181337
å 100 - 1370 531,6 4256,0 4005,6 443793
Внимание! В контрольных заданиях, исходные данные могут задаваться в виде величины дневной реализации, см. табл. 5.2 и рис. 5.1. В этом случае необходимо преобразовать исходные данные в частотные. Для этого необходимо провести группировку (см. выше) исходных данных с равными группировочными интервалами. В ниже приведенном примере, интервал принимается равным 0,4 тыс. руб., а весь диапазон разбивается на 10 групп (то есть необходимо сощитать количество дней, в которые реализация находилась в заданных границах). Таблица 5.2 Динамика оказание услуг по четырем месяцам, тыс.руб.
День № декады
1 2 3 4 5 6 7 8 8 10 11 12
1 5,29 4,86 4,60 5,07 4,58 4,22 5,22 5,01 5,34 5,76 5,97 4,40
2 5,66 5,88 4,79 4,78 4,40 5,47 4,80 4,40 4,82 4,75 5,27 5,31
3 4,80 4,15 4,70 4,95 5,05 4,49 4,63 4,73 5,10 4,81 4,27 5,58
4 5,52 5,67 5,03 5,44 4,82 4,93 4,83 4,76 5,27 4,30 5,64 5,79
5 5,89 6,16 4,05 5,18 4,78 5,36 4,86 4,89 5,32 5,39 4,68 4,75
6 6,03 4,41 5,68 5,33 5,07 5,23 4,35 5,24 4,99 4,12 4,47 5,49
7 5,11 5,67 4,39 4,86 5,19 5,01 5,80 5,09 5,61 5,25 5,13 5,56
8 4,35 5,22 4,81 5,41 5,80 4,91 4,52 4,51 5,13 4,95 4,85 6,24
9 4,57 4,99 4,96 4,96 4,75 5,19 5,21 4,19 5,12 4,92 5,23 4,79
10 5,22 5,34 4,27 5,08 4,12 5,52 5,47 5,18 4,61 5,42 4,53 4,97
clip_image010 Рис. 5.1 Динамика продаж услуги, тыс.руб. В результате исходные данные преобразуются в частотный вид см. табл. 5.3. Таблица 5.3 Частотная интерпретация исходных данных
Возраст оборудования, тыс.руб Количество дней (fi) Середина интервала хi
7,3 – 7,7 8 7,5
7,7 -8,1 11 7,9
8,1 – 8,5 10 8,3
8,5 – 8,9 24 8,7
8,9 – 9,3 21 9,1
9,3 -9,7 21 9,5
9,7 – 10,1 11 9,9
10,1- 10,4 10 10,3
10,4 – 10,8 3 10,6
10,8 -11,2 3 11
На основании таблицы построена гистограмма, рис. 5.2. clip_image012Рис. 5.2 Гистограмма распределения частот дневных выручек Следует иметь ввиду, что самый быстрый способ преобразования временного ряда в частотный использования пакета Statistica. Для этого исходные данные копируются в пакет, а затем нажимая кнопку «Граф» в выпавшем меню выбирается оция «Гистограмма» и в ней определяется число групп («Категория» в нашем случае 10), «Тип графика» Обычный «Variables» (Данные) – соответствующий столбец с данными. OK. В построенной гистограмме можно поставить значение частот для этого при нахождении курсора гистограмме в меню вызванном правой клавишей выбирает опцию «Метки точки» кликнуть на окне «Показать метки»и кликнуть на окне «Счет». Решение Средне дневная реализация определяется xср=∑(xi*fi)/∑fi = 1370/100=13,7 тыс.руб. Мода (Мо) — значение признака, наиболее часто встречающееся в исследуемой совокупности, т.е. это одна из вариант признака, которая в ряду распределения имеет наибольшую частоту (частость). В дискретном ряду мода определяется визуально по максимальной частоте или частости. В интервальном ряду по наибольшей частоте определяется модальные интервал (например, по данным таблицы наибольшая частота fmax= 30 %, а модальный интервал Мо=10-15 тыс.руб.), а конкретное значение моды в модальном интервале определяется: clip_image014, где xoиh –соответственно нижняя граница и величина модального интервала (например, по данным таблицы xo=10 тыс.руб, аh=(20-15)=5 тыс.руб., см. рис. 3.3); fM0 – частота (частность) модального интервала (по данным таблицы fM0 =30%,fMo-1=19% fMo+1=24% соответственно значение моды: Mo=10+5(30-19)/[(30-19)+(30-24)]=13.24 тыс.руб.). Медиана (Ме) — значение признака (варианта), приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. это вариант, который делит ряд распределения на две равные по объему части. Медиана, как и мода, не зависит от крайних значений вариантов, поэтому применяется для характеристики центра в ряду распределения с неопределенными границами. Для определения медианы в ранжированном ряду необходимо вначале найти номер медианы: N=(n+1)/2 (в нашем случае N=(100+1)/2=50.5%, см. рис. 5.4). Затем по накопленным (кумулятивным) частотам Si дискретного ряда определяется медиальный интервал (в нашем случае интервал совпадает с модальным интервалом (такое совпадение не всегда обязательно, но встречается часто) это 10 – 15 тыс.руб, поскольку ближайшая большая 50% накопленная частота Si = 59%).
clip_image015
Рис. 5.3. Гистограмма и полигон В дискретном ряду распределения медианы находится непосредственно по накопленной частоте, соответствующей номеру медианы. В случае интервального (вариационного) ряда распределения конкретного значение медианы вычисляется по формуле: clip_image017 где xoиh –соответственно нижняя граница и величина медианного интервала (по данным таблицы xo=10 тыс.руб., аh=(15-10)=5 тыс.руб.); fMe– частота (частность) медианного интервала (по данным таблицы fMe=30%); SMe-1 – накопленная частота предмедиального интервала (SMe-1= 29%). Значение медианы для примера из таблицы Ме=10+5(50-29)/30=13,5 тыс.руб. Откуда можно заключить, что половина всего оборудование имеет возраст не более 13,5 тыс.руб. или половина всего оборудования имеет возраст больше 13,5 тыс.руб. В симметричных рядах распределение значения моды и медианы совпадают со вредней величиной clip_image019, а в умеренно асимметричных рядах они соотносятся: clip_image021. Кроме медианы в анализе закономерностей распределения используются также квартели и децели, при расчете которых в формуле расчета медиального значения Ме множитель ½ заменяется на 0,25 и 0,1 соответственно. Показатели степени вариации и способы их расчета. Для измерения и оценки вариации используют абсолютные и относительные характеристики. Наиболее поверхностная оценка рассеяния (вариации) совокупности распределения определяется с помощью вариационного размаха R, который показывает, насколько велико различие между единицами совокупности, имеющими самое маленькое и самое большое значение признака: R=xmax-xmin.
clip_image023
Рис. 5.4. Кумулята Среднее линейное отклонение clip_image025является обобщающей мерой вариации индивидуальных значений признака от средней арифметической величины. Она дает абсолютную меру вариации. Для интервальных (вариационных) рядов взвешенная средняя определяется: clip_image027 Для приведенного выше примера - clip_image025[1]=531,6/100=5,32 тыс.руб. Дисперсия (s)2 — это средний квадрат отклонений индивидуальных значений признака от средней величины. Дисперсию используют не только для оценки вариации, но и при измерении взаимосвязей, а также для проверки статистических гипотез. clip_image029 Для приведенного выше примера - clip_image031=4256/100=42,56. Среднее квадратическое отклонение - s представляет собой корень второй степени из среднего квадрата отклонений отдельных значений признака от их средней, т.е. оно исчисляется путем извлечения квадратного корня из дисперсии и измеряется в тех же единицах, что и варьирующий признак. clip_image033 Для приведенного выше примера - clip_image035=6 тыс.руб. Коэффициент осцилляции: clip_image037 Для приведенного выше примера - clip_image039=182,48%. Линейный коэффициент вариации: clip_image041 Для приведенного выше примера - clip_image043 = 36,5%. Коэффициент вариации: clip_image045 Для приведенного выше примера clip_image047= 43,8 %. Показатели асимметрии и эксцесса. Симметричным называется распределение у которого частоты равноотстоящие от моды равны между собой, следовательно выполняется соотношение clip_image049=Мо=Ме. Соответственно наиболее простой мерой асимметрии является (xср-Мо). Коэффициент асимметрии Пирсона: clip_image051 При Ка>0 скошенность ряда правосторонняя (т.е. clip_image049[1]>Mo), при Ка<0 скошенность ряда левосторонняя (т.е. clip_image049[2]<Mo). В нашем примере Ка=0,08 и следовательно ряд характеризуется правосторонней незначительной асимметрией. Нормальный коэффициент асимметрии третьего порядка. Часто используется в прикладных расчетах. Коэффициент не зависит от масштаба, выбранного при измерении варианта, так как является отвлеченной величиной и определяется по формуле: clip_image053, где clip_image055 - центральный момент третьего порядка и определяется: clip_image057 Для случая из таблицы 4 нормальный коэффициент асимметрии третьего порядка будет равен А3=412,64/216 =1,91. Нормальный коэффициент асимметрии четвертого порядка. Используется для определения «крутизны» («заостренности») графика распределения частот. Определяется по формуле: clip_image059, где clip_image061 - центральный момент третьего порядка и определяется: clip_image063 При нормальном распределении А4=3. Для измерении асимметрии эталоном служит симметричное (нормальное) распределение, для которого А3=0. Для случая из таблицы 4 нормальный коэффициент асимметрии четвертого порядка будет равен А4=3,42. Показатель эксцесса распределения: clip_image065. При Еk>0 распределение островершинное, при Еk <0 – плосковершинное. В нашем примере Еk=(3,42-3)=0,42 и следовательно ряд островершинный.
Мы принимаем