По территориям некоторых регионов известны данные за год по среднедневной заработной плате у(р) и среднедушевому прожиточному минимуму в день одного трудоспособного х(р). Требуется:
Построить выборочное уравнение парной линейной регрессии. Найти коэффициент эластичности.
На уровне значимости α=0,05 оценить значимость уравнения и коэффициентов регрессии. Для значимых коэффициентов регрессии построить доверительные интервалы.
Оценить качество уравнения с помощью средней ошибки аппроксимации.
Оценить тесноту связи между переменными с помощью выборочного коэффициента корреляции, построить доверительный интервал.
Построить графики зависимостей yi и от х, а также доверительный интервал для значений yi.
Определить прогнозное значение результативного признака, если возможное значение факторного признакак составит 1,9 от его среднего уровня по совокупности. Найти доверительные интервалы для прогнозного значения.
Построить уравнения регрессий: , , и , сделать вывод по наилучшей модели.
n
1
2
3
4
5
6
7
8
9
10
y
124
117
138
128
131
145
136
138
119
125
x
95
94
117
108
101
125
101
119
101
110
Решение.
1) построим уравнение парной регрессии.
Для этого заполним вспомогательную таблицу с расчетами
n
Y
X
X*X
Y*Y
X*Y
|
1
124
95
9025
15376
11780
121,7
70,56
5,29
0,019
2
117
94
8836
13689
10998
121
82,81
16
0,034
3
138
117
13689
19044
16146
137
47,61
1
0,007
4
128
108
11664
16384
13824
130,7
0,36
7,29
0,021
5
131
101
10201
17161
13231
125,9
17,64
26,01
0,039
6
145
125
15625
21025
18125
142,5
153,76
6,25
0,017
7
136
101
10201
18496
13736
125,9
17,64
102,01
0,074
8
138
119
14161
19044
16422
138,4
68,89
0,16
0,003
9
119
101
10201
14161
12019
125,9
17,64
47,61
0,058
10
125
110
12100
15625
13750
132,1
4
50,41
0,057
Итого
1301
1071
115703
170005
140031
480,91
262,03
0,329
Используя полученные суммы по столбцам, вычислим средние значения, средние квадратические отклонения и коэффициент корреляции.
;
Определим параметры уравнения линейной регрессии
Подставив значения х в уравнения регрессии, рассчитаем прогнозные значения для каждого наблюдения
таким образом, a=55,773; b=0,694
Найдем коэффициент эластичности
2) Оценим значимость уравнения и коэффициентов регрессии на уровне значимости α=0,05
Для этого рассчитаем значение показателя Фишера и сравним его с табличным значением.
Теоретическое значение критерия Фишера FT определяется из соотношения значений факторной (Dфакторная ) и остаточной (Dост ) дисперсий, рассчитанных на одну степень свободы по формуле:
где
где n – число наблюдений, m – число объясняющих переменных. В данном случае n=10, m=1.
Сравнивая значение F-статистики с табличным значением Fкр=5,32 для числа степеней свободы f1=8, f2=1 получаем, что нулевая гипотеза отвергается и полученное уравнение регрессии является статистически значимым.
Доверительные интервалы для коэффициентов регрессии
где t – критерий Стьюдента для заданной вероятности и числе степеней свободы. При уровне значимости α=0,05 (или, что то же самое, доверительной вероятности 95%) и числе степеней свободы n-m-1=8 из таблицы получаем t=2,3
Тогда
3) Рассчитаем среднюю ошибку аппроксимации
Ошибка менее 15%, следовательно, уравнение регрессии достаточно точно описывает исходную последовательность.
4) Выборочный коэффициент корреляции был рассчитан в п.1, он равен r=0,804. По шкале Чеддока это обозначает, что существует сильная связь между зависимой и факторной переменной.
Оценим значимость коэффициента корреляции
По таблице Стьюдента tкрит=2,30<tнабл, следовательно, полученное значение коэффициента корреляции является статистически значимым.
5) Рассчитаем доверительные интервалы для значений .
Занесем рассчитанные значения в таблицу и построим по ним график
X
Y
Yпр
ymin
ymax
94
117
121
101,1
140,9
95
124
121,7
101,8
141,6
101
131
125,9
106
145,8
101
136
125,9
106
145,8
101
119
125,9
106
145,8
108
128
130,7
110,8
150,6
110
125
132,1
112,2
152
117
138
137
117,1
156,9
119
138
138,4
118,5
158,3
125
145
142,5
122,6
162,4
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
6) Определим прогнозное значение признака в случае, если факторный признак равен 1,9 от среднего, т.е.
Тогда
Доверительный интервал рассчитаем по формуле
7) Для построения нелинейных моделей воспользуемся функционалом надстройки «Пакет анализа» программы Microsoft Excel.
Порядок действий следующий:
1) Ввести данные в таблицу Excel ( в виде столбцов Y и X)
2) Для расчета параметров модели и проверки ее адекватности исследуемому процессу выберите команду Анализ данных на ленте Данные. Если такая команда отсутствует, необходимо предварительно активизировать надстройку «Пакет анализа» в настройках Excel.
3) В диалоговом окне Анализ данных выберите инструмент Регрессия, OK.
4) В диалоговом окне данного режима зададим следующие параметры:
Входной интервал Y – вводится ссылка на ячейки, содержащие данные по результативному признаку, включая ячейку название переменной. Диапазон должен состоять из одного столбца.
Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки, включая ячейки названия переменных. Максимальное число входных диапазонов (столбцов) равно 16.
Метки – установленный флажок уведомляет о том, что в первой строке записаны названия переменных.
Уровень надежности – по умолчанию ( 95% ).
Константа-ноль – установленный флажок указывает на отсутствие свободного члена в модели – не устанавливать.
Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона.
Новый рабочий лист – можно задать произвольное имя нового листа.
Чтобы вывести остатки, необходимо установить соответствующий флажок в диалоговом окне.
Щелкните по кнопке OK.
а) степенная модель:
Прологарифмируем обе части уравнения, получим
Производя замены , получим линейную модель
Рассчитаем ее параметры с помощью надстройки «Пакет анализа»:
Таким образом, a’=2,194; b=0,572
Уравнение степенной модели имеет вид
Значение F-критерия Фишера для этой модели равно 13,78, множественный коэффициент корреляции r=0,795, а нормированный коэффициент детерминации R2=0,587
б) показательная модель
Прологарифмируем обе части, получим
Производя замены , получим линейную модель
Рассчитаем ее параметры с помощью надстройки «Пакет анализа»:
Таким образом, a’=4,298; b=0,0053
Уравнение показательной модели имеет вид
Значение F-критерия Фишера для этой модели равно 14,09, множественный коэффициент корреляции r=0,799, а нормированный коэффициент детерминации R2=0,593
заметим, что модель также является показательной и идентична рассмотренной модели с точностью до преобразования постоянного коэффициента , поэтому отдельно рассматривать ее не будем.
в) гиперболическая модель
Производя замену , сведем ее к линейной модели
Рассчитаем ее параметры с помощью надстройки «Пакет анализа»:
Таким образом, а=205,511; b=-8008,15
Уравнение гиперболической модели имеет вид
Значение F-критерия Фишера для этой модели равно 13,78, множественный коэффициент корреляции r=0,795, а нормированный коэффициент детерминации R2=0,586.
Из представленных нелинейных моделей лучшими показателями (критерий Фишера, коэффициент корреляции) имеет показательная модель
Задание 2
По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%)
1. Построить выборочное уравнение линейной множественной регрессии. Привести полученное уравнение к стандартизированному виду, сделать выводы о влиянии факторов на результирующий фактор. Определить коэффициенты эластичности.
2. Проверить статистическую значимость уравнения регрессии с помощью дисперсионного анализа и через коэффициент детерминации.
3. Проверить статистическую значимость параметров уравнения регрессии и для значимых коэффициентов построить доверительные интервалы.
4. Найти среднюю ошибку аппроксимации.
5. Определить парные и частные коэффициенты корреляции, проверить их на значимость. Для значимых коэффициентов построить доверительные интервалы.
6. Рассчитать частные F-критерии Фишера и оценить целесообразность включения в уравнение одного из факторов после другого.
7. Найти прогнозное значение yi, если х1 составляет 0,9 от своего среднего значения, х2 – 1,4 от своего максимального значения, и доверительные интервалы для среднего и индивидуального значения у0.
Решение.
1. Воспользуемся пакетом анализа для определения коэффициентов множественной регрессии.
Таким образом, выборочное уравнение множественной линейной регрессии будет иметь вид
Приведем уравнение к стандартизированному виду
Для перехода от естественной формы модели к стандартизированной воспользуемся следующими формулами
Для расчета среднеквадратичного отклонения воспользуемся модулем «Описательная статистика» пакета анализа. Работа с ним аналогична работе с модулем «Регрессия».
Таким образом, стандартизированное уравнение регрессии будет иметь вид
Коэффициенты эластичности рассчитаем по формуле
Следовательно, при изменении объема ввода основных фондов на 1% выработка продукции изменится на 0,724%, а при изменении доли высококвалифицированных рабочих на 1% — только на 0,0275%.
2. Значение F-статистики Фишера для уравнения множественной регрессии равно 526,49 при табличном значении для степеней свободы k1=2, k2=17, равном 3,59. Следовательно, нулевую гипотезу (о равенстве нулю коэффициентов регрессии) мы отвергаем, т.е. уравнение регрессии статистически значимо.
Нормированный коэффициент детерминации равен 0,982, что означает, что 98,2% изменений результирующего признака объясняется изменениями факторных признаков, и только 1,8% — неучтенными случайными факторами.
3. Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю на уровне значимости α=0,05.
Табличный t-коэффициент критерия Стьюдента
tкрит (n-m-1;α) = (17;0,05) = 2,11
Рассчитанные значения критерия Стьюдента для коэффициентов регрессии приведены в расчетной таблице, графа «t-статистика».
Для коэффициента a расчетное значение ta=10,06 > 2.11, поэтому статистическая значимость коэффициента регрессии а подтверждается.
Для коэффициента b1 tb1=7,33 > 2.11, следовательно, статистическая значимость коэффициента регрессии b1 подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку tb2=0,3 < 2,11, то статистическая значимость коэффициента регрессии b1 не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента).
Определим доверительные интервалы статистически значимых коэффициентов регрессии, которые с надежность 95% будут следующими:
(b1 — tкрит Sb; b1 + tкрит Sb)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a — tкрит Sa; a + tкрит Sa)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
4. Найдем среднюю ошибку аппроксимации по формуле
Ошибка менее 15%, следовательно, уравнение регрессии достаточно точно описывает исходную зависимость.
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.
Теснота связи сильная
Теснота связи низкая.
Рассчитаем значимость коэффициентов корреляции
По таблице Стьюдента tкрит=2,11, следовательно, полученное значение коэффициента корреляции является статистически значимым для всех коэффициентов, кроме частной корреляции rx2y/x1.
Рассчитаем доверительный интервал коэффициента корреляции для всех статистически значимых индексов на уровне значимости p=95%.
0,984<rx1y<1,000
0,932<rx2y<1,000
0,944<rx1x2<0,999
0,752<rx1y/x2<0,991
6. Частные критерии Фишера рассчитываются по формулам
Табличное значение критерия Фишера составляет 3,59. Таким образом, мы заключаем, что включение критерия x1 в модель целесообразно, а x2 – нет, т.к. его влияние на модель незначимо.
7. При заданных значениях
прогнозное значение факторного признака у составит
Доверительный интервал составит
(y-tSy;y+tSy)
где t=2,11 – табличное значение критерия Стьюдента, Sy – выборочное среднеквадратичное отклонение y.
Т.е. доверительный интервал равен
(9,82-2,11∙0,546;9,82+2,11∙0,546)
(8,668;10,972)
В 95% случаев наблюдаемое значение y попадет в данный интервал.
Задание 3
Имеются данные об объемах потребления электроэнергии (yi) жителями региона за 16 кварталов. Требуется:
1. Построить график временного ряда и определить автокорреляционную функцию. Определить составляющие временного ряда.
2. Если ряд содержит сезонную компоненту. то выявить и устранить ее с помощью статистических методов, построив мультипликативную модель временного ряда. Построить модель с помощью фиктивных переменных.
3. Если ряд содержит тенденцию, то построить уравнение тренда. Сделать прогноз на 2 квартала вперед.
t
yt
1
5,3
2
4,7
3
5,2
4
9,1
5
7
6
5
7
6
8
10,1
9
8,2
10
5,5
11
6,5
12
11
13
8,9
14
6,5
15
7,3
16
11,2
Решение.
1. Построим графи временного ряда с помощью программы Microsoft Excel.
Рассчитаем значения автокорреляционной функции, вычислив значения корреляции для каждого сдвига τ по формуле:
где S2 – дисперсия временного ряда, n – число измерений.
Проведем расчеты в таблице
t
yt
для τ=
1
2
3
4
5
6
7
8
1
5,3
-2,044
5,404
4,382
-3,589
0,703
4,791
2,747
-5,633
-1,750
2
4,7
-2,644
5,669
-4,643
0,910
6,198
3,554
-7,287
-2,263
4,876
3
5,2
-2,144
-3,765
0,738
5,026
2,882
-5,909
-1,835
3,954
1,810
4
9,1
1,756
-0,604
-4,116
-2,360
4,840
1,503
-3,238
-1,482
6,420
5
7
-0,344
0,806
0,462
-0,948
-0,294
0,634
0,290
-1,258
-0,535
6
5
-2,344
3,150
-6,460
-2,006
4,322
1,978
-8,570
-3,647
1,978
7
6
-1,344
-3,704
-1,150
2,478
1,134
-4,914
-2,091
1,134
0,059
<
8
10,1
2,756
2,359
-5,082
-2,326
10,076
4,288
-2,326
-0,121
10,627
9
8,2
0,856
-1,578
-0,722
3,130
1,332
-0,722
-0,038
3,301
10
5,5
-1,844
1,556
-6,742
-2,869
1,556
0,081
-7,110
11
6,5
-0,844
-3,086
-1,313
0,712
0,037
-3,254
12
11
3,656
5,689
-3,086
-0,161
14,098
13
8,9
1,556
-1,313
-0,068
6,000
14
6,5
-0,844
0,037
-3,254
15
7,3
-0,044
-0,170
16
11,2
3,856
Сумма
117,5
—
11,451
-29,055
6,995
50,883
7,030
-23,458
0,984
31,485
r(t)
0,175
-0,478
0,125
0,990
0,150
-0,558
0,026
0,963
Оценим значимость коэффициентов корреляции на основе нулевой гипотезы Н0:r(τ)=0. Коэффициент автокорреляции является значимым, если выполняется условие
, где ta – критерий Стьюдента с k=n-τ-1 степенями свободы при уровне значимости а=5%, Sr(τ) – стандартное отклонение коэффициента корреляции в предположении r(τ)=0, т.е. .
τ
1
2
3
4
5
6
7
8
t(0,05;15-τ)
2,15
2,16
2,18
2,2
2,23
2,26
2,31
2,37
Sr(t)
0,267
0,277
0,289
0,302
0,316
0,333
0,354
0,378
tкрит
0,575
0,599
0,629
0,663
0,705
0,753
7
0,896
Построим график АКФ, нанеся на него дополнительно область значимости.
Т.е. автокорреляционная функция значима при значениях лага τ=4 и 8, что говорит о наличии сезонной составляющей с лагом 4 квартала.
2. Построим мультипликативную модель сезонного ряда. В этой модели значение сезонной компоненты не является константой, а представляет собой определённую долю трендового значения. В более упрощённом виде модель фактических значений можно представить следующим образом:
где Ti – трендовое значение переменной, Si – значение сезонной компоненты, Ei – значение нерегулярной компоненты (ошибки модели).
Рассчитаем сезонную компоненту. Для этого необходимо выполнить несколько этапов расчётов.
Определим скользящую среднюю для каждых четырёх кварталов.
Т.к. скользящая средняя для четырёх кварталов является смещённой (т.к. ее момент времени лежит посередине между двумя кварталами), то для соотнесения временного промежутка полученной скользящей средней и фактических значений рассчитаем центрированную скользящую среднюю как среднее значение двух скользящих средних.
Поскольку скользящая средняя за 4 квартала не содержала сезонной компоненты, то центрированная скользящая средняя также её не содержит. Делением значения фактического объёма потребления на значение центрированной скользящей средней получаем коэффициент сезонности.
t
yt
Скользящая средняя
Центрированная скользящая средняя
Оценка St
1
5,3
—
—
—
2
4,7
6,08
—
—
3
5,2
6,5
6,29
0,827
4
9,1
6,58
6,54
1,391
5
7
6,78
6,68
1,048
6
5
7,03
6,91
0,724
7
6
7,33
7,18
0,836
8
10,1
7,45
7,39
1,367
9
8,2
7,58
7,52
1,09
10
5,5
7,8
7,69
0,715
11
6,5
7,98
7,89
0,824
12
11
8,23
8,11
1,356
13
8,9
8,43
8,33
1,068
14
6,5
8,48
8,46
0,768
15
7,3
—
—
—
16
11,2
—
—
—
Далее рассчитаем средние значения сезонной компоненты. Для этого необходимо найти средние значения сезонных оценок для каждого сезона года и скорректировать их, умножив полученные средние сезонные оценки на следующее значение: 4/(нескорректированная сумма средних сезонных оценок), таким образом, чтобы общая их сумма, в данном случае, была равна четырём.
Номер квартала
Год
1
2
3
4
1
0,827
1,391
2
1,048
0,724
0,836
1,367
3
1,09
0,715
0,824
1,356
4
1,068
0,768
Итого
3,206
2,207
2,487
4,114
Сумма
Среднее значение
1,069
0,736
0,829
1,371
4,005
Скорректированная компонента
1,068
0,735
0,828
1,369
4
Десезонализируем данные при расчёте тренда. На этом этапе происходит деление фактических значений объёмов реализации за каждый квартал на соответствующие значения сезонной компоненты, что позволяет убрать из фактических значений сезонную компоненту. Результаты расчётов оформим в следующую таблицу.
t
Объем потребления yt
Сезонная компонента St
Десезонализированное значение
1
5,3
1,068
4,96
2
4,7
0,735
6,39
3
5,2
0,828
6,28
4
9,1
1,369
6,65
5
7
1,068
6,55
6
5
0,735
6,8
7
6
0,828
7,25
8
10,1
1,369
7,38
9
8,2
1,068
7,68
10
5,5
0,735
7,48
11
6,5
0,828
7,85
12
11
1,369
8,04
13
8,9
1,068
8,33
14
6,5
0,735
8,84
15
7,3
0,828
8,82
16
11,2
1,369
8,18
На основании десезонализированных данных можно построить модель основного тренда методом аналитического выравнивания.
t
Y
tY
t*t
1
4,96
4,96
1
2
6,39
12,78
4
3
6,28
18,84
9
4
6,65
26,6
16
5
6,55
32,75
25
6
6,8
40,8
36
7
7,25
50,75
49
8
7,38
59,04
64
9
7,68
69,12
81
10
7,48
74,8
100
11
7,85
86,35
121
12
8,04
96,48
144
13
8,33
108,29
169
14
8,84
123,76
196
15
8,82
132,3
225
16
8,18
130,88
256
Итого
136
117,48
1068,5
1496
Найдем параметры тренда по методу наименьших квадратов
Следовательно, уравнение тренда имеет вид
Т=5,59+0,206t
где t – номер квартала.
Рассчитаем ошибки (остатки) модели и среднее абсолютное отклонение
Отразить значения, полученные в процессе расчёта в следующей таблице.
t
yt
St
Tt
Et=yt/(St∙Tt)
|yt-St∙Tt|:yt
1
5,3
1,068
5,798
0,856
0,168
2
4,7
0,735
6,004
1,065
0,061
3
5,2
0,828
6,21
1,011
0,011
4
9,1
1,369
6,416
1,036
0,035
5
7
1,068
6,622
0,99
0,01
6
5
0,735
6,828
0,996
0,004
7
6
0,828
7,034
1,03
0,029
8
10,1
1,369
7,24
1,019
0,019
9
8,2
1,068
7,446
1,031
0,03
10
5,5
0,735
7,652
0,978
0,023
11
6,5
0,828
7,858
0,999
0,001
12
11
1,369
8,064
0,996
0,004
13
8,9
1,068
8,27
1,008
0,008
14
6,5
0,735
8,476
1,043
0,042
15
7,3
0,828
8,682
1,015
0,015
16
11,2
1,369
8,888
0,92
0,086
15,993
0,546
Найдем среднюю ошибку аппроксимации по формуле
3. Ряд очевидно содержит тенденцию, т.к. описывается мультипликативной сезонной моделью с трендом, причем средняя ошибка аппроксимации составляет 3,4%.
Описываемый ряд имеет форму
где t – номер квартала, St – сезонный мультипликатор (берется из таблицы по номеру квартала)
Сделаем прогноз на 2 квартала вперед.
В 17-м квартале S17=S1=1,068
Прогнозное значение потребления электроэнергии составит
В 18-м квартале S18=S2=0,735
Прогнозное значение потребления электроэнергии
Список литературы
Афанасьев В.Н., Юзбашев М.М. Анализ временных рядов. В кн.: Финансы и статистика: Учебник. — М., 2001.
Доугерти К. Введение в эконометрику. — М.: Инфра-М, 2001. — 402 с.