Построить матрицу парных коэффициентов корреляции. Проверить наличие мультиколлинеарности

💖 Нравится? Поделись с друзьями ссылкой

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х ; оценить статистическую значимость коэффициентов корреляции r (Y , X i); выбрать наиболее информативный фактор.

2. Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

3. Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F – критерия Фишера (принять уровень значимости α=0,05).

4. С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 6). Представить графически фактические и модельные значения Y , результаты прогнозирования.

5. Методом включения построить двухфакторные модели, сохраняя в них наиболее информативный фактор; построить трехфакторную модель с полным перечнем факторов.

6. Выбрать лучшую из построенных множественных моделей. Дать экономическую интерпретацию ее коэффициентов.

7. Проверить значимость коэффициентов множественной регрессии с помощью t –критерия Стьюдента (принять уровень значимости α=0,05). Улучшилось ли качество множественной модели по сравнению с парной?

8. Дать оценку влияния факторов на результат с помощью коэффициентов эластичности, бета– и дельта– коэффициентов.

Задача 2. Моделирование одномерного временного ряда

В Приложении 7 приведены временные ряды Y(t) социально-экономических показателей по Алтайскому краю за период с 2000 г. по 2011 г. Требуется исследовать динамику показателя, соответствующего варианту задания.

Вариант Обозначение, наименование, единица измерения показателя
Y1 Потребительские расходы в среднем на душу населения (в месяц), руб.
Y2 Выбросы загрязняющих веществ в атмосферный воздух, тыс. тонн
Y3 Средние цены на вторичном рынке жилья (на конец года, за квадратный метр общей площади), руб
Y4 Объем платных услуг на душу населения, руб
Y5 Среднегодовая численность занятых в экономике, тыс. человек
Y6 Число собственных легковых автомобилей на 1000 человек населения (на конец года), штук
Y7 Среднедушевые денежные доходы (в месяц), руб
Y8 Индекс потребительских цен (декабрь к декабрю предыдущего года), %
Y9 Инвестиции в основной капитал (в фактически действовавших ценах), млн. руб
Y10 Оборот розничной торговли на душу населения (в фактически действовавших ценах), руб


Порядок выполнения работы

1. Построить линейную модель временного ряда , параметры которой оценить МНК. Пояснить смысл коэффициента регрессии.

2. Оценить адекватность построенной модели, используя свойства случайности, независимости и соответствия остаточной компоненты нормальному закону распределения.

3. Оценить точность модели на основе использования средней относительной ошибки аппроксимации.

4. Осуществить прогнозирование рассматриваемого показателя на год вперед (прогнозный интервал рассчитать при доверительной вероятности 70%).

5. Представить графически фактические значения показателя, результаты моделирования и прогнозирования.

6. Провести расчет параметров логарифмического, полиномиального (полином 2-й степени), степенного, экспоненциального и гиперболического трендов. На основании графического изображения и значения индекса детерминации выбрать наиболее подходящий вид тренда.

7. С помощью лучшей нелинейной модели осуществить точечное прогнозирование рассматриваемого показателя на год вперед. Сопоставить полученный результат с доверительным прогнозным интервалом, построенным при использовании линейной модели.

ПРИМЕР

Выполнения контрольной работы

Задача 1

Фирма занимается реализацией подержанных автомобилей. Наименования показателей и исходные данные для эконометрического моделирования представлены в таблице:

Цена реализации, тыс.у.е. (Y ) Цена нового авт., тыс.у.е. (Х1 ) Срок эксплуатации, годы (Х2 ) Левый руль - 1, правый руль - 0, (Х3 )
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Требуется:

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, X i); выбрать наиболее информативный фактор.

Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):

Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:

У Х1 Х2 Х3
У
Х1 0,910987
Х2 -0,4156 -0,2603
Х3 0,190785 0,221927 -0,30308

Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов X j:

> 0, следовательно, между переменными Y и Х 1 наблюдается прямая корреляционная зависимость: чем выше цена нового автомобиля, тем выше цена реализации.

> 0,7 – эта зависимость является тесной.

< 0, значит, между переменными Y и Х 2 наблюдается

обратная корреляционная зависимость: цена реализации ниже для авто-

мобилей с большим сроком эксплуатации.

– эта зависимость умеренная, ближе к слабой.

> 0, значит, между переменными Y и Х 3 наблюдается прямая корреляционная зависимость: цена реализации выше для автомобилей с левым рулем.

< 0,4 – эта зависимость слабая.

Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.

Для каждого коэффициента корреляции вычислим t -статистику по формуле и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:

У Х1 Х2 Х3 t-статистики
У
Х1 0,910987 7,651524603
Х2 -0,4156 -0,2603 1,582847988
Х3 0,190785 0,221927 -0,30308 0,673265587

По таблице критических точек распределения Стъюдента при уровне значимости и числе степеней свободы определим критическое значение (Приложение 1, или функция СТЬЮДРАСПОБР).Y и сроком эксплуатации Х 2 достоверна.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y и расположением руля Х 3 достоверна.

Таким образом, наиболее тесная и значимая зависимость наблюдается между ценой реализации Y и ценой нового автомобиля Х 1 ; фактор Х 1 является наиболее информативным.

Матрица парных коэффициентов корреляции

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

В узлах матрицы находятся парные коэффициенты корреляции, характеризующие тесноту взаимосвязи между факторными признаками. Анализируя эти коэффициенты, отметим, что чем больше их абсолютная величина, тем большее влияние оказывает соответствующий факторный признак на результативный. Анализ полученной матрицы осуществляется в два этапа:

1. Если в первом столбце матрицы есть коэффициенты корреляции, для которых /r / < 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.

2. Анализируя парные коэффициенты корреляции факторных признаков друг с другом, (r XiXj), характеризующие тесноту их взаимосвязи, необходимо оценить их независимость друг от друга, поскольку это необходимое условие для дальнейшего проведения регрессионного анализа. В виду того, что в экономике абсолютно независимых признаков нет, необходимо выделить, по возможности, максимально независимые. Факторные признаки, находящиеся в тесной корреляционной зависимости друг с другом, называются мультиколлинеарными. Включение в модель мультиколлинеарных признаков делает невозможным экономическую интерпретацию регрессионной модели, так как изменение одного фактора влечет за собой изменение факторов с ним связанных, что может привести к «поломке» модели в целом.

Критерий мультиколлениарности факторов выглядит следующим образом:

/r XiXj / > 0,8

В полученной матрице парных коэффициентов корреляции этому критерию отвечают два показателя, находящиеся на пересечении строк и . Из каждой пары этих признаков в модели необходимо оставить один, он должен оказывать большее влияние на результативный признак. В итоге из модели исключаются факторы и , т.е. коэффициент роста себестоимости реализованной продукции и коэффициент роста объёма её реализации.

Итак, в регрессионную модель вводим факторы Х1 и Х2.

Далее осуществляется регрессионный анализ (сервис, анализ данных, регрессия). Вновь составляет таблица исходных данных с факторами Х1 и Х2. Регрессия в целом используется для анализа воздействия на отдельную зависимую переменную значений независимых переменных (факторов) и позволяет корреляционную связь между признаками представить в виде некоторой функциональной зависимости называемой уравнением регрессии или корреляционно-регрессионной моделью.

В результате регрессионного анализа получаем результаты расчета многомерной регрессии. Проанализируем полученные результаты.

Все коэффициенты регрессии значимы по критерию Стьюдента. Коэффициент множественной корреляции R составил 0,925, квадрат этой величины (коэффициент детерминации) означает, что вариация результативного признака в среднем на 85,5% объясняется за счет вариации факторных признаков, включенных в модель. Коэффициент детерминированности характеризует тесноту взаимосвязи между совокупностью факторных признаков и результативным показателем. Чем ближе значение R-квадрат к 1, тем теснее взаимосвязь. В нашем случае показатель, равный 0,855, указывает на правильный подбор факторов и на наличие взаимосвязи факторов с результативным показателем.

Рассматриваемая модель адекватна, поскольку расчетное значение F-критерия Фишера существенно превышает его табличное значение (F набл =52,401; F табл =1,53).

В качестве общего результата проведенного корреляционно-регрессионного анализа выступает множественное уравнение регрессии, которое имеет вид:

Полученное уравнение регрессии отвечает цели корреляционно-регрессионного анализа и является линейной моделью зависимости балансовой прибыли предприятия от двух факторов: коэффициента роста производительности труда и коэффициента имущества производственного назначения.

На основании полученной модели можно сделать вывод о том, что при увеличении уровня производительности труда на 1% к уровню предыдущего периода величина балансовой прибыли возрастет на 0,95 п.п.; увеличение же коэффициента имущества производственного назначения на 1% приведет к росту результативного показателя на 27,9 п.п. Слелдовательно, доминирующее влияние на рост балансовой прибыли оказывает увеличение стоимости имущества производственного назначения (обновление и рост основных средств предприятия).

По множественной регрессионной модели выполняется многофакторный прогноз результативного признака. Пусть известно, что Х1 = 3,0, а Х3 = 0,7. Подставим значения факторных признаков в модель, получим Упр = 0,95*3,0 + 27,9*0,7 – 19,4 = 2,98. Таким образом, при увеличении производительности труда и модернизации основных средств на предприятии балансовая прибыль в 1 квартале 2005 г. по отношению к предыдущему периоду (IV квартал 2004 г.) возрастет на 2,98%.

Коллинеарными являются факторы …

Решение:

Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . В нашей модели только коэффициент парной линейной регрессии между факторами и больше 0,7. , значит, факторы и коллинеарны.

4. В модели множественной регрессии определитель матрицы парных коэффициентов корреляции между факторами , и близок к нулю. Это означает, что факторы , и …

мультиколлинеарны

независимы

количественно измеримы

Решение:

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Если факторы не коррелированы между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной. Поскольку все недиагональные элементы были бы равны нулю.
, поскольку = = и = = =0.
Если между факторами существует полная линейная зависимость и все коэффициенты парной корреляции равны единице, то определитель такой матрицы равен нулю.


Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

5. Для эконометрической модели линейного уравнения множественной регрессии вида построена матрица парных коэффициентов линейной корреляции (y – зависимая переменная; х (1) , х (2) , х (3) , x (4) – независимые переменные):


Коллинеарными (тесно связанными) независимыми (объясняющими) переменными не являются

x (2) и x (3)

x (1) и x (3)

x (1) и x (4)

x (2) и x (4)

Решение:

При построении модели множественной регрессии необходимо исключить возможность существования тесной линейной зависимости между независимыми (объясняющими) переменными, которая ведет к проблеме мультиколлинеарности. При этом осуществляют проверку коэффициентов линейной корреляции для каждой пары независимых (объясняющих) переменных. Эти значения отражены в матрице парных коэффициентов линейной корреляции. Считается, что наличие значений коэффициентов парной корреляции между объясняющими переменными, превышающих по абсолютной величине 0,7, отражает тесную связь между этими переменными (теснота связи с переменной y в данном случае не рассматривается). Такие независимые переменные называются коллинеарными. Если значение коэффициента парной корреляции между объясняющими переменными не превышает по абсолютной величине 0,7, то такие объясняющие переменные не являются коллинеарными. Рассмотрим значения парных коэффициентов межфакторной корреляции: между x (1) и x (2) значение равно 0,45; между x (1) и x (3) – равно 0,82; между x (1) и x (4) – равно 0,94; между x (2) и x (3) – равно 0,3; между x (2) и x (4) – равно 0,7; между x (3) и x (4) – равно 0,12. Таким образом, не превышают 0,7 значения , , . Следовательно, коллинеарными не являются факторы x (1) и x (2) , x (2) и x (3) , x (3) и x (4) . Из последних перечисленных пар в вариантах ответов присутствует пара x (2) и x (3) – это верный вариант ответа. Для остальных пар: x (1 и x (3) , x (1) и x (4) , x (2) и x (4) – значения парных коэффициентов межфакторной корреляции превышают 0,7, и эти факторы являются коллинеарными.

Тема 3: Фиктивные переменные

1. Дана таблица исходных данных для построения эконометрической регрессионной модели:

Фиктивными переменными не являются

стаж работы

производительность труда

уровень образования

уровень квалификации работника

Решение:

При построении регрессионной модели может возникнуть ситуация, когда необходимо включить в уравнение помимо количественных переменных переменные, отражающие некоторые атрибутивные признаки (пол, образование, регион и т.п.). Такого рода качественные переменные называются «фиктивными» (dummy) переменными. Для построения указанной в постановке задания модели используются фиктивные переменные: уровень образования и уровень квалификации работника. Остальные переменные не являются фиктивными, из предложенных вариантов это стаж работы и производительность труда.

2. При исследовании зависимости потребления мяса от уровня дохода и пола потребителя можно рекомендовать …

использовать фиктивную переменную – пол потребителя

разделить совокупность на две: для потребителей женского пола и для потребителей мужского пола

использовать фиктивную переменную – уровень дохода

исключить из рассмотрения пол потребителя, так как данный фактор нельзя измерить количественным образом

Решение:

При построении регрессионной модели может возникнуть ситуация, когда необходимо включить в уравнение помимо количественных переменных переменные, отражающие некоторые атрибутивные признаки (пол, образование, регион и т.п.). Такого рода качественные переменные называются «фиктивными» (dummy) переменными. Они отражают неоднородность исследуемой статистической совокупности и используются для более качественного моделирования зависимостей в таких неоднородных объектах наблюдения. При моделировании отдельных зависимостей по неоднородным данным можно также воспользоваться способом разделения всей совокупности неоднородных данных на несколько отдельных совокупностей, количество которых равно количеству состояний dummy-переменной. Таким образом правильными вариантами ответов являются: «использовать фиктивную переменную – пол потребителя» и «разделить совокупность на две: для потребителей женского пола и для потребителей мужского пола».

3. Изучается зависимость цены квартиры (у ) от ее жилой площади (х ) и типа дома. В модель включены фиктивные переменные, отражающие рассматриваемые типы домов: монолитный, панельный, кирпичный. Получено уравнение регрессии: ,
где ,
Частными уравнениями регрессии для кирпичного и монолитного являются …

для типа дома кирпичный

для типа дома монолитный

для типа дома кирпичный

для типа дома монолитный

Решение:

Требуется узнать частное уравнение регрессии для кирпичного и монолитного домов. Для кирпичного дома значения фиктивных переменных следующие , . Уравнение примет вид: или для типа дома кирпичный.
Для монолитного дома значения фиктивных переменных следующие , . Уравнение примет вид
или для типа дома монолитный.

y x (1) x (2) x (3) x (4) x (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
x (1) 0.43 1.00 0.85 0.98 0.11 0.34
x (2) 0.37 0.85 1.00 0.88 0.03 0.46
x (3) 0.40 0.98 0.88 1.00 0.03 0.28
x (4) 0.58 0.11 0.03 0.03 1.00 0.57
x (5) 0.33 0.34 0.46 0.28 0.57 1.00

Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем x (4) - количество удобрений, расходуемых на 1 га ().

В то же время связь между признаками-аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x (1)) и числом орудий поверхностной обработки почвы .

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции и . Учитывая тесную взаимосвязь показателей x (1) , x (2) и x (3) , в регрессионную модель урожайности может войти лишь один из них.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели:

F набл = 121.

В скобках указаны значения исправленных оценок среднеквадратических отклонений оценок коэффициентов уравнения .

Под уравнением регрессии представлены следующие его параметры адекватности: множественный коэффициент детерминации ; исправленная оценка остаточной дисперсии , средняя относительная ошибка аппроксимации и расчетное значение -критерия F набл = 121.

Уравнение регрессии значимо, т.к. F набл = 121 > F kp = 2,85 найденного по таблице F -распределения при a=0,05; n 1 =6 и n 2 =14.

Из этого следует, что Q¹0, т.е. и хотя бы один из коэффициентов уравнения q j (j = 0, 1, 2, ..., 5) не равен нулю.

Для проверки гипотезы о значимости отдельных коэффициентов регрессии H0: q j =0, где j =1,2,3,4,5, сравнивают критическое значение t kp = 2,14, найденное по таблице t -распределения при уровне значимости a=2Q =0,05 и числе степеней свободы n=14, с расчетным значением . Из уравнения следует, что статистически значимым является коэффициент регрессии только при x (4) , так как ½t 4 ½=2,90 > t kp =2,14.



Не поддаются экономической интерпретации отрицательные знаки коэффициентов регрессии при x (1) и x (5) . Из отрицательных значений коэффициентов следует, что повышение насыщенности сельского хозяйства колесными тракторами (x (1)) и средствами оздоровления растений (x (5)) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

Для получения уравнения регрессии со значимыми коэффициентами используем пошаговый алгоритм регрессионного анализа. Первоначально используем пошаговый алгоритм с исключением переменных.

Исключим из модели переменную x (1) , которой соответствует минимальное по абсолютной величине значение ½t 1 ½=0,01. Для оставшихся переменных вновь построим уравнение регрессии:

Полученное уравнение значимо, т.к. F набл = 155 > F kp = 2,90, найденного при уровне значимости a=0,05 и числах степеней свободы n 1 =5 и n 2 =15 по таблице F -распределения, т.е. вектор q¹0. Однако в уравнении значим только коэффициент регрессии при x (4) . Расчетные значения ½t j ½ для остальных коэффициентов меньше t кр = 2,131, найденного по таблице t -распределения при a=2Q =0,05 и n=15.

Исключив из модели переменную x (3) , которой соответствует минимальное значение t 3 =0,35 и получим уравнение регрессии:

(2.9)

В полученном уравнении статистически не значим и экономически не интерпретируем коэффициент при x (5) . Исключив x (5) получим уравнение регрессии:

(2.10)

Мы получили значимое уравнение регрессии со значимыми и интерпретируемыми коэффициентами.

Однако полученное уравнение является не единственно “хорошей” и не “самой лучшей” моделью урожайности в нашем примере.

Покажем, что в условии мультиколлинеарности пошаговый алгоритм с включением переменных является более эффективным. На первом шаге в модель урожайности y входит переменная x (4) , имеющая самый высокий коэффициент корреляции с y , объясняемой переменной -r (y , x (4))=0,58. На втором шаге, включая уравнение наряду с x (4) переменные x (1) или x (3) , мы получим модели, которые по экономическим соображениям и статистическим характеристикам превосходят (2.10):

(2.11)

(2.12)

Включение в уравнение любой из трех оставшихся переменных ухудшает его свойства. Смотри, например, уравнение (2.9).

Таким образом, мы имеем три “хороших” модели урожайности, из которых нужно выбрать по экономическим и статистическим соображениям одну.

По статистическим критериям наиболее адекватна модель (2.11). Ей соответствуют минимальные значения остаточной дисперсии =2,26 и средней относительной ошибки аппроксимации и наибольшие значения и F набл = 273.

Несколько худшие показатели адекватности имеет модель (2.12), а затем - модель (2.10).

Будем теперь выбирать наилучшую из моделей (2.11) и (2.12). Эти модели отличаются друг от друга переменными x (1) и x (3) . Однако в моделях урожайностей переменная x (1) (число колесных тракторов на 100 га) более предпочтительна, чем переменная x (3) (число орудий поверхностной обработки почвы на 100 га), которая является в некоторой степени вторичной (или производной от x (1)).

В этой связи из экономических соображений предпочтение следует отдать модели (2.12). Таким образом, после реализации алгоритма пошагового регрессионного анализа с включением переменных и учета того, что в уравнение должна войти только одна из трех связанных переменных (x (1) , x (2) или x (3)) выбираем окончательное уравнение регрессии:

Уравнение значимо при a=0,05, т.к. F набл = 266 > F kp = 3,20, найденного по таблице F -распределения при a=Q =0,05; n 1 =3 и n 2 =17. Значимы и все коэффициенты регрессии и в уравнении ½t j ½>t kp (a=2Q =0,05; n=17)=2,11. Коэффициент регрессии q 1 следует признать значимым (q 1 ¹0) из экономических соображений, при этом t 1 =2,09 лишь незначительно меньше t kp = 2,11.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни (при фиксированном значении x (4)) приводит к росту урожайности зерновых в среднем на 0,345 ц/га.

Приближенный расчет коэффициентов эластичности э 1 »0,068 и э 2 »0,161 показывает, что при увеличении показателей x (1) и x (4) на 1% урожайность зерновых повышается в среднем соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедшими в модель показателями (x (1) и x (4)), то есть насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (x (2) , x (3) , x (5) , погодные условия и др.). Средняя относительная ошибка аппроксимации характеризует адекватность модели, так же как и величина остаточной дисперсии . При интерпретации уравнения регрессии интерес представляют значения относительных ошибок аппроксимации . Напомним, что - модельное значение результативного показателя, характеризует среднее для совокупности рассматриваемых районов значение урожайности при условии, что значения объясняющих переменных x (1) и x (4) зафиксированы на одном и том же уровне, а именно x (1) = x i (1) и x (4) = x i (4) . Тогда по значениям d i можно сопоставлять районы по урожайности. Районы, которым соответствуют значения d i >0, имеют урожайность выше среднего, а d i <0 - ниже среднего.

В нашем примере, по урожайности наиболее эффективно растениеводство ведется в районе, которому соответствует d 7 =28%, где урожайность на 28% выше средней по региону, и наименее эффективно - в районе с d 20 =-27,3%.


Задачи и упражнения

2.1. Из генеральной совокупности (y , x (1) , ..., x (p)), где y имеет нормальный закон распределения с условным математическим ожиданием и дисперсией s 2 , взята случайная выборка объемом n , и пусть (y i , x i (1) , ..., x i (p)) - результат i -го наблюдения (i =1, 2, ..., n ). Определить: а) математическое ожидание МНК-оценки вектора q ; б) ковариационную матрицу МНК-оценки вектора q ; в) математическое ожидание оценки .

2.2. По условию задачи 2.1 найти математическое ожидание суммы квадратов отклонений, обусловленных регрессией, т.е. EQ R , где

.

2.3. По условию задачи 2.1 определить математическое ожидание суммы квадратов отклонений, обусловленных остаточной вариацией относительно линий регрессии, т.е. EQ ост, где

2.4. Доказать, что при выполнении гипотезы Н 0: q=0 статистика

имеет F-распределение с числами степеней свободы n 1 =p+1 и n 2 =n-p-1.

2.5. Доказать, что при выполнении гипотезы Н 0: q j =0 статистика имеет t-распределение с числом степеней свободы n=n-p-1.

2.6. На основании данных (табл.2.3) о зависимости усушки кормового хлеба (y ) от продолжительности хранения (x ) найти точечную оценку условного математического ожидания в предположении, что генеральное уравнение регрессии - линейное.

Таблица 2.3.

Требуется: а) найти оценки и остаточной дисперсии s 2 в предположении, что генеральное уравнение регрессии имеет вид ; б) проверить при a=0,05 значимость уравнения регрессии, т.е. гипотезу Н 0: q=0; в) с надежностью g=0,9 определить интервальные оценки параметров q 0 , q 1 ; г) с надежностью g=0,95 определить интервальную оценку условного математического ожидания при х 0 =6; д) определить при g=0,95 доверительный интервал предсказания в точке х =12.

2.7. На основании данных о динамике темпов прироста курса акций за 5 месяцев, приведенных в табл. 2.4.

Таблица 2.4.

месяцы (x )
y (%)

и предположения, что генеральное уравнение регрессии имеет вид , требуется: а) определить оценки и параметров уравнения регрессии и остаточной дисперсии s 2 ; б) проверить при a=0,01 значимость коэффициента регрессии, т.е. гипотезы H 0: q 1 =0;

в) с надежностью g=0,95 найти интервальные оценки параметров q 0 и q 1 ; г) с надежностью g=0,9 установить интервальную оценку условного математического ожидания при x 0 =4; д) определить при g=0,9 доверительный интервал предсказания в точке x =5.

2.8. Результаты исследования динамики привеса молодняка приведены в табл.2.5.

Таблица 2.5.

Предполагая, что генеральное уравнение регрессии - линейное, требуется: а) определить оценки и параметров уравнения регрессии и остаточной дисперсии s 2 ; б) проверить при a=0,05 значимость уравнения регрессии, т.е. гипотезы H 0: q=0;

в) с надежностью g=0,8 найти интервальные оценки параметров q 0 и q 1 ; г) с надежностью g=0,98 определить и сравнить интервальные оценки условного математического ожидания при x 0 =3 и x 1 =6;

д) определить при g=0,98 доверительный интервал предсказания в точке x =8.

2.9. Себестоимость (y ) одного экземпляра книги в зависимости от тиража (x ) (тыс.экз.) характеризуется данными, собранными издательством (табл.2.6). Определить МНК-оценки и параметров уравнения регрессии гиперболического вида , с надежностью g=0,9 построить доверительные интервалы для параметров q 0 и q 1 , а также условного математического ожидания при x =10.

Таблица 2.6.

Определить оценки и параметров уравнения регрессии вида , проверить при a=0,05 гипотезу Н 0: q 1 =0 и построить с надежностью g=0,9 доверительные интервалы для параметров q 0 и q 1 и условного математического ожидания при x =20.

2.11. В табл. 2.8 представленные данные о темпах прироста (%) следующих макроэкономических показателей n =10 развитых стран мира за 1992г.: ВНП - x (1) , промышленного производства - x (2) , индекса цен - x (3) .

Таблица 2.8.

Страны x и параметров уравнения регрессии, оценку остаточной дисперсии; б) проверить при a=0,05 значимость коэффициента регрессии, т.е. Н 0: q 1 =0; в) с надежностью g=0,9 найти интервальные оценки q 0 и q 1 ; г) найти при g=0,95 доверительный интервал для в точке х 0 =х i , где i =5; д) сравнить статистические характеристики уравнений регрессий: 1, 2 и 3.

2.12. Задачу 2.11 решить, приняв за объясняемую величину (у ) показатель x (1) , а за объясняющую (х ) переменную x (3) .

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник. М., ЮНИТИ, 1998 (2-е издание 2001);

2. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях: Учебник. М. ЮНИТИ – ДАНА, 2001;

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М., Финансы и статистика, 1985, 487с.;

4. Айвазян С.А., Бухштабер В. М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерностей. М., Финансы и статисика, 1989, 607с.;

5. Джонстон Дж. Эконометрические методы, М.: Статистика, 1980, 446с.;

6. Дубров А.В., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М., Финансы и статистика, 2000;

7. Мхитарян В.С., Трошин Л.И. Исследование зависимостей методами корреляции и регрессии. М., МЭСИ, 1995, 120с.;

8. Мхитарян В.С., Дубров А.М., Трошин Л.И. Многомерные статистические методы в экономике. М., МЭСИ, 1995, 149с.;

9. Дубров А.М., Мхитарян В.С., Трошин Л.И. Математическая статистика для бизнесменов и менеджеров. М., МЭСИ, 2000, 140с.;

10. Лукашин Ю.И. Регрессионные и адаптивные методы прогнозирования: Учебное пособие, М., МЭСИ, 1997.

11. Лукашин Ю.И. Адаптивные методы краткосрочного прогнозирования. ‑ М., Статистика, 1979.


ПРИЛОЖЕНИЯ


Приложение 1 . Варианты заданий для самостоятельных компьютерных исследований.

Контрольная работа №2

Вариант№5

Задание1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель………………………..…..3

1.1 Построение корреляционного поля ………………………………………4

1.2 Построение матрицы коэффициентов парной корреляции……………6

1.3 Построение и анализ однофакторных регрессионных моделей линейного и экспонентного вида средствами встроенных функций ТП MS Excel…………………………………………………………………………...6

1.4 Построение линейной однофакторной регрессионной модели……….10

1.5 Выводы………………………………………………………………………15

Задание 2. Используя компьютерные технологии, решить задачи линейного программирования……………………………………………….18

а) Задача оптимального планирования производства……………….19

1. Математическую постановку задачи……………………………………..19

2. Размещение на рабочем листе ТП MS Excel исходных данных, расчёт значений ограничений, расчёт значений целевой функции……………...19

3. Формулировка математической модели задачи в терминах ячеек рабочего листа ТП MS Excel…………………………………………………..20

4. Поиск оптимального решения поставленной задачи средствами надстройки «Поиск решения»………………………………………………..20

5. Анализ результатов………………………………………………………….21

б) Задача оптимизации плана перевозок (транспортная задача)…23

1. Математическую постановку задачи……………………………………..23

2. Размещение данных на рабочем листе ТП MS Excel …………………...24

3. Постановка задачи в терминах рабочего листа Excel для использования утилиты «Поиск решения»….…………………………25

4. Анализ результатов………………………………………………………….26

Список использованной литературы………………………………………..28

Задание 1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель.

В качестве инструментария исследования использовать:



Инструменты надстройки Пакет Анализа ТП MS Excel;

Встроенные функции библиотеки Stats (Statistics) CKM Maple.

Условия задания 1:

По выборочным данным исследовать влияние факторов X1, X2 и Х3 на результативный признак Y.

Построить корреляционное поле и сделать предположение о наличии и типе связи между исследуемыми факторами;

Оценив тесноту связи между исследуемыми факторами, построить многофакторную (однофакторную) линейную регрессионную модель вида Y=f(X1,X2 Х3)или вида Y=f(X).

Оценить:

Адекватность уравнения регрессии по значению коэффициента детерминированности R 2 ;

Значимость коэффициентов уравнения регрессии по t- критерию Стьюдента при заданном уровне доверительной вероятности р=0,05;

Степень случайности связи между каждым факторам Х и признаком Y (критерий Фишера);

Зависимость между показателями Х 1 , Х 2 , Х 3 основных фондов и объемом валовой продукции У предприятия одной из отраслей промышленности характеризуется следующими данными:

Вариант 5

X 1 1.5 2.6 3.5 4.8 5.9 6.3 7.2 8.9 9.5 11.1 15.0
X 2 10.2 15.3 18.4 20.5 24.7 25.6 27.3 28.3 29.6 30.1 31.0
X 3 1.1 2.3 3.5 4.1 5.7 6.6 7.3 8.5 9.8 10.1 12.0
Y

Решение задания 1.

Решение задания 1 предполагает.

1. Построение корреляционного поля.

2. Построение матрицы коэффициентов парной корреляции.

3. Построение и анализ однофакторных регрессионных моделей линейного и экспонентного вида средствами встроенных функций ТП MS Excel.

4. Построение линейных однофакторных регрессионных моделей средствами надстройки «Пакет анализа».

5. Выводы.

Построение корреляционного поля.

Разместим таблицу с исходными данными в ячейках A3:D15 рабочего листа Excel.

Приложение1.1
Y X1 X2 X3
1,5 10,2 1,1
2,6 15,3 2,3
3,5 18,4 3,5
4,8 20,5 4,1
5,9 24,7 5,7
6,3 25,6 6,6
7,2 27,3 7,3
8,9 28,3 8,5
9,5 29,6 9,8
11,1 30,1 10,1
?

Используя возможности мастера диаграмм ТП MS Excel, построим корреляционное поле, то есть представим графически связь между результирующим признаком Y и каждым из факторов X. Из графиков видно, что между результирующим признаком Y и каждым из факторов X существует прямо пропорциональная зависимость, приближающаяся к линейной.

.

.

Исследуем тесноту и характер связи между факторами.

Построение матрицы коэффициентов парной корреляции.

Используя надстройку «Пакет анализа» ТП MS Excel (Сервис – Анализ данных – Корреляция), построим матрицу коэффициентов парной корреляции. Окно инструмента «Корреляция» представлено на рисунке 1. Матрица коэффициентов парной корреляции представлена на рисунке 2.

Рис.1. –Окно «Корреляция»

Рис.2. – Матрица коэффициентов парной корреляции.

Из этой матрицы видно, что все рассматриваемые факторы X1 – X3 имеют тесную связь с результативным признаком Y. Кроме того, все факторы Х между собой мультиколлинеарны. Поэтому построение многофакторной модели вида Y=f(Х1,Х2,Х3) невозможно.



Рассказать друзьям