Регрессия в Excel: уравнение, примеры. Линейная регрессия

💖 Нравится? Поделись с друзьями ссылкой

Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значения одной переменной, ее можно принять за зависимую переменную, «в среднем» изменяются в зависимости от того, какие значения принимает другая переменная, рассматриваемая как причина по отношению к зависимой переменной. Действие данной причины осуществляется в условиях сложного взаимодействия различных факторов, вследствие чего проявление закономерности затемняется влиянием случайностей. Вычисляя средние значения результативного признака для данной группы значений признака-фактора, отчасти элиминируется влияние случайностей. Вычисляя параметры теоретической линии связи, производится дальнейшее их элиминирование и получается однозначное (по форме) изменение «y» с изменением фактора «x».

Для исследования стохастических связей широко используется метод сопоставления двух параллельных рядов, метод аналитических группировок, корреляционный анализ, регрессионный анализ и некоторые непараметрические методы. В общем виде задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы связи, но и в определении формы (аналитического выражения) влияния факторных признаков на результативный. Для ее решения применяют методы корреляционного и регрессионного анализа.

ГЛАВА 1. УРАВНЕНИЕ РЕГРЕССИИ: ТЕОРЕТИЧЕСКИЕ ОСНОВЫ

1.1. Уравнение регрессии: сущность и типы функций

Регрессия (лат. regressio- обратное движение, переход от более сложных форм развития к менее сложным) - одно из основных понятий в теории вероятности и математической статистике, выражающее зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. Это понятие введено Фрэнсисом Гальтоном в 1886.

Теоретическая линия регрессии - это та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.

Теоретическая линия регрессии должна отображать изменение средних величин результативного признака «y» по мере изменения величин факторного признака «x» при условии полного взаимопогашения всех прочих – случайных по отношению к фактору «x» - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была ба минимальной величиной.

y=f(x) - уравнение регрессии - это формула статистической связи между переменными.

Прямая линия на плоскости (в пространстве двух измерений) задается уравнением y=a+b*х. Более подробно: переменная y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную x. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом.

Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием должен служить содержательный анализ природы изучаемой зависимости, ее механизма. Вместе с тем теоретически обосновать форму связи каждого из факторов с результативным показателем можно далеко не всегда, поскольку исследуемые социально-экономические явления очень сложны и факторы, формирующие их уровень, тесно переплетаются и взаимодействуют друг с другом. Поэтому на основе теоретического анализа нередко могут быть сделаны самые общие выводы относительно направления связи, возможности его изменения в исследуемой совокупности, правомерности использования линейной зависимости, возможного наличия экстремальных значений и т.п. Необходимым дополнением такого рода предположений должен быть анализ конкретных фактических данных.

Приблизительно представление о линии связи можно получить на основе эмпирической линии регрессии. Эмпирическая линия регрессии обычно является ломанной линией, имеет более или менее значительный излом. Объясняется это тем, что влияние прочих неучтенных факторов, оказывающих воздействие на вариацию результативного признака, в средних погашается неполностью, в силу недостаточно большого количества наблюдений, поэтому эмпирической линией связи для выбора и обоснования типа теоретической кривой можно воспользоваться при условии, что число наблюдений будет достаточно велико.

Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей Наиболее часто для характеристики связей экономических показателей используют следующие типы функций:

1. Линейная:

2. Гиперболическая:

3. Показательная:

4. Параболическая:

5. Степенная:

6. Логарифмическая:

7. Логистическая:

Модель с одной объясняющей и одной объясняемой переменными – модель парной регрессии. Если объясняющих (факторных) переменных используется две или более, то говорят об использовании модели множественной регрессии. При этом, в качестве вариантов могут быть выбраны линейная, экспоненциальная, гиперболическая, показательная и другие виды функций, связывающие эти переменные.

Для нахождения параметров а и b уравнения регрессии используют метод наименьших квадратов. При применении метода наименьших квадратов для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумка квадратов отклонений эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.

Критерий метода наименьших квадратов можно записать таким образом:

Следовательно, применение метода наименьших квадратов для определения параметров a и b прямой, наиболее соответствующей эмпирическим данным, сводится к задаче на экстремум.

Относительно оценок можно сделать следующие выводы:

1. Оценки метода наименьших квадратов являются функциями выборки, что позволяет их легко рассчитывать.

2. Оценки метода наименьших квадратов являются точечными оценками теоретических коэффициентов регрессии.

3. Эмпирическая прямая регрессии обязательно проходит через точку x, y.

4. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений

.

Графическое изображение эмпирической и теоретической линии связи представлено на рисунке 1.


Параметр b в уравнении – это коэффициент регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный. Коэффициент регрессии показывает на сколько в среднем изменяется величина результативного признака «y» при изменении факторного признака «x» на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси «x» (для уравнения

).

Раздел многомерного статистического анализа, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин «линейный регрессионный анализ» используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания

неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится. Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома). Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

Вычисление коэффициентов уравнения регрессии

Систему уравнений (7.8) на основе имеющихся ЭД однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации ЭД. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

· значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

· математическое ожидание ошибки ε должно быть равно нулю (постоянная составляющая входит в коэффициент a 0 ), иначе говоря, ошибка является центрированной величиной;

· выборочная оценка дисперсии ошибки должна быть минимальна.

Рассмотрим применение МНК применительно к линейной регрессии стандартизованных величин. Для центрированных величин u j коэффициент a 0 равен нулю, тогда уравнения линейной регрессии

. (7.9)

Здесь введен специальный знак "^", обозначающий значения показателя, рассчитанные по уравнению регрессии, в отличие от значений, полученных по результатам наблюдений.

По МНК определяются такие значения коэффициентов уравнения регрессии, которые обеспечивают безусловный минимум выражению

Минимум находится приравниванием нулю всех частных производных выражения (7.10), взятых по неизвестным коэффициентам, и решением системы уравнений

(7.11)

Последовательно проведя преобразования и используя введенные ранее оценки коэффициентов корреляции

. (7.12)

Итак, получено т –1 линейных уравнений, что позволяет однозначно вычислить значения a 2 , a 3 , …, a т .

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Когда имеется только один параметр, уравнение линейной регрессии примет вид

Коэффициент a 2 находится из уравнения

Тогда, учитывая, что r 2,2 = 1, искомый коэффициент

a 2 = r y ,2 . (7.13)

Соотношение (7.13) подтверждает ранее высказанное утверждение, что коэффициент корреляции является мерой линейной связи двух стандартизованных параметров.

Подставив найденное значение коэффициента a 2 в выражение для w , с учетом свойств центрированных и нормированных величин, получим минимальное значение этой функции, равное 1– r 2 y ,2 . Величину 1– r 2 y,2 называют остаточной дисперсией случайной величины y относительно случайной величины u 2 . Она характеризует ошибку, которая получается при замене показателя функцией от параметра υ= a 2 u 2 . Только при |r y,2 | = 1 остаточная дисперсия равна нулю, и, следовательно, не возникает ошибки при аппроксимации показателя линейной функцией.

Переходя от центрированных и нормированных значений показателя и параметра

можно получить для исходных величин

Это уравнение также линейно относительно коэффициента корреляции. Нетрудно заметить, что центрирование и нормирование для линейной регрессии позволяет понизить на единицу размерность системы уравнений, т.е. упростить решение задачи определения коэффициентов, а самим коэффициентам придать ясный смысл.

Применение МНК для нелинейных функций практически ничем не отличается от рассмотренной схемы (только коэффициент a0 в исходном уравнении не равен нулю).

Например, пусть необходимо определить коэффициенты параболической регрессии

Выборочная дисперсия ошибки

На ее основе можно получить следующую систему уравнений

После преобразований система уравнений примет вид

Учитывая свойства моментов стандартизованных величин, запишем

Определение коэффициентов нелинейной регрессии основано на решении системы линейных уравнений. Для этого можно применять универсальные пакеты численных методов или специализированные пакеты обработки статистических данных.

С ростом степени уравнения регрессии возрастает и степень моментов распределения параметров, используемых для определения коэффициентов. Так, для определения коэффициентов уравнения регрессии второй степени используются моменты распределения параметров до четвертой степени включительно. Известно, что точность и достоверность оценки моментов по ограниченной выборке ЭД резко снижается с ростом их порядка. Применение в уравнениях регрессии полиномов степени выше второй нецелесообразно.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии (выбрать другую степень полинома или вообще другой тип уравнения) и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов – изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся ЭД, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.



Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл. Нельзя подставлять в уравнение регрессии такие значения факторов, которые значительно отличаются от представленных в ЭД. Рекомендуется не выходить за пределы одной трети размаха вариации параметра как за максимальное, так и за минимальное значения фактора.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии. Средняя ошибка прогноза показателя y для фактора х составит

где – средняя ошибка положения линии регрессии в генеральной совокупности при x = x k ;

– оценка дисперсии отклонения показателя от линии регрессии в генеральной совокупности;

x k – ожидаемое значение фактора.

Доверительные границы прогноза, например, для уравнения регрессии (7.14), определяются выражением

Отрицательная величина свободного члена а 0 в уравнении регрессии для исходных переменных означает, что область существования показателя не включает нулевых значений параметров. Если же а 0 > 0 , то область существования показателя включает нулевые значения параметров, а сам коэффициент характеризует среднее значение показателя при отсутствии воздействий параметров.

Задача 7.2. Построить уравнение регрессии для пропускной способности канала по выборке, заданной в табл. 7.1.

Решение. Применительно к указанной выборке построение аналитической зависимости в основной своей части выполнено в рамках корреляционного анализа: пропускная способность зависит только от параметра "соотношение сигнал/шум". Остается подставить в выражение (7.14) вычисленные ранее значения параметров. Уравнение для пропускной способности примет вид

ŷ = 26,47– 0,93×41,68×5,39/6,04+0,93×5,39/6,03×х = – 8,121+0,830х .

Результаты расчетов представлены в табл. 7.5.

Таблица 7.5

N пп Пропускная способность канала Соотношение сигнал/шум Значение функции Погрешность
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения. Определение регрессии. Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике.

1.4. Ошибка аппроксимации.Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. Таким образом, коэффициенты регрессии ха­рактеризуют степень значимости отдельных факторов для повышения уровня результативного показателя.

Коэффициент регрессии

Рассмотрим теперь задачу 1 из заданий по анализу регрессии, приведенную на с. 300-301. Один из математических результатов теории линейной регрессии говорит, что оценка N, является несмещенной оценкой с минимальной дисперсией в классе всех линейных несмещенных оценок. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

Линия регрессии и уравнение регрессии

Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии. 1, х2, х3 и соответствующих им средних значений у1, у2 у3, а также наименьших (у - σrу/х)и наибольших (у + σrу/х) значений (у) построить шкалу регрессии. Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка.

В матричной форме уравнение регрессии (УР) записывается в виде: Y=BX+U{\displaystyle Y=BX+U}, где U{\displaystyle U} - матрица ошибок. Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889).

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия. И для выбросов, и для «влиятельных» наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).

Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется, и называем это вариацией, которая обусловлена или объясняется регрессией. Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным. Разность представляет собой процент дисперсии который нельзя объяснить регрессией.

Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Причины существования случайной ошибки: 1. Невключение в регрессионную модель значимых объясняющих переменных; 2. Агрегирование переменных. Система нормальных уравнений. В нашем примере связь прямая. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.

Сравнение коэффициентов корреляции и регрессии

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.

Коэффициенты регрессии и их интерпретация

В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов. Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот.

Что такое регрессия?

2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).

Если проведена предвари­тельная стандартизация факторных показателей, то b0 равняется сред­нему значению результативного показателя в совокупности. Конкретные значения коэффициен­тов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных урав­нений).

Линейное уравнение регрессии имеет вид y = bx + a + ε Здесь ε — случайная ошибка (отклонение, возмущение). Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии. Подставив в уравнение регрессии соответствующие значения x, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предвари­тельная стандартизация факторных показателей, то b 0 равняется сред­нему значению результативного показателя в совокупности. Коэффици­енты b 1 , b 2 , ..., b n показывают, на сколько единиц уровень результативно­го показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии ха­рактеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициен­тов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных урав­нений).

Линия регрессии - линия, которая точнее всего отражает распределение экспериментальных точек на диаграмме рассеяния и крутизна наклона которой характеризует зависимость между двумя интервальными переменными.

Линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M - объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
57. Основные задачи теории корреляции.

Теория корреляции представляет собой аппарат, оценивающий тесноту связей между явлениями, которые находятся не только в причинно-следственных отношениях. С помощью теории корреляции оцениваются стохастические, но не причинные связи. Автором совместно с Лукацкой М. Л. предпринята попытка получить оценки для причинных связей. Однако вопрос о причинно-следственных отношениях явлений, о том, как опознать причину и следствие, остается открытым, и кажется, что на формальном уровне он принципиально не разрешим.

Теория корреляции и ее применен к анализу производства.

Теория корреляции, являющаяся одним из разделов математической статистики, позволяет сделать обоснованные предположения о возможных пределах, в которых с известной степенью надежности будет находиться исследуемый параметр, если другие статистически связанные с ним параметры получат определенные значения.

В теории корреляции принято выделять две основные задачи .

Первая задача теории корреляции - установить форму корреляционной связи, т.е. вид функции регрессии (линейная, квадратичная и т.д.).

Вторая задача теории корреляции - оценить тесноту (силу) корреляционной связи.

Теснота корреляционной связи (зависимости) У на X оценивается по величине рассеивания значений У вокруг условного среднего. Большое рассеивание свидетельствует о слабой зависимости У от X, малое рассеивание указывает на наличие сильной зависимости.
58. Корреляционная таблица и ее числовые характеристики.

На практике в результате независимых наблюдений над величинами X и Y, как правило, имеют дело не со всей совокупностью всех возможных пар значений этих величин, а лишь с ограниченной выборкой из генеральной совокупности, причем объем n выборочной совокупности определяется как количество имеющихся в выборке пар.

Пусть величина Х в выборке принимает значения x 1 , x 2 ,....x m , где количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке может повторяться. Пусть величина Y в выборке принимает значения y 1 , y 2 ,....y k , где k - количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке также может повторяться. В этом случае данные заносят в таблицу с учетом частот встречаемости. Такую таблицу с группированными данными называют корреляционной.

Первым этапом статистической обработки результатов является составление корреляционной таблицы.

Y\X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

В первой строке основной части таблицы в порядке возрастания перечисляются все встречающиеся в выборке значения величины X. В первом столбце также в порядке возрастания перечисляются все встречающиеся в выборке значения величины Y. На пересечении соответствующих строк и столбцов указываются частоты n ij (i=1,2,...,m; j=1,2,...,k) равные количеству появлений пары (x i ;y i) в выборке. Например, частота n 12 представляет собой количество появлений в выборке пары (x 1 ;y 1).

Так же n xi n ij , 1≤i≤m, сумма элементов i-го столбца, n yj n ij , 1≤j≤k, - сумма элементов j-ой строки и n xi = n yj =n

Аналоги формул, полученные по данным корреляционной таблицы, имеют вид:


59. Эмпирическая и теоретическая линии регрессии.

Теоретическая линия регрессии может быть рассчитана в этом случае по результатам отдельных наблюдений. Для решения системы нормальных уравнений нам потребуются те же данные: х, у, ху и хг. Мы располагаем данными об объеме производства цемента и объеме основных производственных фондов в 1958 г. Ставится задача: исследовать зависимость между объемом производства цемента (в натуральном выражении) и объемом основных фондов. [1 ]

Чем меньше теоретическая линия регрессии (рассчитанная по уравнению) отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации.

Процесс нахождения теоретической линии регрессии представляет собой выравнивание эмпирической линии регрессии на основе метода наименьших квадратов.

Процесс нахождения теоретической линии регрессии называется выравниванием эмпирической линии регрессии и заключается в выборе и обосновании типа; кривой и расчете параметров ее уравнения.

Эмпирическая регрессия строится по данным аналитической или комбинационной группировок и представляет собой зависимость групповых средних значений признака-результата от групповых средних значений признака-фактора. Графическим представлением эмпирической регрессии – ломаная линия, составленная из точек, абсциссами которых являются групповые средние значения признака-фактора, а ординатами – групповые средние значения признака-результата. Число точек равно числу групп в группировке.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если эмпирическая линия регрессии по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи между признаками. А если линия связи приближается к кривой, то это может быть связано с наличием криволинейной корреляционной связи.
60. Выборочные коэффициенты корреляции и регрессии.

Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r , который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r =0, то связь между признаками отсутствует. Равенство r =0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.
Практическая значимость коэффициента корреляции определяется его величиной, возведенной в квадрат, получившая название коэффициента детерминации.
Регрессия, аппроксимируемая (приближенно описывающаяся) линейной функцией y = kX + b. Для регрессии У на X уравнение регрессии: `y x = ryx X + b; (1). Угловой коэффициент ryx прямой регрессии Y на X называется коэффициентом регрессии Y на X.

Если уравнение (1) отыскивается по выборочным данным, то оно называется выборочным уравнением регрессии . Соответственно, ryx - выборочный коэффициент регрессии Y на X, а b - выборочный свободный член уравнения. Коэффициент регрессии измеряет вариацию Y, приходящуюся на единицу вариации X. Параметры уравнения регрессии (коэффициенты ryx и b) находятся методом наименьших квадратов.
61. Оценка значимости коэффициента корреляции и тесноты корреляционной связи в генеральной совокупности

Значимость коэффициентов корреляции проверяемся по критерию Стьюдента:

где - среднеквадратическая ошибка коэффициента корреляции, которая определяется по формуле:

Если расчетное значение (выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п - 1)и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем примере количество степеней свободы равно: п - 1 = 40 - 1 = 39. При уровне доверительной вероятности Р = 0,05; t = 2,02. Поскольку (фактическое во всех случаях выше t-табличного, связь между результативным и факторными показателями является надежной, а величина коэффициентов корреляции - значимой.

Оценка коэффициента корреляции , вычисленная по ограниченной выборке, практически всегда отличается от нуля. Но из этого еще не следует, что коэффициент корреляции генеральной совокупности также отличен от нуля. Требуется оценить значимость выборочной величины коэффициента или, в соответствии с постановкой задач проверки статистических гипотез, проверить гипотезу о равенстве нулю коэффициента корреляции. Если гипотеза Н 0 о равенстве нулю коэффициента корреляции будет отвергнута, то выборочный коэффициент значим, а соответствующие величины связаны линейным соотношением. Если гипотеза Н 0 будет принята, то оценка коэффициента не значима, и величины линейно не связаны друг с другом (если по физическим соображениям факторы могут быть связаны, то лучше говорить о том, что по имеющимся ЭД эта взаимосвязь не установлена). Проверка гипотезы о значимости оценки коэффициента корреляции требует знания распределения этой случайной величины. Распределение величины  ik изучено только для частного случая, когда случайные величины U j и U k распределены по нормальному закону.

В качестве критерия проверки нулевой гипотезы Н 0 применяют случайную величину . Если модуль коэффициента корреляции относительно далек от единицы, то величина t при справедливости нулевой гипотезы распределена по закону Стьюдента с n – 2 степенями свободы. Конкурирующая гипотеза Н 1 соответствует утверждению, что значение  ik не равно нулю (больше или меньше нуля). Поэтому критическая область двусторонняя.
62. Вычисление выборочного коэффициента корреляции и построение выборочного уравнения прямой линии регрессии.

Выборочный коэффициент корреляции находится по формуле

где - выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

Простая линейная регрессия позволяет найти линейную зависимость между одной входной и одной выходной переменными. Для этого определяется уравнение регрессии - это модель, отражающая зависимость значений Y, зависимой величины Y от значений х, независимой переменной х и генеральной совокупности, описывается уровнением:

где А0 - свободный член уравнения регрессии;

А1 - коэффициент уравнения регрессии

Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии регрессии, была бы минимальной. Подбор коэффициентов производится по методу наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную модель, которая наилучшим образом аппроксимирует зависимость между одной входной и одной выходной переменными.

КОЭФФИЦИЕНТ РЕГРЕССИИ

- англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на единицу своего изменения. Геометрически К. р. является угловым коэффициентом наклона прямой линии у.

Antinazi. Энциклопедия социологии , 2009

Смотреть что такое "КОЭФФИЦИЕНТ РЕГРЕССИИ" в других словарях:

    коэффициент регрессии - — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN regression coefficient … Справочник технического переводчика

    Коэффициент регрессии - 35. Коэффициент регрессии Параметр модели регрессионного анализа Источник: ГОСТ 24026 80: Исследовательские испытания. Планирование эксперимента. Термины и определения …

    коэффициент регрессии - Коэффициент при независимой переменной в уравнении регрессии … Словарь социологической статистики

    КОЭФФИЦИЕНТ РЕГРЕССИИ - англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на… … Толковый словарь по социологии

    выборочный коэффициент регрессии - 2.44. выборочный коэффициент регрессии Коэффициент при переменной в уравнении кривой или поверхности регрессии Источник: ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения … Словарь-справочник терминов нормативно-технической документации

    Частный коэффициент регрессии - статистическая мера, обозначающая степень влияния независимой переменной на зависимую в ситуации, когда взаимовлияние всех остальных переменных в модели находится под контролем исследователя … Социологический словарь Socium

    РЕГРЕССИИ, ВЕС - Синоним понятия коэффициент регрессии … Толковый словарь по психологии

    КОЭФФИЦИЕНТ НАСЛЕДУЕМОСТИ - Показатель относительной доли генетической изменчивости в общей фенотипической вариации признака. Наиболее распространены следующие методы оценки наследуемости хозяйственно полезных признаков: где h2 коэффициент наследуемости; r внутриклассовая… … Термины и определения, используемые в селекции, генетике и воспроизводстве сельскохозяйственных животных

    - (R квадрат) это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной… … Википедия

    Коэффициент при независимой переменной в уравнении регрессии. Так, напр., в уравнении линейной регрессии, связывающей случайные величины Yи X, Р. к. b0 и b1 равны: где r корреляции коэффициент X и Y, . Вычисление оценок Р. к. (в ы б о р о ч н… … Математическая энциклопедия

Книги

  • Введение в эконометрику (CDpc) , Яновский Леонид Петрович, Буховец Алексей Георгиевич. Даны основы эконометрики и статистического анализа одномерных временных рядов. Большое внимание уделено классической парной и множественной регрессии, классическому и обобщенному методам…
  • Скорочтение. Эффективный тренажер (CDpc) , . Программа адресована пользователям, желающим в кратчайшие сроки овладеть методикой скоростного чтения. Курс построен по принципу "теория - практика" . Теоретический материал и практические…


Рассказать друзьям