Корреляционный анализ: основное определение и сферы применения. Курсовая работа: Корреляционный анализ

💖 Нравится? Поделись с друзьями ссылкой

При наличии двух рядов значений, подвергающихся ранжированию, рационально рассчитывать ранговую корреляцию Спирмена.

Такие ряды могут представляться:

  • парой признаков, определяемых в одной и той же группе исследуемых объектов;
  • парой индивидуальных соподчиненных признаков, определяемых у 2 исследуемых объектов по одинаковому набору признаков;
  • парой групповых соподчиненных признаков;
  • индивидуальной и групповой соподчиненностью признаков.

Метод предполагает проведение ранжирования показателей в отдельности для каждого из признаков.

Наименьшее значение имеет наименьший ранг.

Этот метод относится к непараметрическому статистическому методу, предназначенному для установления существования связи изучаемых явлений:

  • определение фактической степени параллелизма между двумя рядами количественных данных;
  • оценка тесноты выявленной связи, выражаемой количественно.

Корреляционный анализ

Статистический метод, предназначенный для выявления существования зависимости между 2 и более случайными величинами (переменными), а также ее силы, получил название корреляционного анализа.

Получил свое название от correlatio (лат.) – соотношение.

При его использовании возможны варианты развития событий:

  • наличие корреляции (положительная либо отрицательная);
  • отсутствие корреляции (нулевая).

В случае установления зависимости между переменными речь идет об их коррелировании. Иными словами, можно сказать, что при изменении значения Х, обязательно будет наблюдаться пропорциональное изменение значения У.

В качестве инструментов используются различные меры связи (коэффициенты).

На их выбор оказывает влияние:

  • способ измерения случайных чисел;
  • характер связи между случайными числами.

Существование корреляционной связи может отображаться графически (графики) и с помощью коэффициента (числовое отображение).

Корреляционная связь характеризуется такими признаками:

  • сила связи (при коэффициенте корреляции от ±0,7 до ±1 – сильная; от ±0,3 до ±0,699 – средняя; от 0 до ±0,299 – слабая);
  • направление связи (прямая или обратная).

Цели корреляционного анализа

Корреляционный анализ не позволяет установить причинную зависимость между исследуемыми переменными.

Он проводится с целью:

  • установления зависимости между переменными;
  • получения определенной информации о переменной на основе другой переменной;
  • определения тесноты (связи) этой зависимости;
  • определение направления установленной связи.

Методы корреляционного анализа


Данный анализ может выполняться с использованием:

  • метода квадратов или Пирсона;
  • рангового метода или Спирмена.

Метод Пирсона применим для расчетов требующих точного определения силы, существующей между переменными. Изучаемые с его помощью признаки должны выражаться только количественно.

Для применения метода Спирмена или ранговой корреляции нет жестких требований в выражении признаков – оно может быть, как количественным, так и атрибутивным. Благодаря этому методу получается информация не о точном установлении силы связи, а имеющая ориентировочный характер.

В рядах переменных могут содержаться открытые варианты. Например, когда стаж работы выражается такими значениями, как до 1 года, более 5 лет и т.д.

Коэффициент корреляции

Статистическая величина характеризующая характер изменения двух переменных получила название коэффициента корреляции либо парного коэффициента корреляции. В количественном выражении он колеблется в пределах от -1 до +1.

Наиболее распространены коэффициенты:

  • Пирсона – применим для переменных принадлежащих к интервально шкале;
  • Спирмена – для переменных порядковой шкалы.

Ограничения использования коэффициента корреляции

Получение недостоверных данных при расчете коэффициента корреляции возможно в тех случаях, когда:

  • в распоряжении имеется достаточное количество значений переменной (25-100 пар наблюдений);
  • между изучаемыми переменными установлено, например, квадратичное соотношение, а не линейное;
  • в каждом случае данные содержат больше одного наблюдения;
  • наличие аномальных значений (выбросов) переменных;
  • исследуемые данные состоят из четко выделяемых подгрупп наблюдений;
  • наличие корреляционной связи не позволяет установить какая из переменных может рассматриваться в качестве причины, а какая – в качестве следствия.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Ранги Спирмена

Коэффициент ранговой корреляции Спирмена позволяет статистически установить наличие связи между явлениями. Его расчет предполагает установление для каждого признака порядкового номера – ранга. Ранг может быть возрастающим либо убывающим.

Количество признаков, подвергаемых ранжированию, может быть любым. Это достаточно трудоемкий процесс, ограничивающий их количество. Затруднения начинаются при достижении 20 признаков.

Для расчета коэффициента Спирмена пользуются формулой:

в которой:

n – отображает количество ранжируемых признаков;

d – не что иное как разность между рангами по двум переменным;

а ∑(d2) – сумма квадратов разностей рангов.

Применение корреляционного анализа в психологии

Статистическое сопровождение психологических исследований позволяет сделать их более объективными и высоко репрезентативными. Статистическая обработка данных полученных в ходе психологических экспериментов способствует извлечению максимума полезной информации.

Наиболее широкое применение в обработке их результатов получил корреляционный анализ.

Уместным является проведение корреляционного анализа результатов, полученных при проведении исследований:

  • тревожности (по тестам R. Temml, M. Dorca, V. Amen);
  • семейных взаимоотношений («Анализ семейных взаимоотношений» (АСВ) опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • уровня интернальности-экстернальности (опросник Е.Ф. Бажина, Е.А. Голынкиной и А.М. Эткинда);
  • уровня эмоционального выгорания у педагогов (опросник В.В. Бойко);
  • связи элементов вербального интеллекта учащихся при разно профильном обучении (методика К.М. Гуревича и др.);
  • связи уровня эмпатии (методика В.В. Бойко) и удовлетворенностью браком (опросник В.В. Столина, Т.Л. Романовой, Г.П. Бутенко);
  • связи между социометрическим статусом подростков (тест Jacob L. Moreno) и особенностями стиля семейного воспитания (опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • структуры жизненных целей подростков, воспитанных в полных и неполных семьях (опросник Edward L. Deci, Richard M. Ryan Ryan).

Краткая инструкция к проведению корреляционного анализа по критерию Спирмена

Проведение корреляционного анализа с использованием метода Спирмена выполняется по следующему алгоритму:

  • парные сопоставимые признаки располагаются в 2 ряда, один из которых обозначается с помощью Х, а другой У;
  • значения ряда Х располагаются в порядке возрастания либо убывания;
  • последовательность расположения значений ряда У определяется их соответствием значений ряда Х;
  • для каждого значения в ряду Х определить ранг — присвоить порядковый номер от минимального значения к максимальному;
  • для каждого из значений в ряду У также определить ранг (от минимального к максимальному);
  • вычислить разницу (D) между рангами Х и У, прибегнув к формуле D=Х-У;
  • полученные значения разницы возводятся в квадрат;
  • выполнить суммирование квадратов разниц рангов;
  • выполнить расчеты по формуле:

Пример корреляции Спирмена

Необходимо установить наличие корреляционной связи между рабочим стажем и показателем травматизма при наличии следующих данных:

Наиболее подходящим методом анализа является ранговый метод, т.к. один из признаков представлен в виде открытых вариантов: рабочий стаж до 1 года и рабочий стаж 7 и более лет.

Решение задачи начинается с ранжирования данных, которые сводятся в рабочую таблицу и могут быть выполнены вручную, т.к. их объем не велик:

Рабочий стаж Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
d(х-у)
до 1 года 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 и более 6 5 1 +4 16
Σ d2 = 38,5

Появление дробных рангов в колонке связано с тем, что в случае появления вариант одинаковых по величине находится среднее арифметическое значение ранга. В данном примере показатель травматизма 12 встречается дважды и ему присваиваются ранги 2 и 3, находим среднее арифметическое этих рангов (2+3)/2= 2,5 и помещаем это значение в рабочую таблицу для 2 показателей.
Выполнив подстановку полученных значений в рабочую формулу и произведя несложные расчёты получаем коэффициент Спирмена равный -0,92

Отрицательное значение коэффициента свидетельствует о наличии обратной связи между признаками и позволяет утверждать, что небольшой стаж работы сопровождается большим числом травм. Причем, сила связи этих показателей достаточно большая.
Следующим этапом расчётов является определение достоверности полученного коэффициента:
рассчитывается его ошибка и критерий Стьюдента

Любой закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследований относится к задачам статистического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный, ковариационный анализ и анализ таблиц сопряженности.

    Существует ли связь между исследуемыми переменными?

    Как измерить тесноту связей?

Общая схема взаимосвязи параметров при статистическом исследовании приведена на рис. 1.

На рисунке S – модель исследуемого реального объекта, Объясняющие (независимые, факторные) переменные описывают условия функционирования объекта. Случайные факторы – это факторы, влияние которых трудно учесть или влиянием которых в данный момент пренебрегают. Результирующие (зависимые, объясняемые) переменные характеризуют результат функционирования объекта.

Выбор метода анализа взаимосвязи осуществляется с учетом природы анализируемых переменных.

Корреляционный анализ - метод обработки статистическихданных, заключающийся в изучении связи между переменными.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т.е. зависимость между величинами отсутствует.

При исследования корреляции используются графический и аналитический подходы.

Графический анализ начинается с построения корреляционного поля. Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения исходные данные наносят на график, отображая каждую пару значений (xi,yi) в виде точки с координатами xi и yi в прямоугольной системе координат.

Визуальный анализ корреляционного поля позволяет сделать предположение о форме и направлении взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см. рис. 1) и нелинейные (см. рис. 2). При линейной зависимости огибающая корреляционного поля близка к эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.

Направление связи является положительным, если увеличение значения одного признака приводит к увеличению значения второго (см. рис. 3) и отрицательным, если увеличение значения одного признака приводит к уменьшению значения второго (см. рис. 4).

Зависимости, имеющие только положительные или только отрицательные направленности, называются монотонными.

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.


Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

1.4 Этапы корреляционного анализа

Практическая реализация корреляционного анализа включает следующие этапы:

а) постановка задачи и выбор признаков;

б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

в) предварительная характеристика взаимосвязей (аналитические группировки, графики);

г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

д) исследование факторной зависимости и проверка ее значимости;

е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.

1.5 Коэффициенты корреляции

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

Дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

Ранговой корреляции Спирмена (Spearmen"s rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

Точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

J - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

Тетрахорический (четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах.

Линейная связь между переменными X i и X j оценивается коэффициентом корреляции:

,


где X i и X j – исследуемые переменные; mX i и mX j – математические ожидания переменных; σ X и σ X – дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

,

или по преобразованной формуле:

,

где i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – число опытов(объем выборки); x i , x j – оценки математических ожиданий; S Xi , S Xj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин X i и X j коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь.

1.6 Нормированный коэффициент корреляции Браве-Пирсона

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве-Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений x i и y i согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона () относится к параметрическим коэффициентам и для практических расчетов вычисляется по формуле:

Из формулы видно, что для вычисления необходимо найти средние значения признаков Х и Y, а также отклонения каждого статистического данного от его среднего . Зная эти значения, находятся суммы . Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным для f = n –2. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Пример 1.10 студентам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y- среднее время решения вербальных заданий тестов.

Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столбцы, необходимые для расчета по формуле.

Таблица 1 – Условия задачи

№ испытуемых x y х i - (х i -) 2 y i - (y i - ) 2
1 19 17 -16,7 278,89 -7,2 51,84 120,24
2 32 7 -3,7 13,69 -17,2 295,84 63,64
3 33 17 -2,7 7,29 -7,2 51,84 19,44
4 44 28 8,3 68,89 3,8 14,44 31,54
5 28 27 -7,7 59,29 2,8 7,84 -21,56
6 35 31 -0,7 0,49 6,8 46,24 -4,76
7 39 20 3,3 10,89 -4,2 17,64 -13,86
8 39 17 3,3 10,89 -7,2 51,84 -23,76
9 44 35 8,3 68,89 10,8 116,64 89,64
10 44 43 8,3 68,89 18,8 353,44 156,04
Сумма 357 242 588,1 1007,6 416,6
Среднее 35,7 24,2

Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона:

Определяем критические значения для полученного коэффициента корреляции по таблице. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степеней свободы рассчитывается как f = n – 2 = 8. r крит =0,72 > 0,54 , следовательно, гипотеза Н 1 отвергается и принимается гипотеза H 0 , иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.

1.7 Коэффициент ранговой корреляции Спирмена

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():

где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.

Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений x i и y i .

Когда ранги всех значений x i и y i строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений x i и y i совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy) 2 . Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

Если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

Когда значения x i и (или) y i заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 2. Определить достоверность взаимосвязи между показателями веса и максимального количества сгибания и разгибания рук в упоре лежа у 10 исследуемых с помощью расчета рангового коэффициента корреляции, если данные выборок таковы:

x i ,кг~55; 45; 43; 47; 47; 51; 48; 60; 53;50

y i , кол-во раз ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24

1. Расчет рангового коэффициента корреляции Спирмена произведем по формуле:

где: d x и d y - ранги показателей х и у ;

n - число коррелируемых пар или исследуемых.

2 Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.

Таблица 2 – Данные тестирования

x i d x y i d y
55 9 26 9 0 0
45 2 20 4 -2 4
43 1 25 7 -6 36
47 3.5 22 5 -1.5 2.25
47 3.5 7 8 -4.5 20.25
51 7 28 10 -3 9
48 5 16 2 3 9
60 10 15 1 9 81
53 8 18 3 5 25
50 6 24 6 0 0
= 0 = 186,5

Тогда

3. Сравнить расчетное значение рангового коэффициента корреляции(r ф =-0,13) с табличным значением для n = 10 при α = 5% и сделать вывод.

1) т.к. r ф = -0,13 < 0, то между данными выборок наблюдается прямая отрицательная взаимосвязь, т.е. увеличением показателей веса вызывает снижение максимального количество сгибаний и разгибаний рук в упоре лежа в группе исследуемых;

2) т.к. r ф = -0,13 < r st = 0,64 для n = 10 при α = 5%, то с уверенностью Р = 95% можно говорить о том, что выявленная зависимость недостоверна.

1.8 Основные свойства коэффициентов корреляции

К основным свойствам коэффициента корреляции необходимо отнести следующие:

Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи;

Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1;

При независимом варьировании признаков, когда связь между ними отсутствует, r= 0;

При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный знак и находится в пределах от 0 до +1, т.е. 0 < r < 1;

При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1, т.е. -1 < r <0;

Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если r = ±1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y;

Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы f= n –2, где n – число коррелируемых пар показателей Х и Y. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

1.9 Проверка значимости коэффициентов корреляции

Для проверки значимости коэффициентов корреляции чаще всего используют распределение Стьюдента и условие:

, f = N – 2, α = 0,05.


Если условие выполняется, то гипотеза об отсутствии корреляционной связи принимается.

1.10 Критические значения коэффициента парной корреляции

Таблица 3 - Критические значения коэффициента парной корреляции при α=0,05

Для проверки значимости коэффициента парной корреляции нужно сравнить его значение с табличным (критическим) значением r, которое приведено в таблице 3. Для пользования этой таблицей нужно знать число степеней свободы f = N – 2 и выбрать определенный уровень значимости, например равный 0,05. Такое значение уровня значимости называют еще 5%-ным уровнем риска, что соответствует вероятности верного ответа при проверке нашей гипотезы Р = 1 – α = 0,95, или 95%. Это значит, что в среднем только в 5% случаев возможна ошибка при проверке гипотезы.

В практических исследованиях 5%-ный уровень риска применяется наиболее часто. Но экспериментатор всегда свободен в выборе уровня значимости, и возможны ситуации, в которых, например, требуется 1%-ный уровень риска. При этом возрастает надежность ответа. Проверка гипотезы сводится к сравнению абсолютной величины коэффициента парной корреляции с критическим значением. Если экспериментально найденное значение r меньше критического, то нет оснований считать, что имеется тесная линейная связь между параметрами, а если больше или равно, то гипотеза о корреляционной линейной связи не отвергается.

2. РЕШЕНИЕ ЗАДАЧИ

Таблица 1 – Условие задачи

Таблица 2 – Функция отклика

У1 65 60 63 46 47 47 56 54
У2 55 47 46 47 58 56 49 61
УЗ 55 51 61 57 58 53 55 52

2.2 Определение центра плана (основной уровень) и уровня варьирования факторов

Находим центр плана:

.

Находим полуразмах:


Рассчитываем и оформляем в виде таблицы.

,

,

,

Таблица 3 – Центр плана и полуразмах

Рассчитываем нижний уровень варьирования факторов:

Рассчитываем верхний уровень варьирования факторов:

2.3 Построение матрицы планирования

Так как мы имеем 2 уровня варьирования факторов и 3 фактора, то получаем матрицу . Число опытов равно 8.

Таблица 3 – Матрица планирования типа

№ опыта
1 + + -
2 + + +
3 + - +
4 + - -
5 - + -
6 - + +
7 - - +
8 - - -

Составляем расширенную матрицу планирования для того, чтобы учесть взаимодействие факторов.

Таблица 4 – Расширенная матрица планирования

№ опыта
1 + + + - + - - - 65 55 55 58,3
2 + + + + + + + + 60 47 51 52,7
3 + + - + - + - - 63 46 61 56,7
4 + + - - - - + + 46 47 57 50
5 + - + - - + - + 47 58 58 54,3
6 + - + + - - + - 47 56 53 52
7 + - - + + - - + 56 49 55 53,3
8 + - - - + + + - 54 61 52 55,7

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

Для проверки однородности дисперсии был выбран критерий Кохрена. Для этого рассчитываем дисперсию в каждом опыте по формуле:

.

Условия проверки однородности дисперсий по критерию Кохрена:


Для уровня значимости 0,05 равна 0,32.

<, следовательно, дисперсия однородна и измерения в разных сериях равноточны.

2.5 Коэффициенты уравнения регрессии

Находим коэффициенты уравнения регрессии.

Следовательно, уравнение регрессии примет вид:

2.6 Дисперсия воспроизводимости

Вычисляем значение дисперсии воспроизводимости по формуле:

2.7 Проверка значимости коэффициентов уравнения регрессии

Проверяем значимость коэффициентов уравнения регрессии по критерию Стьюдента:

Условие значимости Для уровня значимости α = 0,05 и числа степеней свободы f = N - 1 =8 - 1 = 7 находим табличное значение критерия Стьюдента

Сравниваем расчетное значение с табличным и видим, что значение незначительные и их коэффициенты следует исключить из уравнения регрессии. Так как коэффициенты получились незначимы и мы не имеем возможности заново поставить новый эксперимент и продолжаем вычисления, выбрав наиболее близкие к значимым коэффициенты.

Уравнение регрессии примет вид:

2.8 Проверка адекватности уравнения регрессии

Для проверки используется критерий Фишера:

где d – количество коэффициентов уравнения регрессии.

Находим значения :

Найдем значение

Находим табличное значение критерия Фишера для степеней свободы

Сравниваем условие <, значит, модель адекватна.

Уравнение регрессии имеет вид:

Анализ значимости коэффициентов уравнении регрессии показал, что влияние всех факторов незначимо.

Модель адекватна, так как критерий адекватности меньше табличного.

Измерения в различных серий равноточны.

ЗАКЛЮЧЕНИЕ

Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Френсисом Гальтоном в 1886 году. Однако точную формулу для подсчета коэффициента корреляции разработал его ученик Карл Пирсон.

Задачи с одним выходным параметром имеют очевидные преимущества. Но на практике чаще всего приходится учитывать несколько выходных параметров. Иногда их число довольно велико. Так, например, при производстве резиновых и пластмассовых изделий приходится учитывать физико-механические, технологические, экономические, художественно-эстетические и другие параметры (прочность, эластичность, относительное удлинение и т.д.). Математические модели можно построить для каждого из параметров, но одновременно оптимизировать несколько функций невозможно.

Обычно оптимизируется одна функция, наиболее важная с точки зрения цели исследования, при ограничениях, налагаемых другими функциями. Поэтому из многих выходных параметров выбирается один в качестве параметра оптимизации, а остальные служат ограничениями. Всегда полезно исследовать возможность уменьшения числа выходных параметров. Для этого и используется корреляционный анализ.

С использованием результатов корреляционного анализа исследователь может делать определённые выводы о наличии и характере взаимозависимости, что уже само по себе может представлять существенную информацию об исследуемом объекте. Результаты могут подсказать и направление дальнейших исследований, и совокупность требуемых методов, в том числе статистических, необходимых для более полного изучения объекта.

Особенно реальную пользу применение аппарата корреляционного анализа может принести на стадии ранних исследований в областях, где характеры причин определённых явлений ещё недостаточно понятны. Это может касаться изучения очень сложных систем различного характера: как технических, так и социальных.

СПИСОК ЛИТЕРАТУРЫ

1 Сидоренко Е.В. Методы математической обработки в психологии. Спб.: ООО «Речь», 2000. – 350 с.

2 Лекция на тему: "Корреляционный анализ""// www.kgafk.ru, 2006, 8 с.

3 Ковалев В.В, Волкова О.Н., Анализ хозяйственной деятельности предприятия//polbu.ru, 2005, 2 с.

4 Поляков Л.Е., Коэффициент ранговой корреляции Спирмена//www.eduhmao.ru, 1971, 2 с.

5 Бондарь А.Г., Статюха Г.А. Планирование эксперимента в химической технологии. Киев: Высшая школа, 1976 – 335 с.

6 Адлер Ю.П., Грановский Ю.В., Маркова Е.В. Планирование эксперимента при поиске оптимальных условий. М.: Наука, 1976.–278 с.

7 Андерсон Т., Введение в многомерный статистический анализ//www.ami.nstu.ru, 1963, 24 с.

Применение статистических методов при обработке материалов психологических исследований дает большую возможность извлечь из экспериментальных данных полезную информацию. Одним из самых распространенных методов статистики является корреляционный анализ.

Термин «корреляция» впервые применил французский палеонтолог Ж. Кювье, который вывел «закон корреляции частей и органов животных» (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто «связь» – relation , а «как бы связь» – corelation ).

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции, двумерной описательной статистики, количественной меры взаимосвязи (совместной изменчивости) двух переменных. Таким образом, это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками.

Корреляционный анализ для двух случайных величин заключает в себе:

  • построение корреляционного поля и составление корреляционной таблицы;
  • вычисление выборочных коэффициентов корреляции и корреляционных отношений;
  • проверку статистической гипотезы значимости связи.

Основное назначение корреляционного анализа – выявление связи между двумя или более изучаемыми переменными, которая рассматривается как совместное согласованное изменение двух исследуемых характеристик. Данная изменчивость обладает тремя основными характериcтиками: формой, направлением и силой.

По форме корреляционная связь может быть линейной или нелинейной. Более удобной для выявления и интерпретации корреляционной связи является линейная форма. Для линейной корреляционной связи можно выделить два основных направления: положительное («прямая связь») и отрицательное («обратная связь»).

Сила связи напрямую указывает, насколько ярко проявляется совместная изменчивость изучаемых переменных. В психологии функциональная взаимосвязь явлений эмпирически может быть выявлена только как вероятностная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания – график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку.

В качестве числовой характеристики вероятностной связи используют коэффициенты корреляции, значения которых изменяются в диапазоне от –1 до +1. После проведения расчетов исследователь, как правило, отбирает только наиболее сильные корреляции, которые в дальнейшем интерпретируются (табл. 1).

Критерием для отбора «достаточно сильных» корреляций может быть как абсолютное значение самого коэффициента корреляции (от 0,7 до 1), так и относительная величина этого коэффициента, определяемая по уровню статистической значимости (от 0,01 до 0,1), зависящему от размера выборки. В малых выборках для дальнейшей интерпретации корректнее отбирать сильные корреляции на основании уровня статистической значимости. Для исследований, которые проведены на больших выборках, лучше использовать абсолютные значения коэффициентов корреляции.

Таким образом, задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r -Пирсона, r -Спирмена и τ -Кендалла. Современные компьютерные статистические программы в меню «Корреляции» предлагают именно эти три коэффициента, а для решения других исследовательских задач предлагаются методы сравнения групп.

Выбор метода вычисления коэффициента корреляции зависит от типа шкалы, к которой относятся переменные (табл. 2).

Для переменных с интервальной и с номинальной шкалой используется коэффициент корреляции Пирсона (корреляция моментов произведений). Если, по меньшей мере, одна из двух переменных имеет порядковую шкалу или не является нормально распределенной, используется ранговая корреляция по Спирмену или

t-Кендалла. Если же одна из двух переменных является дихотомической, можно использовать точечную двухрядную корреляцию (в статистической компьютерной программе SPSS эта возможность отсутствует, вместо нее может быть применен расчет ранговой корреляции). В том случае если обе переменные являются дихотомическими, используется четырехполевая корреляция (данный вид корреляции рассчитываются SPSS на основании определения мер расстояния и мер сходства). Расчет коэффициента корреляции между двумя недихотомическими переменными возможен только тогда, кода связь между ними линейна (однонаправлена). Если связь, к примеру, U -образная (неоднозначная), коэффициент корреляции не пригоден для использования в качестве меры силы связи: его значение стремится к нулю.

Таким образом, условия применения коэффициентов корреляции будут следующими:

  • переменные, измеренные в количественной (ранговой, метрической) шкале на одной и той же выборке объектов;
  • связь между переменными является монотонной.

Основная статистическая гипотеза, которая проверяется корреляционным анализом, является ненаправленной и содержит утверждение о равенстве корреляции нулю в генеральной совокупности H 0: r xy = 0. При ее отклонении принимается альтернативная гипотеза H 1: r xy ≠ 0 о наличии положительной или отрицательной корреляции – в зависимости от знака вычисленного коэффициента корреляции.

На основании принятия или отклонения гипотез делаются содержательные выводы. Если по результатам статистической проверки H 0: r xy = 0 не отклоняется на уровне a, то содержательный вывод будет следующим: связь между X и Y не обнаружена. Если же при H 0 r xy = 0 отклоняется на уровне a, значит, обнаружена положительная (отрицательная) связь между X и Y . Однако к интерпретации выявленных корреляционных связей следует подходить осторожно. С научной точки зрения, простое установление связи между двумя переменными не означает существования причинно-следственных отношений. Более того, наличие корреляции не устанавливает отношения последовательности между причиной и следствием. Оно просто указывает, что две переменные взаимосвязаны между собой в большей степени, чем это можно ожидать при случайном совпадении. Тем не менее, при соблюдении осторожности применение корреляционных методов при исследовании причинно-следственных отношений вполне оправдано. Следует избегать категоричных фраз типа «переменная X является причиной увеличения показателя Y ». Подобные утверждения следует формулировать как предположения, которые должны быть строго обоснованы теоретически.

Подробное описание математической процедуры для каждого коэффициента корреляции дано в учебниках по математической статистике ; ; ; и др. Мы же ограничимся описанием возможности применения этих коэффициентов в зависимости от типа шкалы измерения.

Корреляция метрических переменных

Для изучения взаимосвязи двух метрических переменных, измеренных на одной и той же выборке, применяется коэффициент корреляции r -Пирсона . Сам коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y . Коэффициент линейной корреляции является параметрическим методом и его корректное применение возможно только в том случае, если результаты измерений представлены в шкале интервалов, а само распределение значений в анализируемых переменных отличается от нормального в незначительной степени. Существует множество ситуаций, в которых его применение целесообразно. Например: установление связи между интеллектом школьника и его успеваемостью; между настроением и успешностью выхода из проблемной ситуации; между уровнем дохода и темпераментом и т. п.

Коэффициент Пирсона находит широкое применение в психологии и педагогике. Например, в работах И. Я. Каплуновича и П. Д. Рабиновича, М. П. Нуждиной для подтверждения выдвинутых гипотез был использован расчет коэффициента линейной корреляции Пирсона.

При обработке данных «вручную» необходимо вычислить коэффициент корреляции, а затем определить p -уровень значимости (в целях упрощения проверки данных пользуются таблицами критических значений r xy , которые составлены с помощью этого критерия). Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем –1. Эти два числа +1 и –1 являются границами для коэффициента корреляции. Когда при расчете получается величина, большая +1 или меньшая –1, это свидетельствует, что произошла ошибка в вычислениях.

При вычислениях на компьютере статистическая программа (SPSS, Statistica) сопровождает вычисленный коэффициент корреляции более точным значением p -уровня.

Для статистического решения о принятии или отклонении H 0 обычно устанавливают α = 0,05, а для большого объема наблюдений (100 и более) α = 0,01. Если p ≤ α, H 0 отклоняется и делается содержательный вывод, что обнаружена статистически достоверная (значимая) связь между изучаемыми переменными (положительная или отрицательная – в зависимости от знака корреляции). Когда p > α, H 0 не отклоняется, содержательный вывод ограничен констатацией, что связь (статистически достоверная) не обнаружена.

Если связь не обнаружена, но есть основания полагать, что связь на самом деле есть, следует проверить возможные причины недостоверности связи.

Нелинейность связи – для этого проанализировать график двумерного рассеивания. Если связь нелинейная, но монотонная, перейти к ранговым корреляциям. Если связь не монотонная, то делить выборку на части, в которых связь монотонная, и вычислить корреляции отдельно для каждой части выборки, или делить выборку на контрастные группы и далее сравнивать их по уровню выраженности признака.

Наличие выбросов и выраженная асимметрия распределения одного или обоих признаков. Для этого необходимо посмотреть гистограммы распределения частот обоих признаков. При наличии выбросов или асимметрии исключить выбросы или перейти к ранговым корреляциям.

Неоднородность выборки (проанализировать график двумерного рассеивания). Попытаться разделить выборку на части, в которых связь может иметь разные направления.

Если же связь статистически достоверна, то прежде чем делать содержательный вывод, необходимо исключить возможность ложной корреляции:

  • связь обусловлена выбросами . При наличии выбросов перейти к ранговым корреляциям или исключить выбросы;
  • связь обусловлена влиянием третьей переменной . Если есть подобное явление, необходимо вычислить корреляцию не только для всей выборки, но и для каждой группы в отдельности. Если «третья» переменная метрическая – вычислить частную корреляцию.

Коэффициент частной корреляции r xy -z вычисляется в том случае, если необходимо проверить предположение, что связь между двумя переменными X и Y не зависит от влияния третьей переменной Z . Очень часто две переменные коррелируют друг с другом только за счет того, что обе они согласованно меняются под влиянием третьей переменной. Иными словами, на самом деле связь между соответствующими свойствами отсутствует, но проявляется в статистической взаимосвязи под влиянием общей причины. Например, общей причиной изменчивости двух переменных может являться возраст при изучении взаимосвязи различных психологических особенностей в разновозрастной группе. При интерпретации частной корреляции с позиции причинности следует быть осторожным, так как если Z коррелирует и с X и с Y , а частная корреляция r xy -z близка к нулю, из этого не обязательно следует, что именно Z является общей причиной для X и Y .

Корреляция ранговых переменных

Если к количественным данным неприемлем коэффициент корреляции r -Пирсона , то для проверки гипотезы о связи двух переменных после предварительного ранжирования могут быть применены корреляции r -Спирмена или τ -Кендалла . Например, в исследовании психофизических особенностей музыкально одаренных подростков И. А. Лавочкина был использован критерий Спирмена.

Для корректного вычисления обоих коэффициентов (Спирмена и Кендалла) результаты измерений должны быть представлены в шкале рангов или интервалов. Принципиальных отличий между этими критериями не существует, но принято считать, что коэффициент Кендалла является более «содержательным», так как он более полно и детально анализирует связи между переменными, перебирая все возможные соответствия между парами значений. Коэффициент Спирмена более точно учитывает именно количественную степень связи между переменными.

Коэффициент ранговой корреляции Спирмена является непараметрическим аналогом классического коэффициента корреляции Пирсона, но при его расчете учитываются не связанные с распределением показатели сравниваемых переменных (среднее арифметическое и дисперсия), а ранги. Например, необходимо определить связь между ранговыми оценками качеств личности, входящими в представление человека о своем «Я реальном» и «Я идеальном».

Коэффициент Спирмена широко используется в психологических исследованиях. Например, в работе Ю. В. Бушова и Н. Н. Несмеловой : для изучения зависимости точности оценки и воспроизведения длительности звуковых сигналов от индивидуальных особенностей человека был использован именно он.

Так как этот коэффициент – аналог r -Пирсона, то и применение его для проверки гипотез аналогично применению коэффициента r -Пирсона. То есть проверяемая статистическая гипотеза, порядок принятия статистического решения и формулировка содержательного вывода – те же. В компьютерных программах (SPSS, Statistica) уровни значимости для одинаковых коэффициентов r -Пирсона и r -Спирмена всегда совпадают.

Преимущество коэффициента r -Спирмена по сравнению с коэффициентом r -Пирсона – в большей чувствительности к связи. Мы используем его в следующих случаях:

  • наличие существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы);
  • появление криволинейной (монотонной) связи.

Ограничением для применения коэффициента r -Спирмена являются:

  • по каждой переменной не менее 5 наблюдений;
  • коэффициент при большом количестве одинаковых рангов по одной или обеим переменным дает огрубленное значение.

Коэффициент ранговой корреляции τ -Кендалла является самостоятельным оригинальным методом, опирающимся на вычисление соотношения пар значений двух выборок, имеющих одинаковые или отличающиеся тенденции (возрастание или убывание значений). Этот коэффициент называют еще коэффициентом конкордации . Таким образом, основной идеей данного метода является то, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y , это свидетельствует о положительной связи, если не совпадает – об отрицательной связи, например, при исследовании личностных качеств, имеющих определяющее значение для семейного благополучия. В этом методе одна переменная представляется в виде монотонной последовательности (например, данные мужа) в порядке возрастания величин; другой переменной (например, данные жены) присваиваются соответствующие ранговые места. Количество инверсий (нарушений монотонности по сравнению с первым рядом) используется в формуле для корреляционных коэффициентов.

При подсчете τ- Кендалла «вручную» данные сначала упорядочиваются по переменной X . Затем для каждого испытуемого подсчитывается, сколько раз его ранг по Y оказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадения». Сумма всех значений столбца «Совпадение» и есть P – общее число совпадений, подставляется в формулу для вычисления коэффициента Кендалла, который более прост в вычислительном отношении, но при возрастании выборки, в отличие от r -Спирмена, объем вычислений возрастает не пропорционально, а в геометрической прогрессии. Так, например, при N = 12 необходимо перебрать 66 пар испытуемых, а при N = 489 – уже 1128 пар, т. е. объем вычислений возрастает более чем в 17 раз. При вычислениях на компьютере в статистической программе (SPSS, Statistica) коэффициент Кендалла обсчитывается аналогично коэффициентам r -Спирмена и r -Пирсона. Вычисленный коэффициент корреляции τ -Кендалла характеризуется более точным значением p -уровня.

Применение коэффициента Кендалла является предпочтительным, если в исходных данных имеются выбросы.

Особенностью ранговых коэффициентов корреляции является то, что максимальным по модулю ранговым корреляциям (+1, –1) не обязательно соответствуют строгие прямо или обратно пропорциональные связи между исходными переменными X и Y : достаточна лишь монотонная функциональная связь между ними. Ранговые корреляции достигают своего максимального по модулю значения, если большему значению одной переменной всегда соответствует большее значение другой переменной (+1), или большему значению одной переменной всегда соответствует меньшее значение другой переменной и наоборот (–1).

Проверяемая статистическая гипотеза, порядок принятия статистического решения и формулировка содержательного вывода те же, что и для случая r -Спирмена или r -Пирсона.

Если статистически достоверная связь не обнаружена, но есть основания полагать, что связь на самом деле есть, следует сначала перейти от коэффициента

r -Спирмена к коэффициенту τ -Кендалла (или наоборот), а затем проверить возможные причины недостоверности связи:

  • нелинейность связи : для этого посмотреть график двумерного рассеивания. Если связь не монотонная, то делить выборку на части, в которых связь монотонная, или делить выборку на контрастные группы и далее сравнивать их по уровню выраженности признака;
  • неоднородность выборки : посмотреть график двумерного рассеивания, попытаться разделить выборку на части, в которых связь может иметь разные направления.

Если же связь статистически достоверна, то прежде чем делать содержательный вывод, необходимо исключить возможность ложной корреляции (по аналогии с метрическими коэффициентами корреляции).

Корреляция дихотомических переменных

При сравнении двух переменных, измеренных в дихотомической шкале, мерой корреляционной связи служит так называемый коэффициент j, который представляет собой коэффициент корреляции для дихотомических данных.

Величина коэффициента φ лежит в интервале между +1 и –1. Он может быть как положительным, так и отрицательным, характеризуя направление связи двух дихотомически измеренных признаков. Однако интерпретация φ может выдвигать специфические проблемы. Дихотомические данные, входящие в схему вычисления коэффициента φ, не похожи на двумерную нормальную поверхность, следовательно, неправильно считать, что интерпретируемые значения r xy =0,60 и φ = 0,60 одинаковы. Коэффициент φ можно вычислить методом кодирования, а также используя так называемую четырехпольную таблицу или таблицу сопряженности.

Для применения коэффициента корреляции φ необходимо соблюдать следующие условия:

  • сравниваемые признаки должны быть измерены в дихотомической шкале;
  • X и Y должно быть одинаковым.

Данный вид корреляции рассчитывают в компьютерной программе SPSS на основании определения мер расстояния и мер сходства. Некоторые статистические процедуры, такие как факторный анализ, кластерный анализ, многомерное масштабирование, построены на применении этих мер, а иногда сами представляют добавочные возможности для вычисления мер подобия.

В тех случаях когда одна переменная измеряется в дихотомической шкале (переменная X ), а другая в шкале интервалов или отношений (переменная Y ), используется бисериальный коэффициент корреляции , например, при проверке гипотез о влиянии пола ребенка на показатель роста и веса. Этот коэффициент изменяется в диапазоне от –1 до +1, но его знак для интерпретации результатов не имеет значения. Для его применения необходимо соблюдать следующие условия:

  • сравниваемые признаки должны быть измерены в разных шкалах: одна X – в дихотомической шкале; другая Y – в шкале интервалов или отношений;
  • переменная Y имеет нормальный закон распределения;
  • число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Если же переменная X измерена в дихотомической шкале, а переменная Y в ранговой шкале (переменная Y ), можно использовать рангово-бисериальный коэффициент корреляции , который тесно связан с τ-Кендалла и использует в своем определении понятия совпадения и инверсии. Интерпретация результатов та же.

Проведение корреляционного анализа с помощью компьютерных программ SPSS и Statistica – простая и удобная операция. Для этого после вызова диалогового окна Bivariate Correlations (Analyze>Correlate> Bivariate…) необходимо переместить исследуемые переменные в поле Variables и выбрать метод, с помощью которого будет выявляться корреляционная связь между переменными. В файле вывода результатов для каждого рассчитываемого критерия содержится квадратная таблица (Correlations). В каждой ячейке таблицы приведены: само значение коэффициента корреляции (Correlation Coefficient), статистическая значимость рассчитанного коэффициента Sig, количество испытуемых.

В шапке и боковой графе полученной корреляционной таблицы содержатся названия переменных. Диагональ (левый верхний – правый нижний угол) таблицы состоит из единиц, так как корреляция любой переменной с самой собой является максимальной. Таблица симметрична относительно этой диагонали. Если в программе установлен флажок «Отмечать значимые корреляции», то в итоговой корреляционной таблице будут отмечены статистически значимые коэффициенты: на уровне 0,05 и меньше – одной звездочкой (*), а на уровне 0,01 – двумя звездочками (**).

Итак, подведем итоги: основное назначение корреляционного анализа – это выявление связи между переменными. Мерой связи являются коэффициенты корреляции, выбор которых напрямую зависит от типа шкалы, в которой измерены переменные, числа варьирующих признаков в сравниваемых переменных и распределения переменных. Наличие корреляции двух переменных еще не означает, что между ними существует причинная связь. Хотя корреляция прямо не указывает на причинную связь, она может быть ключом к разгадке причин. На ее основе можно сформировать гипотезы. В некоторых случаях отсутствие корреляции имеет более глубокое воздействие на гипотезу о причинной связи. Нулевая корреляция двух переменных может свидетельствовать, что никакого влияния одной переменной на другую не существует.

Определение корреляционного анализа

При решении задач экономического характера, а именно прогнозирования, зачастую используется корреляционный анализ. В его основе находятся некоторые значения случайной величины, представленной переменной, которая зависит от случая и может принимать некоторые значения с определенной вероятностью. При этом соответствующий закон распределения может показывать частоту конкретных значений в их общей совокупности. Корреляционный анализ в статистике базируется на стохастической зависимости при проведении исследований взаимосвязи между некоторыми экономическими показателями.

Разновидности корреляционного анализа

Корреляционный анализ оперирует и с функциональной (полной), и с искаженной иными факторами (неполной) зависимостями указанной взаимосвязи. Примером первого вида (функциональной зависимости) служит выпуск и потребление готовой продукции в условиях дефицита. Неполную зависимость можно увидеть, например, между производительностью труда и стажем работы рабочих. При этом больший опыт оказывает влияние на ее качество, однако под влиянием определенных факторов (здоровье или образование) данная зависимость искажается.

Использование корреляционного анализа в статистике

Корреляционный анализ широко используется в математической статистике.

При этом основной его задачей является определение тесноты связи и характера между независимыми (факторными) и зависимыми (результативными) признаками в процессе или явлении. Корреляционная связь обнаруживается лишь при масштабном факторном сопоставлении. Так, ее теснота может быть определена с помощью определенного коэффициента корреляции, специально рассчитываемого и располагающегося в интервале [-1;+1]. Характер связи между указанными показателями может быть определен по корреляционному полю. В случае, когда Y является зависимым признаком, X - независимым, то при принятии каждого случая в виде X(j) корреляционное поле будет иметь координаты (x j ;y j).

Корреляционный анализ в экономике

Экономическая деятельность субъектов хозяйствования зависит от огромного количества различных факторов. При этом необходимо рассматривать именно их комплекс, так как каждый из них отдельно не может определить изучаемое явление во всей его полноте. Поэтому лишь набор факторов в их тесной взаимосвязи дает четкое представление об исследуемом объекте. Многофакторный корреляционный анализ может состоять из нескольких этапов. В первую очередь определяются те факторы, с помощью которых оказывается максимальное воздействие на исследуемый показатель, и выбираются самые существенные для проведения анализа. Второй этап предусматривает сбор и оценку исходной информации, которая необходима для корреляционного анализа. На третьем проводится изучение характера, а также моделируется связь между итоговыми показателями и прочими факторами. Другими словами, обосновывается сформированное математическое уравнение, наиболее точно выражающее сущность анализируемой зависимости. И последний этап предусматривает оценку результатов проведенного корреляционного анализа с практическим его применением.



Рассказать друзьям