Как рассчитать коэффициент корреляции спирмена. Коэффициент ранговой корреляции спирмена

💖 Нравится? Поделись с друзьями ссылкой

Корреляция Пирсона есть мера линейной связи между двумя переменными. Она позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном.

На практике связь между двумя переменными, если она есть, является вероятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия регрессии - это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси Y) от каждой точки графика рассеивания до прямой является минимальной

Особое значение для оценки точности предсказания имеет дисперсия оценок зависимой переменной. По сути, дисперсия оценок зависимой переменной Y - это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X. Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции.

Квадрат коэффициента корреляции зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Коэффициент детерминации, таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.

Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция __________не является линейной функцией связи между двумя переменными. Поэтому, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т.е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.

Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате - коэффициент детерминации: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. В отличие от коэффициента корреляции коэффициент детерминации линейно возрастает с увеличением силы связи.

Коэффициенты корреляции Спирмена и τ-Кендалла (ранговые корреляции)

Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них - в порядковой, а другая - в метрической, то применяются ранговые коэффициенты корреляции: Спирмена или τ-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных.

Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

Если члены группы численностью были ранжированы сначала по переменной x, затем – по переменной y, то корреляцию между переменными x и y можно получить, просто вычислив коэффициент Пирсона для двух рядов рангов. При условии отсутствия связей в рангах (т.е. отсутствия повторяющихся рангов) по той и другой переменной, формула для Пирсона может быть существенно упрощена в вычислительном отношении и преобразована в формулу, известную как Спирмена.

Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции.

Коэффицент ранговой корреляции целесообразно применять при наличии небольшого количества наблюдений. Данный метод может быть использован не только для количественно выраженных данных, но также и в случаях, когда регистрируемые значения определяются описательными признаками различной интенсивности.

Коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.

Альтернативу корреляции Спирмена для рангов представляет корреляция τ-Кендалла. В основе корреляции, предложенной М.Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по x совпадает по направлению с изменением по y, то это свидетельствует о положительной связи, если не совпадает - то об отрицательной связи.

Коэффициент корреляции рангов, предложенный К. Спирменом, относится к непараметрическим показателям связи между переменными, измеренными в ранговой шкале. При расчете этого коэффициента не требуется никаких предположений о характере распределений признаков в генеральной совокупности. Этот коэффициент определяет степень тесноты связи порядковых признаков, которые в этом случае представляют собой ранги сравниваемых величин.

Величина коэффициента корреляции Спирмена также лежит в интервале +1 и -1. Он, как и коэффициент Пирсона, может быть положительным и отрицательным, характеризуя направленность связи между двумя признаками, измеренными в ранговой шкале.

В принципе число ранжируемых признаков (качеств, черт и т.п.) может быть любым, но сам процесс ранжирования большего, чем 20 числа признаков -- затруднителен. Возможно, что именно поэтому таблица критических значений рангового коэффициента корреляции рассчитана лишь для сорока ранжируемых признаков (n < 40, табл. 20 приложения 6).

Ранговый коэффициент корреляции Спирмена подсчитывается по формуле:

где n - количество ранжируемых признаков (показателей, испытуемых);

D - разность между рангами по двум переменным для каждого испытуемого;

Сумма квадратов разностей рангов.

Используя ранговый коэффициент корреляции, рассмотрим следующий пример.

Пример : Психолог выясняет, как связаны между собой индивидуальные показатели готовности к школе, полученные до начала обучения в школе у 11 первоклассников и их средняя успеваемость в конце учебного года.

Для решения этой задачи были проранжированы, во-первых, значения показателей школьной готовности, полученные при поступлении в школу, и, во-вторых, итоговые показатели успеваемости в конце года у этих же учащихся в среднем. Результаты представим в табл. 13.

Таблица 13

№ учащихся

Ранги показателей школьной готовности

Ранги среднегодовой успеваемости

Подставляем полученные данные в формулу и производим расчет. Получаем:

Для нахождения уровня значимости обращаемся к табл. 20 приложения 6, в которой приведены критические значения для коэффициентов ранговой корреляции.

Подчеркнем, что в табл. 20 приложения 6, как и в таблице для линейной корреляции Пирсона, все величины коэффициентов корреляции даны по абсолютной величине. Поэтому, знак коэффициента корреляции учитывается только при его интерпретации.

Нахождение уровней значимости в данной таблице осуществляется по числу n, т. е. по числу испытуемых. В нашем случае n = 11. Для этого числа находим :

0,61 для P 0,05

0,76 для P 0,01

Строим соответствующую ``ось значимости"":

Полученный коэффициент корреляции совпал с критическим значением для уровня значимости в 1%. Следовательно, можно утверждать, что показатели школьной готовности и итоговые оценки первоклассников связаны положительной корреляционной зависимостью - иначе говоря, чем выше показатель школьной готовности, тем лучше учится первоклассник. В терминах статистических гипотез психолог должен отклонить нулевую (Нгипотезу о сходстве и принять альтернативную (Но наличии различий, которая говорит о том, что связь между показателями школьной готовности и средней успеваемостью отлична от нуля.

Случай одинаковых (равных) рангов

При наличии одинаковых рангов формула расчета коэффициента линейной корреляции Спирмена будет несколько иной. В этом случае в формулу вычисления коэффициентов корреляции добавляются два новых члена, учитывающие одинаковые ранги. Они называются поправками на одинаковые ранги и добавляются в числитель расчетной формулы.

где n - число одинаковых рангов в первом столбце,

k - число одинаковых рангов во втором столбце.

Если имеется две группы одинаковых рангов, в каком-либо столбце то формула поправки несколько усложняется:

где n - число одинаковых рангов в первой группе ранжируемого столбца,

k - число одинаковых рангов в второй группе ранжируемого столбца. Модификация формулы в общем случае такова:

Пример : Психолог, используя тест умственного развития (ШТУР) проводит исследование интеллекта у 12 учащихся 9 класса. Одновременно с этим, но просит учителей литературы и математики провести ранжирование этих же учащихся по показателям умственного развития. Задача заключается в том, чтобы определить, как связаны между собой объективные показатели умственного развития (данные ШТУРа) и экспертные оценки учителей.

Экспериментальные данные этой задачи и дополнительные столбцы, необходимые для расчета коэффициента корреляции Спирмена, представим в виде табл. 14.

Таблица 14

№ учащихся

Ранги тестирования с помощью ШТУРа

Экспертные оценки учителей по математики

Экспертные оценки учителей по литературе

D (второго и третьего столбцов)

D (второго и четвертого столбцов)

(второго и третьего столбцов)

(второго и четвертого столбцов)

Поскольку при ранжировании использовались одинаковые ранги, то необходимо проверить правильность ранжирования во втором, третьем и четвертом столбцах таблицы. Суммирование в каждом из этих столбцов дает одинаковую сумму - 78.

Проверяем по расчетной формуле. Проверка дает:

В пятом и шестом столбцах таблицы приведены величины разности рангов между экспертными оценками психолога по тесту ШТУР для каждого ученика и величинами экспертных оценок учителей, соответственно по математике и литературе. Сумма величин разностей рангов должна быть равна нулю. Суммирование величин D в пятом и шестом столбцах дало искомый результат. Следовательно, вычитание рангов проведено правильно. Подобную проверку необходимо делать каждый раз при проведении сложных видов ранжирования.

Прежде, чем начать расчет по формуле необходимо рассчитать поправки на одинаковые ранги для второго, третьего и четвертого столбцов таблицы.

В нашем случае во втором столбце таблицы два одинаковых ранга, следовательно, по формуле величина поправки D1 будет:

В третьем столбце три одинаковых ранга, следовательно, по формуле величина поправки D2 будет:

В четвертом столбце таблицы две группы по три одинаковых ранга, следовательно, по формуле величина поправки D3 будет:

Прежде, чем преступить к решению задачи, напомним, что психолог выясняет два вопроса - как связаны величины рангов по тесту ШТУР с экспертными оценками по математике и литературе. Именно поэтому расчет проводится дважды.

Считаем первый ранговый коэффициент с учетом добавок по формуле. Получаем:

Подсчитаем без учета добавки:

Как видим, разница в величинах коэффициентов корреляции оказалась очень незначительной.

Считаем второй ранговый коэффициент с учетом добавок по формуле. Получаем:

Подсчитаем без учета добавки:

И опять, различия оказались очень незначительны. Поскольку число учащихся в обоих случаях одинаково, по табл. 20 приложения 6 находим критические значения при n = 12 сразу для обоих коэффициентов корреляции.

0,58 для P 0,05

0,73 для P 0,01

Откладываем первое значение на ``оси значимости"":

В первом случае полученный коэффициент ранговой корреляции находится в зоне значимости. Поэтому психолог должен отклонить нулевую Нгипотезу о сходстве коэффициента корреляции с нулем и принять альтернативную Но значимом отличии коэффициента корреляции от нуля. Иными словами, полученный результат говорит о том, что чем выше экспертные оценки учащихся по тесту ШТУР, тем выше их экспертные оценки по математике.

Откладываем второе значение на ``оси значимости"":

Во втором случае коэффициент ранговой корреляции находится в зоне неопределенности. Поэтому психолог может принять нулевую Нгипотезу о сходстве коэффициента корреляции с нулем и отклонить альтернативную Но значимом отличии коэффициента корреляции от нуля. В этом случае полученный результат говорит о том, что экспертные оценки учащихся по тесту ШТУР не связаны с экспертными оценками по литературе.

Для применения коэффициента корреляции Спирмена, необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в порядковой (ранговой) шкале, но могут быть измерены также в шкале интервалов и отношений.

2. Характер распределения коррелируемых величин не имеет значения.

3. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Таблицы для определения критических значений коэффициента корреляции Спирмена (табл. 20 приложение 6) рассчитаны от числа признаков равных n = 5 до n = 40 и при большем числе сравниваемых переменных следует использовать таблицу для пирсоновского коэффициента корреляции (табл. 19 приложение 6). Нахождение критических значений осуществляется при k = n.

При наличии двух рядов значений, подвергающихся ранжированию, рационально рассчитывать ранговую корреляцию Спирмена.

Такие ряды могут представляться:

  • парой признаков, определяемых в одной и той же группе исследуемых объектов;
  • парой индивидуальных соподчиненных признаков, определяемых у 2 исследуемых объектов по одинаковому набору признаков;
  • парой групповых соподчиненных признаков;
  • индивидуальной и групповой соподчиненностью признаков.

Метод предполагает проведение ранжирования показателей в отдельности для каждого из признаков.

Наименьшее значение имеет наименьший ранг.

Этот метод относится к непараметрическому статистическому методу, предназначенному для установления существования связи изучаемых явлений:

  • определение фактической степени параллелизма между двумя рядами количественных данных;
  • оценка тесноты выявленной связи, выражаемой количественно.

Корреляционный анализ

Статистический метод, предназначенный для выявления существования зависимости между 2 и более случайными величинами (переменными), а также ее силы, получил название корреляционного анализа.

Получил свое название от correlatio (лат.) – соотношение.

При его использовании возможны варианты развития событий:

  • наличие корреляции (положительная либо отрицательная);
  • отсутствие корреляции (нулевая).

В случае установления зависимости между переменными речь идет об их коррелировании. Иными словами, можно сказать, что при изменении значения Х, обязательно будет наблюдаться пропорциональное изменение значения У.

В качестве инструментов используются различные меры связи (коэффициенты).

На их выбор оказывает влияние:

  • способ измерения случайных чисел;
  • характер связи между случайными числами.

Существование корреляционной связи может отображаться графически (графики) и с помощью коэффициента (числовое отображение).

Корреляционная связь характеризуется такими признаками:

  • сила связи (при коэффициенте корреляции от ±0,7 до ±1 – сильная; от ±0,3 до ±0,699 – средняя; от 0 до ±0,299 – слабая);
  • направление связи (прямая или обратная).

Цели корреляционного анализа

Корреляционный анализ не позволяет установить причинную зависимость между исследуемыми переменными.

Он проводится с целью:

  • установления зависимости между переменными;
  • получения определенной информации о переменной на основе другой переменной;
  • определения тесноты (связи) этой зависимости;
  • определение направления установленной связи.

Методы корреляционного анализа


Данный анализ может выполняться с использованием:

  • метода квадратов или Пирсона;
  • рангового метода или Спирмена.

Метод Пирсона применим для расчетов требующих точного определения силы, существующей между переменными. Изучаемые с его помощью признаки должны выражаться только количественно.

Для применения метода Спирмена или ранговой корреляции нет жестких требований в выражении признаков – оно может быть, как количественным, так и атрибутивным. Благодаря этому методу получается информация не о точном установлении силы связи, а имеющая ориентировочный характер.

В рядах переменных могут содержаться открытые варианты. Например, когда стаж работы выражается такими значениями, как до 1 года, более 5 лет и т.д.

Коэффициент корреляции

Статистическая величина характеризующая характер изменения двух переменных получила название коэффициента корреляции либо парного коэффициента корреляции. В количественном выражении он колеблется в пределах от -1 до +1.

Наиболее распространены коэффициенты:

  • Пирсона – применим для переменных принадлежащих к интервально шкале;
  • Спирмена – для переменных порядковой шкалы.

Ограничения использования коэффициента корреляции

Получение недостоверных данных при расчете коэффициента корреляции возможно в тех случаях, когда:

  • в распоряжении имеется достаточное количество значений переменной (25-100 пар наблюдений);
  • между изучаемыми переменными установлено, например, квадратичное соотношение, а не линейное;
  • в каждом случае данные содержат больше одного наблюдения;
  • наличие аномальных значений (выбросов) переменных;
  • исследуемые данные состоят из четко выделяемых подгрупп наблюдений;
  • наличие корреляционной связи не позволяет установить какая из переменных может рассматриваться в качестве причины, а какая – в качестве следствия.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Ранги Спирмена

Коэффициент ранговой корреляции Спирмена позволяет статистически установить наличие связи между явлениями. Его расчет предполагает установление для каждого признака порядкового номера – ранга. Ранг может быть возрастающим либо убывающим.

Количество признаков, подвергаемых ранжированию, может быть любым. Это достаточно трудоемкий процесс, ограничивающий их количество. Затруднения начинаются при достижении 20 признаков.

Для расчета коэффициента Спирмена пользуются формулой:

в которой:

n – отображает количество ранжируемых признаков;

d – не что иное как разность между рангами по двум переменным;

а ∑(d2) – сумма квадратов разностей рангов.

Применение корреляционного анализа в психологии

Статистическое сопровождение психологических исследований позволяет сделать их более объективными и высоко репрезентативными. Статистическая обработка данных полученных в ходе психологических экспериментов способствует извлечению максимума полезной информации.

Наиболее широкое применение в обработке их результатов получил корреляционный анализ.

Уместным является проведение корреляционного анализа результатов, полученных при проведении исследований:

  • тревожности (по тестам R. Temml, M. Dorca, V. Amen);
  • семейных взаимоотношений («Анализ семейных взаимоотношений» (АСВ) опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • уровня интернальности-экстернальности (опросник Е.Ф. Бажина, Е.А. Голынкиной и А.М. Эткинда);
  • уровня эмоционального выгорания у педагогов (опросник В.В. Бойко);
  • связи элементов вербального интеллекта учащихся при разно профильном обучении (методика К.М. Гуревича и др.);
  • связи уровня эмпатии (методика В.В. Бойко) и удовлетворенностью браком (опросник В.В. Столина, Т.Л. Романовой, Г.П. Бутенко);
  • связи между социометрическим статусом подростков (тест Jacob L. Moreno) и особенностями стиля семейного воспитания (опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • структуры жизненных целей подростков, воспитанных в полных и неполных семьях (опросник Edward L. Deci, Richard M. Ryan Ryan).

Краткая инструкция к проведению корреляционного анализа по критерию Спирмена

Проведение корреляционного анализа с использованием метода Спирмена выполняется по следующему алгоритму:

  • парные сопоставимые признаки располагаются в 2 ряда, один из которых обозначается с помощью Х, а другой У;
  • значения ряда Х располагаются в порядке возрастания либо убывания;
  • последовательность расположения значений ряда У определяется их соответствием значений ряда Х;
  • для каждого значения в ряду Х определить ранг — присвоить порядковый номер от минимального значения к максимальному;
  • для каждого из значений в ряду У также определить ранг (от минимального к максимальному);
  • вычислить разницу (D) между рангами Х и У, прибегнув к формуле D=Х-У;
  • полученные значения разницы возводятся в квадрат;
  • выполнить суммирование квадратов разниц рангов;
  • выполнить расчеты по формуле:

Пример корреляции Спирмена

Необходимо установить наличие корреляционной связи между рабочим стажем и показателем травматизма при наличии следующих данных:

Наиболее подходящим методом анализа является ранговый метод, т.к. один из признаков представлен в виде открытых вариантов: рабочий стаж до 1 года и рабочий стаж 7 и более лет.

Решение задачи начинается с ранжирования данных, которые сводятся в рабочую таблицу и могут быть выполнены вручную, т.к. их объем не велик:

Рабочий стаж Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
d(х-у)
до 1 года 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 и более 6 5 1 +4 16
Σ d2 = 38,5

Появление дробных рангов в колонке связано с тем, что в случае появления вариант одинаковых по величине находится среднее арифметическое значение ранга. В данном примере показатель травматизма 12 встречается дважды и ему присваиваются ранги 2 и 3, находим среднее арифметическое этих рангов (2+3)/2= 2,5 и помещаем это значение в рабочую таблицу для 2 показателей.
Выполнив подстановку полученных значений в рабочую формулу и произведя несложные расчёты получаем коэффициент Спирмена равный -0,92

Отрицательное значение коэффициента свидетельствует о наличии обратной связи между признаками и позволяет утверждать, что небольшой стаж работы сопровождается большим числом травм. Причем, сила связи этих показателей достаточно большая.
Следующим этапом расчётов является определение достоверности полученного коэффициента:
рассчитывается его ошибка и критерий Стьюдента

37. Коэффициент ранговой корреляции Спирмена.

С. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Коэффициент ранговой корреляции Спирмена используется в случаях, когда:
- переменные имеют ранговую шкалу измерения;
- распределение данных слишком отличается от нормального или вообще неизвестно;
- выборки имеют небольшой объём (N < 30).

Интерпретация рангового коэффициента корреляции Спирмена не отличается от коэффициента Пирсона, однако его смысл несколько отличен. Чтобы понять различие этих методов и логически обосновать области их применения сравним их формулы.

Коэффициент корреляции Пирсона:

Коэффициент корреляции Спирмена:

Как видим формулы значительно различаются. Сравним формулы

В формуле корреляции Пирсона используется среднее арифметическое и стандартное отклонение коррелируемых рядов, а в формуле Спирмена не используется. Таким образом, для получения адекватного результата по формуле Пирсона, необходимо, чтобы коррелируемые ряды были приближены к нормальному распределению (среднее и стандартное отклонение являются параметрами нормального распределения ). Для формулы Спирмена это не актуально.

Элементом формулы Пирсона является стандартизация каждого ряда в z-шкалу .

Как видим, перевод переменных в Z-шкалу присутствует в формуле коэффициента корреляции Пирсона. Соответственно, для коэффициента Пирсона абсолютно не имеет значение масштаб данных: к примеру, мы можем коррелировать две переменных, одна из которых имеет мин. = 0 и макс. = 1, а вторая мин. = 100 и макс. = 1000. Как бы не различался размах диапазона значений, все они будут переведены в стандартные z-значения одинаковые по своему масштабу.

В коэффициенте Спирмена такой нормализации не происходит, поэтому

ОБЯЗАТЕЛЬНЫМ УСЛОВИЕМ ИСПОЛЬЗОВАНИЯ КОЭФФИЦИЕНТА СПИРМЕНА ЯВЛЯЕТСЯ РАВЕНСТВО РАЗМАХА ДВУХ ПЕРЕМЕННЫХ.

Перед использованием коэффициента Спирмена для рядов данных с различным размахом, необходимо обязательно их ранжировать . Ранжирование приводит к тому, что значения этих рядов приобретают одинаковый минимум = 1 (минимальный ранг) и максимум, равный количеству значений (максимальный, последний ранг = N, т.е. максимальному количеству случаев в выборке).

В каких случаях можно обойтись без ранжирования

Это случаи, когда данные имеют исходно ранговую шкалу . К примеру, тест ценностных ориентаций Рокича.

Также, это случаи, когда количество вариантов значений невелико и в выборке присутствуют фиксированные минимум и максимум. К примеру, в семантическом дифференциале минимум = 1, максимум = 7.

Пример расчета рангового коэффициента корреляции Спирмена

Тест ценностных ориентаций Рокича был проведён на двух выборках Xи Y. Задача: узнать, насколько близки иерархии ценностей данных выборок (буквально – на сколько они похожи).

Полученное значение r=0,747 проверяется по таблице критических значений . Согласно таблице, при N=18, полученное значение достоверно на уровне p<=0,005

Ранговые коэффициенты корреляции по Спирману и Кендалу

Для переменных, принадлежащих к порядковой шкале или для переменных, не подчиняющихся нормальному распределению, а также для переменных принадлежащих к интервальной шкале, вместо коэффициента Пирсона рассчитывается ранговая корреляция по Спирману. Для этого отдельным значениям переменных присваиваются ранговые места, которые впоследствии обрабатываются с помощью соответствующих формул. Чтобы выявить ранговую корреляцию, уберите в диалоговом окне Bivariate Correlations... (Парные корреляции) метку для расчета корреляции по Пирсону, установленную по умолчанию. Вместо этого активируйте расчет корреляции Спирмана. Это расчет даст следующие результаты. Коэффициенты ранговой корреляции весьма близки к соответствующим значениям коэффициентов Пирсона (исходные переменные имеют нормальное распределение).

titkova-matmetody.pdf с. 45

Метод ранговой корреляции Спирмена позволяет определить тесноту (силу) и направление

корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков.

Для подсчета ранговой корреляции необходимо располагать двумя рядами значений,

которые могут быть проранжированы. Такими рядами значений могут быть:

1) два признака, измеренные в одной и той же группе испытуемых;

2) две индивидуальные иерархии признаков, выявленные у двух испытуемых по одному и тому же

набору признаков;

3) две групповые иерархии признаков,

4) индивидуальная и групповая иерархии признаков.

Вначале показатели ранжируются отдельно по каждому из признаков.

Как правило, меньшему значению признака начисляется меньший ранг.

В первом случае (два признака) ранжируются индивидуальные значения по первому

признаку, полученные разными испытуемыми, а затем индивидуальные значения по второму

признаку.

Если два признака связаны положительно, то испытуемые, имеющие низкие ранги по

одному из них, будут иметь низкие ранги и по другому, а испытуемые, имеющие высокие ранги по

одному из признаков, будут иметь по другому признаку также высокие ранги. Для подсчета rs

необходимо определить разности (d) между рангами, полученными данным испытуемым по обоим

признакам. Затем эти показатели d определенным образом преобразуются и вычитаются из 1. Чем

меньше разности между рангами, тем больше будет rs, тем ближе он будет к +1.

Если корреляция отсутствует, то все ранги будут перемешаны и между ними не будет

никакого соответствия. Формула составлена так, что в этом случае rs окажется близким к 0.

В случае отрицательной корреляции низким рангам испытуемых по одному признаку

будут соответствовать высокие ранги по другому признаку, и наоборот. Чем больше несовпадение

между рангами испытуемых по двум переменным, тем ближе rs к -1.

Во втором случае (два индивидуальных профиля ), ранжируются индивидуальные

значения, полученные каждым из 2-х испытуемым по определенному (одинаковому для них

обоих) набору признаков. Первый ранг получит признак с самым низким значением; второй ранг –

признак с более высоким значением и т.д. Очевидно, что все признаки должны быть измерены в

одних и тех же единицах, иначе ранжирование невозможно. Например, невозможно

проранжировать показатели по личностному опроснику Кеттелла (16PF), если они выражены в

"сырых" баллах, поскольку по разным факторам диапазоны значений различны: от 0 до 13, от 0 до

20 и от 0 до 26. Мы не можем сказать, какой из факторов будет занимать первое место по

выраженности, пока не приведем все значения к единой шкале (чаще всего это шкала стенов).

Если индивидуальные иерархии двух испытуемых связаны положительно, то признаки,

имеющие низкие ранги у одного из них, будут иметь низкие ранги и у другого, и наоборот.

Например, если у одного испытуемого фактор Е (доминантность) имеет самый низкий ранг, то и у

другого испытуемого он должен иметь низкий ранг, если у одного испытуемого фактор С

(эмоциональная устойчивость) имеет высший ранг, то и другой испытуемый должен иметь по

этому фактору высокий ранг и т.д.

В третьем случае (два групповых профиля), ранжируются среднегрупповые значения,

полученные в 2-х группах испытуемых по определенному, одинаковому для двух групп, набору

признаков. В дальнейшем линия рассуждений такая же, как и в предыдущих двух случаях.

В случае 4-ом (индивидуальный и групповой профили), ранжируются отдельно

индивидуальные значения испытуемого и среднегрупповые значения по тому же набору

признаков, которые получены, как правило, при исключении этого отдельного испытуемого – он

не участвует в среднегрупповом профиле, с которым будет сопоставляться его индивидуальный

профиль. Ранговая корреляция позволит проверить, насколько согласованы индивидуальный и

групповой профили.

Во всех четырех случаях значимость полученного коэффициента корреляции определяется

по количеству ранжированных значений N. В первом случае это количество будет совпадать с

объемом выборки n. Во втором случае количеством наблюдений будет количество признаков,

составляющих иерархию. В третьем и четвертом случае N – это также количество сопоставляемых

признаков, а не количество испытуемых в группах. Подробные пояснения даны в примерах. Если

абсолютная величина rs достигает критического значения или превышает его, корреляция

достоверна.

Гипотезы.

Возможны два варианта гипотез. Первый относится к случаю 1, второй – к трем остальным

Первый вариант гипотез

H0: Корреляция между переменными А и Б не отличается от нуля.

H2: Корреляция между переменными А и Б достоверно отличается от нуля.

Второй вариант гипотез

H0: Корреляция между иерархиями А и Б не отличается от нуля.

H2: Корреляция между иерархиями А и Б достоверно отличается от нуля.

Ограничения коэффициента ранговой корреляции

1. По каждой переменной должно быть представлено не менее 5 наблюдений. Верхняя

граница выборки определяется имеющимися таблицами критических значений.

2. Коэффициент ранговой корреляции Спирмена rs при большом количестве одинаковых

рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале

оба коррелируемых ряда должны представлять собой две последовательности несовпадающих

значений. В случае, если это условие не соблюдается, необходимо вносить поправку на

одинаковые ранги.

Коэффициент ранговой корреляции Спирмена подсчитывается по формуле:

Если в обоих сопоставляемых ранговых рядах присутствуют группы одинаковых рангов,

перед подсчетом коэффициента ранговой корреляции необходимо внести поправки на одинаковые

ранги Та и Тв:

Та = Σ (а3 – а)/12,

Тв = Σ (в3 – в)/12,

где а – объем каждой группы одинаковых рангов в ранговом ряду А, в объем каждой

группы одинаковых рангов в ранговом ряду В.

Для подсчета эмпирического значения rs используют формулу:

38. Точечно-бисериальный коэффициент корреляции.

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Пусть переменная X измерена в сильной шкале, а переменная Y – в дихотомической. Точечный бисериальный коэффициент корреляции rpb вычисляется по формуле:

Здесь x 1 – среднее значение по Х объектов со значением «единица» по Y;

x 0 – среднее значение по Х объектов со значением «ноль» по Y;

s х – среднее квадратическое отклонение всех значений по Х;

n 1 – число объектов «единица» по Y, n 0 - число объектов «ноль» по Y;

n = n 1 + n 0 – объем выборки.

Точечный бисериальный коэффициент корреляции можно рассчитать также с помощью других эквивалентных выражений:

Здесь x – общее среднее значение по переменной Х .

Точечный бисериальный коэффициент корреляции rpb изменяется в пределах от –1 до +1. Его значение равно нулю в том случае, если пере-менные с единицей по Y имеют среднее по Y , равное среднему переменных с нулем по Y .

Проверка гипотезы о значимости точечного бисериального коэффициента корреляции заключается в проверке нулевой гипотезы h 0 о равенстве генерального коэффициента корреляции нулю: ρ = 0, которая осуществляется с помощью критерия Стьюдента. Эмпирическое значение

сравнивается с критическими значениями t a (df ) для числа степеней свободы df = n – 2

Если выполняется условие | t | ≤ (df ), нулевая гипотеза ρ = 0 не от-вергается. Точечный биссериальный коэффициент корреляции значимо от-личается от нуля, если эмпирическое значение | t | попадает в критическую область, то есть если выполняется условие | t | > (n – 2). Достоверность связи, рассчитанной с помощью точечного бисериального коэффициента корреляции rpb , можно определить также с помощью критерия χ 2 для числа степеней свободы df = 2.

Точечно-бисериальная корреляция

Последующая модификация коэффициента корреляции произведения моментов получила отражение в точечно бисериальном r . Эта стат. показывает связь между двумя переменными, одна из к-рых предположительно непрерывна и нормально распределена, а др. яв-ся дискретной в точном смысле слова. Точечно-бисериальный коэффициент корреляции обозначается через r pbis Поскольку в r pbis дихотомия отражает подлинную природу дискретной переменной, а не яв-ся искусственной, как в случае r bis , его знак определяется произвольно. Поэтому для всех практ. целей r pbis рассматривается в диапазоне от 0,00 до +1,00.

Существует и такой случай, когда две переменные считаются непрерывными и нормально распределенными, но обе искусственно дихотомизированы, как в случае бисериальной корреляции. Для оценки связи между такими переменными применяется тетрахорический коэффициент корреляции r tet ,к-рый был тж выведен Пирсоном. Осн. (точные) формулы и процедуры для вычисления r tet достаточно сложны. Поэтому при практ. применении этого метода используются приближения r tet ,получаемые на основе сокращенных процедур и таблиц.

/on-line/dictionary/dictionary.php?term=511

ТОЧЕЧНО-БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - это коэффициент корреляции между двумя переменными, одна из которых измерена в дихотомической шкале, а другая – в интервальной шкале. Применяется в классической и современной тестологии как показатель качества тестового задания – надежности-согласованности с общим баллом по тесту.

Для коррелирования переменных, измеренных в дихотомической и интервальной шкале используют точечно-бисериальный коэффициент корреляции .
Точечно-бисериальный коэффициент корреляции - это метод корреляционного анализа отношения переменных, одна из которых измерена в шкале наименований и принимает только 2 значения (к примеру, мужчины/женщины, ответ верный/ответ неверный, признак есть/признака нет), а вторая в шкале отношений или интервальной шкале. Формула расчета коэффициента точечно-бисериальной корреляции:

Где:
m1 и m0 - средние значения Х со значением 1 или 0 по Y.
σx – стандартное отклонение всех значений по Х
n1 ,n0 – количество значений Х с 1 или 0 по Y.
n – общее количество пар значений

Чаще всего данный вид коэффициента корреляции применяется для расчета связи пунктов теста с суммарной шкалой. Это один из видов проверки валидности.

39. Рангово-бисериальный коэффициент корреляции.

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

harchenko-korranaliz.pdf с. 28

Рангово-бисериальный коэффициент корреляции, используемый в случаях, когда одна из переменных (Х ) представлена в порядковой шкале, а другая (Y ) – в дихотомической, вычисляется по формуле

.

Здесь – средний ранг объектов, имеющих единицу по Y ; – средний ранг объектов с нулем по Y , n – объем выборки.

Проверка гипотезы о значимости рангово-бисериального коэффи-циента корреляции осуществляется аналогично точечному биссериальному коэффициенту корреляции с помощью критерия Стьюдента с заменой в формулах r pb на r rb .

В тех случаях, когда одна переменная измеряется в дихотомической шкале (переменная X), а другая в ранговой шкале (переменная У), используется рангово-бисериальный коэффициент корреляции. Мы помним, что переменная X, измеренная в дихотомической шкале, принимает только два значения (кода) 0 и 1. Особо подчеркнем: несмотря на то что этот коэффициент изменяется в диапазоне от –1 до +1, его знак для интерпретации результатов не имеет значения. Это еще одно исключение из общего правила.

Расчет этого коэффициента производится по формуле:

где `X 1средний ранг по тем элементам переменной Y , которым соответствует код (признак) 1 в переменной Х ;

`X 0– средний ранг по тем элементам переменной Y, которым соответствует код (признак) 0 в переменной Х\

N – общее количество элементов в переменной X.

Для применения рангово-бисериального коэффициента корреляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в разных шкалах: одна X – в дихотомической шкале; другая Y– в ранговой шкале.

2. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

3. Для оценки уровня достоверности рангово-бисериального коэффициента корреляции следует пользоваться формулой (11.9)и таблицей критических значений для критерия Стьюдентапри k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Случаи, когда одна из переменных представлена в дихотомической шкале , а другая в ранговой (порядковой) , требуют применения коэффициента рангово-бисериальной корреляции:

rpb=2 / n * (m1 - m0)

где:
n – число объектов измерения
m1 и m0 - средний ранг объектов с 1 или 0 по второй переменной.
Данный коэффициент также применяется при проверке валидности тестов.

40. Коэффициент линейной корреляции.

О корреляции вообще (и в частности о линейной как раз) см. вопрос № 36 с. 56 (64) 063.JPG

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ г-ПИРСОНА

r -Пирсона (Pearson r ) применяется для изучения взаимосвязи двух метричес- ких переменных, измеренных на одной и той же выборке. Существует множество ситуаций, в которых уместно его применение. Влияет ли интеллект на успе-ваемость на старших курсах университета? Связан ли размер заработной пла-ты работника с его доброжелательностью к коллегам? Влияет ли настроение школьника на успешность решения сложной арифметической задачи? Для ответа на подобные вопросы исследователь должен измерить два интересую-щих его показателя у каждого члена выборки. Данные для изучения взаимо-связи затем сводятся в таблицу, как в приведенном ниже примере.

ПРИМЕР 6.1

В таблице приведен пример исходных данных измерения двух показателей интел-лекта (вербального и невербального) у 20 учащихся 8-го класса.

Связь между этими переменными можно изобразить при помощи диаграммы рас-сеивания (см. рис. 6.3). Диаграмма показывает, что существует некоторая взаимо-связь измеренных показателей: чем больше значения вербального интеллекта, тем (преимущественно) больше значения невербального интеллекта.

Прежде чем дать формулу коэффициента корреляции, попробуем просле-дить логику ее возникновения, используя данные примера 6.1. Положение каждой /-точки (испытуемого с номером /) на диаграмме рассеивания отно-сительно остальных точек (рис. 6.3) может быть задано величинами и знака-ми отклонений соответствующих значений переменных от своих средних ве-личин: (xj - MJ и (у, -М у ). Если знаки этих отклонений совпадают, то это свидетельствует в пользу положительной взаимосвязи (большим значениям по х соответствуют большие значения по у или меньшим значениям по х со-ответствуют меньшие значения по у).

Для испытуемого № 1 отклонение от среднего по х и по у положительное, а для испытуемого № 3 и то и другое отклонения отрицательные. Следовательно, данные того и другого свидетельствуют о положительной взаимосвязи изучаемых призна-ков. Напротив, если знаки отклонений от средних по х и по у различаются, то это будет свидетельствовать об отрицательной взаимосвязи между признаками. Так, для испытуемого № 4 отклонение от среднего по х является отрицательным, по у - положительным, а для испытуемого № 9 - наоборот.

Таким образом, если произведение отклонений (х,- М х ) х (у, - М у ) поло-жительное, то данные /-испытуемого свидетельствуют о прямой (положи-тельной) взаимосвязи, а если отрицательное - то об обратной (отрицатель-ной) взаимосвязи. Соответственно, если х w у ъ основном связаны прямо пропорционально, то большинство произведений отклонений будет поло-жительным, а если они связаны обратным соотношением, то большинство произведений будет отрицательным. Следовательно, общим показателем для силы и направления взаимосвязи может служить сумма всех произведений отклонений для данной выборки:

При прямо пропорциональной связи между переменными эта величина является большой и положительной - для большинства испытуемых откло-нения совпадают по знаку (большим значениям одной переменной соответ-ствуют большие значения другой переменной и наоборот). Если же х и у име-ют обратную связь, то для большинства испытуемых большим значениям одной переменной будут соответствовать меньшие значения другой перемен-ной, т. е. знаки произведений будут отрицательными, а сумма произведений в целом будет тоже большой по абсолютной величине, но отрицательной по знаку. Если систематической связи между переменными не будет наблюдать-ся, то положительные слагаемые (произведения отклонений) уравновесятся отрицательными слагаемыми, и сумма всех произведений отклонений будет близка к нулю.

Чтобы сумма произведений не зависела от объема выборки, достаточно ее усреднить. Но мера взаимосвязи нас интересует не как генеральный параметр, а как вычисляемая его оценка - статистика. Поэтому, как и для формулы дис-персии, в этом случае поступим также, делим сумму произведений отклоне-ний не на N , а на TV- 1. Получается мера связи, широко применяемая в физи-ке и технических науках, которая называется ковариацией (Covahance ):


В психологии, в отличие от физики, большинство переменных измеряют-ся в произвольных шкалах, так как психологов интересует не абсолютное зна-чение признака, а взаимное расположение испытуемых в группе. К тому же ковариация весьма чувствительна к масштабу шкалы (дисперсии), в которой измерены признаки. Чтобы сделать меру связи независимой от единиц изме-рения того и другого признака, достаточно разделить ковариацию на соот-ветствующие стандартные отклонения. Таким образом и была получена фор- мула коэффициента корреляции К. Пирсона:

или, после подстановки выражений для о х и


Если значения той и другой переменной были преобразованы в г-значения по формуле


то формула коэффициента корреляции r-Пирсона выглядит проще (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

КОРРЕЛЯЦИЯ ЛИНЕЙНАЯ - статистическая линейная связь непричинного характера между двумя количественными переменными х и у . Измеряется с помощью "коэффициента К.Л." Пирсона, который является результатом деления ковариации на стандартные отклонения обеих переменных:

,

где s xy - ковариация между переменными х и у ;

s x , s y - стандартные отклонения для переменных х и у ;

x i , y i - значения переменных х и у для объекта с номером i ;

x , y - средние арифметические для переменных х и у .

Коэффициент Пирсона r может принимать значения из интервала [-1; +1]. Значение r = 0 означает отсутствие линейной связи между переменными х и у (но не исключает статистической связи нелинейной). Положительные значения коэффициента (r > 0) свидетельствуют о прямой линейной связи; чем ближе его значение к +1, тем сильнее связь статистическая прямая. Отрицательные значения коэффициента (r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r = ±1 означают наличие полной линейной связи, прямой или обратной. В случае полной связи все точки с координатами (x i , y i ) лежат на прямой y = a + bx .

"Коэффициент К.Л." Пирсона применяется также для измерения тесноты связи в модели регрессии линейной парной.

41. Корреляционная матрица и корреляционный граф.

О корреляции вообще см. вопрос № 36 с. 56 (64) 063.JPG

Корреляционная матрица. Часто корреляционный анализ включает в себя изучение связей не двух, а множества переменных, измеренных в количествен-ной шкале на одной выборке. В этом случае вычисляются корреляции для каждой пары из этого множества переменных. Вычисления обычно прово-дятся на компьютере, а результатом является корреляционная матрица.

Корреляционная матрица (Correlation Matrix ) - это результат вычисления корреляций одного типа для каждой пары из множества Р переменных, изме-ренных в количественной шкале на одной выборке.

ПРИМЕР

Предположим, изучаются связи между 5 переменными (vl, v2,..., v5; P = 5), изме-ренными на выборке численностью N=30 человек. Ниже приведена таблица ис-ходных данных и корреляционная матрица.

И
сходные данные:

Корреляционная матрица:

Нетрудно заметить, что корреляционная матрица является квадратной, симметрич-ной относительно главной диагонали (таккакг,у= /} у), с единицами на главной диа-гонали (так как г и = Гу = 1).

Корреляционная матрица является квадратной: число строк и столбцов равно числу переменных. Она симметрична относительно главной диагона-ли, так как корреляция х с у равна корреляции у с х. На ее главной диагонали располагаются единицы, так как корреляция признака с самим собой равна единице. Следовательно, анализу подлежат не все элементы корреляцион-ной матрицы, а те, которые находятся выше или ниже главной диагонали.

Количество коэффициентов корреляции, подлежащих анализу при изучении связей Рпризнаков определяется формулой: Р(Р- 1)/2. В приведенном выше примере количество таких коэффициентов корреляции 5(5 - 1)/2 = 10.

Основная задача анализа корреляционной матрицы - выявление структуры взаимосвязей множества признаков. При этом возможен визуальный анализ корреляционных плеяд - графического изображения структуры статистически значимых связей, если таких связей не очень много (до 10-15). Другой спо-соб - применение многомерных методов: множественного регрессионного, факторного или кластерного анализа (см. раздел «Многомерные методы...»). Применяя факторный или кластерный анализ, можно выделить группиров-ки переменных, которые теснее связаны друг с другом, чем с другими пере-менными. Весьма эффективно и сочетание этих методов, например, если признаков много и они не однородны.

Сравнение корреляций - дополнительная задача анализа корреляционной матрицы, имеющая два варианта. Если необходимо сравнение корреляций в одной из строк корреляционной матрицы (для одной из переменных), при-меняется метод сравнения для зависимых выборок (с. 148-149). При сравне-нии одноименных корреляций, вычисленных для разных выборок, применя-ется метод сравнения для независимых выборок (с. 147-148).

Методы сравнения корреляций в диагоналях корреляционной матрицы (для оценки стационарности случайного процесса) и сравнения нескольких корре-ляционных матриц, полученных для разных выборок (на предмет их одно-родности), являются трудоемкими и выходят за рамки данной книги. Позна-комиться с этими методами можно по книге Г. В. Суходольского 1 .

Проблема статистической значимости корреляций. Проблема заключается в том, что процедура статистической проверки гипотезы предполагает одно- кратное испытание, проведенное на одной выборке. Если один и тот же метод применяется многократно, пусть даже и в отношении различных переменных, то увеличивается вероятность получить результат чисто слу-чайно. В общем случае, если мы повторяем один и тот же метод проверки гипотезы к раз в отношении разных переменных или выборок, то при уста-новленной величине а мы гарантированно получим подтверждение гипоте-зы в ахк числе случаев.

Предположим, анализируется корреляционная матрица для 15 переменных, то есть вычислено 15(15-1)/2 = 105 коэффициентов корреляции. Для проверки гипотез установлен уровень а = 0, 05. Проверяя гипотезу 105 раз, мы пять раз (!) получим ее подтверждение независимо от того, существует ли связь на самом деле. Зная это и получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие - отражают ре-альную связь?

Строго говоря, для принятия статистического решения необходимо умень-шить уровень а во столько раз, сколько гипотез проверяется. Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).

Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффи- циентов корреляций!

Можно указать лишь один действительно убедительный способ решения этой проблемы: разделить выборку случайным образом на две части и прини-мать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование много-мерных методов (факторного, кластерного или множественного регрессион-ного анализа) - для выделения и последующей интерпретации групп статис-тически значимо связанных переменных.

Проблема пропущенных значений. Если в данных есть пропущенные значе-ния, то возможны два варианта расчета корреляционной матрицы: а) построч-ное удаление значений (Exclude cases listwise ); б) попарное удаление значений (Exclude cases pairwise ). При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «пра-вильной» корреляционной матрице в том смысле, что все коэффициенты вы-числены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропу-щенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляет-ся по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным под-множествам (например - для разных подгрупп объектов). Другая проблема, связанная с корреляционной матрицей, вычисленной при попарном удалении пропусков, возникает при использовании этой матрицы в других видах анали-за (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица с определенным уровнем состоятельности и «соответствия» различных коэффи-циентов. Использование матрицы с «плохими» (смещенными) оценками приводит к тому, что программа либо не в состоянии анализировать такую матри-цу, либо результаты будут ошибочными. Поэтому, если применяется попарный метод исключения пропущенных данных, необходимо проверить, имеются или нет систематические закономерности в распределении пропусков.

Если попарное исключение пропущенных данных не приводит к какому-либо систематическому сдвигу средних значений и дисперсий (стандартных отклонений), то эти статистики будут похожи на аналогичные показатели, вы-численные при построчном способе удаления пропусков. Если наблюдается значительное различие, то есть основание предполагать наличие сдвига в оцен-ках. Например, если среднее (или стандартное отклонение) значений перемен-ной А, которое использовалось при вычислении ее корреляции с переменной В, намного меньше среднего (или стандартного отклонения) тех же значений переменной А, которые использовались при вычислении ее корреляции с пе-ременной С, то имеются все основания ожидать, что эти две корреляции (А-В нА-С) основаны на разных подмножествах данных. В корреляциях будет сдвиг, вызванный неслучайным расположением пропусков в значениях переменных.

Анализ корреляционных плеяд. После решения проблемы статистической зна-чимости элементов корреляционной матрицы статистически значимые корре-ляции можно представить графически в виде корреляционной плеяды или пле-яд. Корреляционная плеяда - это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют признакам и обозначаются обычно цифра-ми - номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда - и /j-уровень значимости связи.

Корреляционная плеяда может отра-жать все статистически значимые связи корреляционной матрицы (иногда называ-ется корреляционным графом ) или только их содержательно выделенную часть (напри-мер, соответствующую одному фактору по результатам факторного анализа).

ПРИМЕР ПОСТРОЕНИЯ КОРРЕЛЯЦИОННОЙ ПЛЕЯДЫ


Подготовка к проведению государственной (итоговой) аттестации выпускников: формирования базы ЕГЭ (общий список участников ЕГЭ всех категорий с указанием предметов) – с учетом резервных дней в случае совпадения предметов;

  • План работы (27)

    Решение

    2. Деятельность ОУ по совершенствованию содержания и оценке качества по предметам естественно-математического образования МОУ СОШ № 4, Литвиновская, Чапаевская,

  • На практике для определения тесноты связи двух признаков часто применяется коэффициент ранговой корреляции Спирмена (Р). Значения каждого признака ранжируются по степени возрастания (от 1 до n), затем определяется разница (d) между рангами, соответствующими одному наблюдению.

    Пример №1 . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными.
    Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла . Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.

    Присвоим ранги признаку Y и фактору X . Найдем сумму разности квадратов d 2 .
    Используя калькулятор , вычислим коэффициент ранговой корреляции Спирмена:

    X Y ранг X, d x ранг Y, d y (d x - d y) 2
    1.3 300 1 2 1
    1.8 1335 2 12 100
    2.4 250 3 1 4
    3.4 946 4 8 16
    4.8 670 5 7 4
    5.1 400 6 4 4
    6.3 380 7 3 16
    7.5 450 8 5 9
    7.8 500 9 6 9
    17.5 1582 10 16 36
    18.3 1216 11 9 4
    22.5 1435 12 14 4
    24.9 1445 13 15 4
    25.8 1820 14 19 25
    28.5 1246 15 10 25
    33.4 1435 16 14 4
    42.4 1800 17 18 1
    45 1360 18 13 25
    50.4 1256 19 11 64
    54.8 1700 20 17 9
    364

    Связь между признаком Y фактором X сильная и прямая.

    Оценка коэффициента ранговой корреляции Спирмена



    По таблице Стьюдента находим Tтабл.
    T табл = (18;0.05) = 1.734
    Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве нулю коэффициента ранговой корреляции. Другими словами, коэффициента ранговой корреляции Спирмена статистически - значим.

    Интервальная оценка для коэффициента ранговой корреляции (доверительный интервал)
    Доверительный интервал для коэффициента ранговой корреляции Спирмена: p(0.5431;0.9095).

    Пример №2 . Исходные данные.

    5 4
    3 4
    1 3
    3 1
    6 6
    2 2
    Так как в матрице имеются связанные ранги (одинаковый ранговый номер) 1-го ряда, произведем их переформирование. Переформирование рангов производиться без изменения важности ранга, то есть между ранговыми номерами должны сохраниться соответствующие соотношения (больше, меньше или равно). Также не рекомендуется ставить ранг выше 1 и ниже значения равного количеству параметров (в данном случае n = 6). Переформирование рангов производится в табл.
    Новые ранги
    1 1 1
    2 2 2
    3 3 3.5
    4 3 3.5
    5 5 5
    6 6 6
    Так как в матрице имеются связанные ранги 2-го ряда, произведем их переформирование. Переформирование рангов производится в табл.
    Номера мест в упорядоченном ряду Расположение факторов по оценке эксперта Новые ранги
    1 1 1
    2 2 2
    3 3 3
    4 4 4.5
    5 4 4.5
    6 6 6
    Матрица рангов.
    ранг X, d x ранг Y, d y (d x - d y) 2
    5 4.5 0.25
    3.5 4.5 1
    1 3 4
    3.5 1 6.25
    6 6 0
    2 2 0
    21 21 11.5
    Поскольку среди значений признаков х и у встречается несколько одинаковых, т.е. образуются связанные ранги, то в таком случае коэффициент Спирмена вычисляется как:

    где


    j - номера связок по порядку для признака х;
    А j - число одинаковых рангов в j-й связке по х;
    k - номера связок по порядку для признака у;
    В k - число одинаковых рангов в k-й связке по у.
    A = [(2 3 -2)]/12 = 0.5
    B = [(2 3 -2)]/12 = 0.5
    D = A + B = 0.5 + 0.5 = 1

    Связь между признаком Y и фактором X умеренная и прямая.

    Рассказать друзьям