Глава 15. Корреляционный анализ Корреляция — связь между двумя переменными. Расчёты подобных двумерных критериев взаимосвязи основываются на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок. Если в качестве примера возьмём данные об уровне холестерина для первых двух моментов времени из исследования гипертонии (файл hyper.sav), то в данном случае следует ожидать довольно сильную связь: большие значения в исходный момент времени являются веским поводом для ожидания больших значений и через 1 месяц. Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график, называемый «диаграммой рассеяния» (Scatterplot) для двух зависимых переменных можно построить путём вызова меню Graphs… (Графики) / Scatter plots… (Диаграммы рассеяния) (см. гл. 22.8). Образовавшееся скопление точек показывает, что обследованные пациенты с высокими исходными показателями, как правило, имеют высокие значения холестерина и при повторном опросе через месяц. Статистика говорит о корреляции между двумя переменными и указывает силу связи при помощи некоторого критерия взаимосвязи, который получил название коэффициента корреляции. Этот коэффициент, всегда обозначаемый латинской буквой r, может принимать значения между -1 и +1, причём если значение находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0, то слабой. Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции. Для словесного описания величины коэффициента корреляции используются следуюшие градации:
Метод вычисления коэффициента корреляции зависит от вида шкалы, которой относятся переменные:
Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена). Если связь, к примеру, U-образная (неоднозначная), то коэффициент корреляции непригоден для использования в качестве меры силы связи: его значение стремится к нулю. В следующих разделах будут рассмотрены корреляции по Пирсону, Спирману и Кендалу. Ешё один раздел специально посвящён частной корреляции. |
Коэффициент корреляции — это… Что такое Коэффициент корреляции?
Корреля́ция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.
Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция
Автокорреляция — статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса — со сдвигом по времени.
Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом.
Коэффициент корреляции
Коэффицие́нт корреля́ции или парный коэффицие́нт корреля́ции в теории вероятностей и статистике — это показатель характера изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой R и может принимать значения между -1 и +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи (при коэффициенте корреляции равном единице говорят о функциональной связи), а если ближе к 0, то слабой.
Коэффициент корреляции Пирсона
Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном:
Пусть X,Y — две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:
- ,
где cov обозначает ковариацию, а D — дисперсию, или, что то же самое,
- ,
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).
Коэффициент корреляции Кенделла
Используется для измерения взаимной неупорядоченности.
Коэффициент корреляции Спирмена
Свойства коэффициента корреляции
- если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши — Буняковского будет:
- .
- Коэффициент корреляции равен тогда и только тогда, когда
X и Y линейно зависимы:
- ,
- где . Более того в этом случае знаки и k совпадают:
- .
- Если X,Y независимые случайные величины, то . Обратное в общем случае неверно.
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.
Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные
Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону sin2(x) + cos2(x) = 1.
Ограничения корреляционного анализа
Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).
- Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
- Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
- Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.
Область применения
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Ложная корреляция
Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.
В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.
См. также
Wikimedia Foundation. 2010.
Классические методы статистики: коэффициент корреляции
Коэффициент корреляции (\(r\)) — очень удобный показатель степени взаимосвязи между двумя переменными. Он представляет собой безразмерную величину, которая изменяется от \(-1\) до \(+1\). При независимом варьировании переменных, когда связь между ними отсутствует, \(r = 0\). Чем сильнее связь, тем больше величина коэффициента корреляции. При этом положительные значения \(r\) указывают на положительную (= прямую) связь (т.е. при увеличении значений одной переменной в среднем возрастают значения и другой переменной), а отрицательные — на отрицательную (= обратную) связь (при возрастании одной переменной другая уменьшается).
Вычисление коэффициента корреляции в R я продемонстрирую на примере данных из своей статьи (Mastitsky 2012), которые можно напрямую загрузить в R с сайта figshare.dat <- read.delim("http://figshare.com/media/download/98923/97987") head(dat) Month Lake Site ZMlength CAnumber 1 May Batorino S3 14.9 36 2 May Batorino S3 14.0 30 3 May Batorino S3 13.0 331 4 May Batorino S3 14.0 110 5 May Batorino S3 12.0 4 6 May Batorino S3 14.0 171
Таблица dat содержит данные по уровню зараженности двустворчатого моллюска Dreissena polymorpha инфузорией-комменсалом Conchophthirus acuminatus (см. фото слева) в трех озерах Беларуси, различающихся по уровню трофности. Нас интересуют, в частности, две переменные: длина раковины моллюска (ZMlength, мм) и число обнаруженных в моллюлюске инфузорий (CAnumber). На приведенном ниже рисунке прослеживается положительная связь между этими двумя переменными (замечание: в рассматриваемом примере анализируются все данные, без разделения по озерам). Вопрос, однако, состоит в том, насколько сильна эта связь. Оценить ее поможет коэффициент корреляции.
Связь между длиной раковины дрейссены и интенсивностью инвазии Conchophthirus acuminatus |
\[r = \frac{\sum_{i = 1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i = 1}^{n}(x_i-\bar{x})^2\sum_{i = 1}^{n}(y_i-\bar{y})^2}} \]
Конечно, выполнять вычисления вручную нет необходимости. В R коэффициент корреляции Пирсона, равно как и другие коэффициенты, можно легко рассчитать при помощи функциий cor() и cor.test(). Различие между этими двумя функциями заключается в том, что cor() позволяет вычислить только сам коэффициент корреляции, тогда как cor.test() выполняет еще и оценку статистической значимости коэффициента, проверяя нулевую гипотезу о равенстве его нулю. Я предпочитаю использовать именно вторую функцию:
attach(dat) cor.test(CAnumber, ZMlength) Pearson's product-moment correlation data: CAnumber and ZMlength t = 11.4964, df = 474, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.3935877 0.5343949 sample estimates: cor 0.466946
Как видим, рассчитанный коэффициент корреляции Пирсона оказался равен 0.467. Несмотря на то, что он не очень высок, этот коэффициент статистически значимо отличается от нуля (p-value < 2.2e-16). Для нашего удобства, программа также автоматически вычислила 95%-ный доверительный интервал для полученного коэффициента корреляции (95 percent confidence interval: 0.394 0.534).
Необходимо помнить, что коэффициент корреляции Пирсона основан на следующих важных допущениях:
- Обе анализируемые переменные распределены нормально
- Связь между этими переменными линейна
Приведенный ниже рисунок показывает, что как минимум в отношении значений интенсивности инвазии условие нормальности распределения не выполняется:
Для исправления ситуации можно попробовать логарифмировать обе переменные, т.е. и ZMlength, и CAnumber:
Для преобразованных переменных коэффициент корреляции Пирсона составит:
cor.test(log(CAnumber+1), log(ZMlength)) Pearson's product-moment correlation data: log(CAnumber + 1) and log(ZMlength) t = 21.5166, df = 474, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6543961 0.7456953 sample estimates: cor 0.7029297
Неудивительно, что новое значение коэффициента корреляции значительно выросло (0.703 против 0.467). И все же, несмотря на логарифирование, значения интенсинвости инвазии C. acuminatus не подчиняются нормальному распределению. Показать это можно как графически, таки и при помощи, например, теста Шапиро-Уилка (подробнее о проверке данных на нормальность см. здесь):
shapiro.test(log(CAnumber+1)) Shapiro-Wilk normality test data: log(CAnumber + 1) W = 0.9508, p-value = 1.734e-11
Для ненормально распределенных переменных, а также при наличии нелинейной связи между переменными, следует использовать непараметрический коэффициент корреляции Спирмена (англ. Spearman correlation coefficient). В отличие от коэффициента Пирсона, этот вариант коэффициента корреляции работает не с исходными значениями переменных, а с их рангами (формула при этом используется та же, что и для коэффициента Пирсона — см. выше). Для вычисления коэффициента Спирмена в R при вызове функции cor.test() необходимо воспользовать аргументом method со значением «spearman»:
cor.test(CAnumber, ZMlength, method = "spearman") Spearman's rank correlation rho data: CAnumber and ZMlength S = 6574110, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.6342627 Warning message: In cor.test.default(CAnumber, ZMlength, method = "spearman") : Cannot compute exact p-values with ties
Коэффициент корреляции Спирмена составил 0.634 и оказался статистически значимым (Р << 0.001). Поскольку в данных имеют место значения с одинаковыми рангами («связанные ранги«, англ. ties), программа не смогла рассчитать точное Р-значение, о чем предупредила в сообщении «Warning message: … Cannot compute exact p-values with ties». В связи с тем, что коэффициент корреляции Спирмена работает с рангами, любое преобразование исходных данных никак не сказывается на его значении. Например, после логарифмирования мы получим результат, идентичный предыдущему:
cor.test(log(CAnumber+1), log(ZMlength), method = "spearman") Spearman's rank correlation rho data: log(CAnumber + 1) and log(ZMlength) S = 6574110, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.6342627Наконец, третий вариант коэффициента корреляции, который можно рассчитать при помощи функции cor.test(), имеет название коэффициент ранговой корреляции Кендалла, \( \tau \) (англ. Kendall’s tau). Работает он следующим образом. Предположим, что у нас есть набор из парных наблюдений для двух переменных: \( (x_1, y_1), (x_2, y_2) … (x_n, y_n) \). Говорят, что две пары наблюдений \( (x_i, y_i) \) и \( (x_j, y_j) \) являются конкордантными, если имеется согласие между рангами соответствующих элементов этих пар, т.е. если
- \( x_i > x_j \) и \( y_i > y_j \)
- или \( x_i < x_j \) и \( y_i < y_j \)
\[ \tau = \frac{n_{conc. pairs} — n_{discord. pairs}}{0.5n(n-1)} \]
где \( n_{conc. pairs}\) — число конкордантных пар, а \( n_{discord. pairs}\) — число дискордантных пар. Коэффициент Кендалла часто используют при анализе того, насколько хорошо согласуются результаты измерений, получаемые при помощи разных приборов, или результаты голосований экспертов по одному и тому же вопросу, и т.п.
В R коэффициент Кендалла можно вычислить так:
cor.test(CAnumber, ZMlength, method = "kendall") Kendalls rank correlation tau data: CAnumber and ZMlength z = 14.9307, p-value < 2.2e-16 alternative hypothesis: true tau is not equal to 0 sample estimates: tau 0.4655232
Подробнее об аргументах функции cor.test() можно узнать из ее справочного файла, доступного по команде ?cor.test
Корреляционный анализ | BaseGroup Labs
Назначение
Корреляционный анализ применяется для оценки степени линейной зависимости между парами факторов, производится с целью отбора и предобработки входных полей для использования в обучаемых на данных моделях. Например, наличие корреляции между входными факторами крайне отрицательно сказывается при построении линейной регрессии.
В настройках обработчика указывается входные и выходные поля. В результате получается таблица с коэффициентами корреляции для каждой возможной пары из комбинации входного и выходного факторов. Коэффициент корреляции принимает значения от -1 до 1.
Модуль коэффициента свидетельствует о степени зависимости: чем ближе его значение к 0, тем слабее линейная зависимость. Чем ближе коэффициент корреляции от 0 к 1, тем сильнее прямая линейная зависимость, чем ближе от 0 к -1, тем сильнее обратная линейная зависимость. На практике считается, что если модуль коэффициента корреляции больше 0,6, то линейная зависимость сильная, а если менее 0,3, то почти отсутствует.
Стоит заметить, что низкая степень корреляции между входным и прогнозируемым полями не означает отсутствие других, нелинейных зависимостей. Кроме того, при построении линейных моделей стоит рассмотреть такой входной фактор внимательнее, так как он может быть использован для проектирования признаков (Feature Engineering).
Пример
Пусть необходимо быстро определить товары-заменители и сопутствующие товары, имея временные ряды объемов продаж (см. таблицу).
У товаров-заменителей должна быть большая отрицательная корреляция, т.к. увеличение продаж одного товара ведет к спаду продаж второго. У сопутствующих товаров – большая положительная корреляция.
Определим корреляцию Товар 1 с остальными товарами.
Как видно из рисунка, ряд продаж для Товар 2 имеет очень большую положительную, а Товар 3 – отрицательную корреляцию. Из этого можно сделать вывод, что Товар 2, возможно, является сопутствующим товаром, а Товар 3 – заместителем Товара 1.
Корреляция продаж Товара 4 с Товаром 1 является отрицательной, но при этом абсолютное значение корреляции невелико, поэтому говорить о наличии взаимосвязи между продажами Товара 1 и Товара 4 без проведения дополнительного анализа нельзя.
Онлайн калькулятор: Коэффициент корреляции Пирсона
Приведем парочку определений, если кто вдруг подзабыл.
Практически все определения можно найти в википедии.
Корреляция в математической статистике — это вероятностная или статистическая зависимость, не имеющая, вообще говоря, строго функционального характера. В отличие от функциональной, корреляционная зависимость возникает тогда, когда один из признаков зависит не только от данного второго, но и от ряда случайных факторов или же когда среди условий, от которых зависят и тот и другой признаки, имеются общие для них обоих условия.
Математической мерой корреляции двух случайных величин служит коэффициент корреляции.
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.
Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 — связь слабая или вообще отсутствует. При коэффициенте корреляции равном по модулю единице говорят о функциональной связи, то есть, изменения двух величин можно описать математической функцией.
Наиболее широко известен коэффициент корреляции Пирсона (Карл Пирсон (Pearson), английский математик, 1857-1936), характеризующий степень линейной зависимости между переменными. Он определяется, как
где буква M обозначает математическое ожидание.
Собственно, тут больше и говорить нечего — вводим случайные величины в таблицу (значения по умолчанию можно удалить), калькулятор рассчитывает коэффициент корреляции по формуле Пирсона
Коэффициент корреляции Пирсона
Изменения случайных величин
Записей: Изменения случайных величин
Сохранить ОтменитьИмпортировать данныеОшибка импорта
Для разделения полей можно использовать один из этих символов: Tab, «;» или «,» Пример: -50.5;-50.5
Загрузить данные из csv файла
Импортировать Назад Отменить Точность вычисленияЗнаков после запятой: 4
Коэффициент корреляции Пирсона
Ссылка Сохранить Виджет
Функция ПИРСОН
В этой статье описаны синтаксис формулы и использование функции PEARSON в Microsoft Excel.
Описание
Возвращает коэффициент корреляции Пирсона (r) — безразмерный индекс в интервале от -1,0 до 1,0 включительно, который отражает степень линейной зависимости между двумя множествами данных.
Синтаксис
PEARSON(массив1;массив2)
Аргументы функции PEARSON описаны ниже.
-
Массив1 Обязательный. Множество независимых значений.
-
Массив2 Обязательный. Множество зависимых значений.
Замечания
-
Аргументы должны быть либо числами, либо содержащими числа именами, массивами или ссылками.
-
Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки, которые содержат нулевые значения, учитываются.
-
Если массив1 или массив2 пуст, либо число точек данных в этих массивах не совпадает, функция PEARSON возвращает значение ошибки #Н/Д.
-
Коэффициента корреляции Пирсона (r) вычисляется по следующей формуле:
где x и y — выборочные средние значения СРЗНАЧ(массив1) и СРЗНАЧ(массив2).
Пример
Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.
Данные |
||
Независимые значения |
Зависимые значения |
|
9 |
10 |
|
7 |
6 |
|
5 |
1 |
|
3 |
5 |
|
1 |
3 |
|
Формула |
Описание (результат) |
Результат |
=PEARSON(A3:A7;B3:B7) |
Коэффициент корреляции Пирсона для приведенных выше данных (0,699379) |
0,699379 |
Коэффициент корреляции
Коэффициент корреляцииКорреляция служит для оценки тесноты и направления линейной стохастической зависимости между изучаемыми переменными. Линейная вероятностная зависимость случайных величин заключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или убывать) по линейному закону. Эта тенденция к линейной зависимости может быть более или менее ярко выраженной, т.е. более или менее приближаться к функциональной.
Уравнение для коэффициента корреляции имеет следующий вид:
Где:
-1 ≤ ρx,y ≤ 1
— ковариация, то есть среднее произведений отклонений для каждой пары точек данных
x и y – выборочные средние значения.
Парные коэффициенты корреляции
Парные коэффициенты рассчитываются по формуле:
Частные коэффициенты корреляции
Корреляция между двумя переменными, вычисленная при фиксированных уровнях всех других переменных, называется частной корреляцией. Для трех переменных Y1, Y2, X3 частная корреляция между переменными Y1, Y2 рассчитывается по формуле:
Где ρ — парный коэффициент корреляции.
В данном случае, частный коэффициент корреляции является мерой линейной связи между переменными Y1, Y2, исключая вклад, который по отдельности вносят линейные связи Y1, Y2с третьей переменной X3.
В общем случае, пусть множество переменных поделено на две группы Y и X с nY переменными во множестве Y, и с nX во множестве X.
Представим ковариационную матрицу в виде:
Ковариация Y при фиксированных значениях X:
Матрица частных коэффициентов корреляции:
См. также:
Библиотека методов и моделей | IStatistics.Correl | IStatistics.Covar | ISmPairCorrelation | ISmPartialCorrelation
Определение коэффициента корреляции
Что такое коэффициент корреляции?
Коэффициент корреляции — это статистическая мера силы взаимосвязи между относительными движениями двух переменных. Диапазон значений от -1,0 до 1,0. Расчетное число больше 1,0 или меньше -1,0 означает, что при измерении корреляции произошла ошибка. Корреляция -1,0 показывает идеальную отрицательную корреляцию, а корреляция 1,0 показывает идеальную положительную корреляцию.Корреляция 0,0 показывает отсутствие линейной зависимости между движением двух переменных.
Статистику корреляции можно использовать в финансах и инвестировании. Например, коэффициент корреляции может быть рассчитан для определения уровня корреляции между ценой на сырую нефть и ценой акций нефтедобывающей компании, такой как Exxon Mobil Corporation. Поскольку нефтяные компании получают большую прибыль по мере роста цен на нефть, корреляция между двумя переменными очень положительная.
Ключевые выводы
- Коэффициенты корреляции используются для измерения силы взаимосвязи между двумя переменными.
- Корреляция Пирсона наиболее часто используется в статистике. Это измеряет силу и направление линейной зависимости между двумя переменными.
- Значения всегда находятся в диапазоне от -1 (сильная отрицательная связь) до +1 (сильная положительная связь). Значения, равные нулю или близкие к нему, означают слабую линейную зависимость или ее отсутствие.
- Значения коэффициента корреляции меньше +0,8 или больше -0,8 не считаются значимыми.
Понимание коэффициента корреляции
Есть несколько типов коэффициентов корреляции, но наиболее распространенным является корреляция Пирсона ( r ). Это измеряет силу и направление линейной зависимости между двумя переменными. Он не может фиксировать нелинейные отношения между двумя переменными и не может различать зависимые и независимые переменные.
Значение ровно 1,0 означает, что между двумя переменными существует идеальная положительная связь. При положительном увеличении одной переменной существует также положительное увеличение второй переменной. Значение -1,0 означает, что между двумя переменными существует идеальная отрицательная связь. Это показывает, что переменные движутся в противоположных направлениях — при положительном увеличении одной переменной происходит уменьшение второй переменной. Если корреляция между двумя переменными равна 0, между ними нет линейной зависимости.
Степень взаимосвязи варьируется по степени в зависимости от значения коэффициента корреляции. Например, значение 0,2 показывает, что между двумя переменными существует положительная корреляция, но она слабая и, вероятно, не важна. Аналитики в некоторых областях исследований не считают корреляции важными до тех пор, пока значение не превысит минимум 0,8. Однако коэффициент корреляции с абсолютным значением 0,9 или выше будет представлять очень сильную взаимосвязь.
Инвесторы могут использовать изменения в статистике корреляции для выявления новых тенденций на финансовых рынках, в экономике и ценах на акции.
Статистика корреляции и инвестирование
Корреляция между двумя переменными особенно полезна при инвестировании на финансовых рынках. Например, корреляция может быть полезна при определении того, насколько хорошо взаимный фонд работает по сравнению с его эталонным индексом или другим фондом или классом активов. Добавляя паевой инвестиционный фонд с низкой или отрицательной корреляцией к существующему портфелю, инвестор получает выгоду от диверсификации.
Другими словами, инвесторы могут использовать отрицательно коррелированные активы или ценные бумаги для хеджирования своих портфелей и снижения рыночного риска из-за волатильности или резких колебаний цен.Многие инвесторы хеджируют ценовой риск портфеля, что эффективно снижает любой прирост капитала или убытки, потому что они хотят дивидендного дохода или доходности от акций или ценных бумаг.
Статистика корреляции также позволяет инвесторам определять, когда меняется корреляция между двумя переменными. Например, акции банка обычно имеют очень положительную корреляцию с процентными ставками, поскольку ставки по кредитам часто рассчитываются на основе рыночных процентных ставок. Если цена акций определенного банка падает, а процентные ставки растут, инвесторы могут понять, что с этим конкретным банком что-то не так.Если цены на акции других банков в этом секторе также растут, инвесторы могут сделать вывод, что падение акций банка-аутсайдера не связано с процентными ставками. Вместо этого плохо работающий банк, вероятно, имеет дело с внутренней фундаментальной проблемой.
Уравнение коэффициента корреляции
Чтобы вычислить корреляцию момента произведения Пирсона, необходимо сначала определить ковариацию двух рассматриваемых переменных. Затем необходимо вычислить стандартное отклонение каждой переменной.Коэффициент корреляции определяется путем деления ковариации на произведение стандартных отклонений двух переменных.
ρ Икс у знак равно Cov ( Икс , у ) σ Икс σ у куда: ρ Икс у знак равно Коэффициент корреляции продукт-момент Пирсона Cov ( Икс , у ) знак равно ковариация переменных Икс а также у σ Икс знак равно стандартное отклонение Икс σ у знак равно стандартное отклонение у \ begin {align} & \ rho_ {xy} = \ frac {\ text {Cov} (x, y)} {\ sigma_x \ sigma_y} \\ & \ textbf {где:} \\ & \ rho_ {xy} = \ text {коэффициент корреляции произведение-момент Пирсона} \\ & \ text {Cov} (x, y) = \ text {ковариация переменных} x \ text {и} y \\ & \ sigma_x = \ text {стандартное отклонение } x \\ & \ sigma_y = \ text {стандартное отклонение} y \\ \ end {выровнено} Ρxy = σx σy Cov (x, y) где: ρxy = коэффициент корреляции произведение-момент Пирсона Cov (x, y) = ковариация переменных x и yσx = стандартное отклонение xσy = стандартное отклонение y
Стандартное отклонение — это мера разброса данных от среднего значения.Ковариация — это мера того, как две переменные изменяются вместе, но ее величина не ограничена, поэтому ее трудно интерпретировать. Разделив ковариацию на произведение двух стандартных отклонений, можно вычислить нормализованную версию статистики. Это коэффициент корреляции.
Что означает коэффициент корреляции?
Коэффициент корреляции описывает, как одна переменная перемещается по отношению к другой. Положительная корреляция указывает на то, что двое движутся в одном направлении с +1.0 корреляция, когда они движутся в тандеме. Отрицательный коэффициент корреляции говорит о том, что они движутся в противоположных направлениях. Корреляция, равная нулю, предполагает отсутствие корреляции вообще.
Как рассчитать коэффициент корреляции?
Коэффициент корреляции рассчитывается путем сначала определения ковариации переменных, а затем деления этой величины на произведение стандартных отклонений этих переменных.
Как коэффициент корреляции используется при инвестировании?
Коэффициенты корреляции — широко используемый статистический показатель в инвестировании.Они играют очень важную роль в таких областях, как состав портфеля, количественная торговля и оценка эффективности. Например, некоторые управляющие портфелями будут отслеживать коэффициенты корреляции отдельных активов в своих портфелях, чтобы гарантировать, что общая волатильность их портфелей поддерживается в допустимых пределах.
Аналогичным образом аналитики иногда используют коэффициенты корреляции, чтобы предсказать, как на конкретный актив повлияет изменение внешнего фактора, такого как цена товара или процентная ставка.
Определение отрицательной корреляции
Что такое отрицательная корреляция?
Отрицательная корреляция — это взаимосвязь между двумя переменными, в которой одна переменная увеличивается, а другая уменьшается, и наоборот.
В статистике идеальная отрицательная корреляция представлена значением -1,0, в то время как 0 указывает на отсутствие корреляции, а +1,0 указывает на идеальную положительную корреляцию. Идеальная отрицательная корреляция означает, что отношения, существующие между двумя переменными, всегда прямо противоположны.
Ключевые выводы
- Отрицательная или обратная корреляция описывает, когда две переменные имеют тенденцию двигаться в противоположном размере и в противоположном направлении друг от друга, так что, когда одна увеличивается, другая переменная уменьшается, и наоборот.
- Отрицательная корреляция используется при построении диверсифицированных портфелей, чтобы инвесторы могли получить выгоду от повышения цен на одни активы, когда другие падают.
- Корреляция между двумя переменными может значительно меняться со временем.Акции и облигации обычно имеют отрицательную корреляцию, но за 10 лет до 2018 года их измеренная корреляция колебалась от -0,8 до +0,2.
Понимание отрицательной корреляции
Отрицательная корреляция или обратная корреляция указывает на то, что две отдельные переменные имеют статистическую взаимосвязь, так что их цены обычно движутся в противоположных направлениях друг от друга. Если, например, переменные X и Y имеют отрицательную корреляцию (или отрицательно коррелируют), по мере увеличения значения X значение Y будет уменьшаться; аналогично, если значение X уменьшается, Y увеличивается.
Степень, в которой одна переменная перемещается по отношению к другой, измеряется коэффициентом корреляции, который количественно определяет силу корреляции между двумя переменными. Например, если переменные X и Y имеют коэффициент корреляции -0,1, они имеют слабую отрицательную корреляцию, но если у них коэффициент корреляции -0,9, они будут считаться имеющими сильную отрицательную корреляцию.
Чем выше отрицательная корреляция между двумя переменными, тем ближе коэффициент корреляции к значению -1.Точно так же две переменные с идеальной положительной корреляцией будут иметь коэффициент корреляции +1, тогда как нулевой коэффициент корреляции означает, что две переменные не коррелированы и движутся независимо друг от друга.
Коэффициент корреляции, обычно обозначаемый буквами «r» или «R», можно определить с помощью регрессионного анализа. Квадрат коэффициента корреляции (обычно обозначаемый R 2 или R-квадрат) представляет степень или степень, в которой дисперсия одной переменной связана с дисперсией второй переменной и обычно выражается в процентах. термины.
Например, если портфель и его эталон имеют корреляцию 0,9, значение R-квадрата будет 0,81. Интерпретация этого рисунка состоит в том, что 81% вариации портфеля (в данном случае зависимая переменная) связана с вариацией эталона (независимая переменная) или может быть объяснена ею.
Степень корреляции между двумя переменными не статична, но может колебаться в широком диапазоне — или от положительного до отрицательного и наоборот — с течением времени.
Графики показывают положительную, отрицательную и отсутствие корреляции. Иллюстрация Хьюго Линь. © 2018 ThoughtCo.Важность отрицательной корреляции
Концепция отрицательной корреляции является ключевой при построении портфеля. Отрицательная корреляция между секторами или географическими регионами позволяет создавать диверсифицированные портфели, которые могут лучше противостоять волатильности рынка и сглаживать доходность портфеля в долгосрочной перспективе.
Построение больших и сложных портфелей, в которых корреляции тщательно сбалансированы для обеспечения более предсказуемой волатильности, обычно называют дисциплиной стратегического распределения активов.
Рассмотрим долгосрочную отрицательную корреляцию между акциями и облигациями. Акции обычно превосходят облигации в периоды высоких экономических показателей, но по мере того, как экономика замедляется и центральный банк снижает процентные ставки для стимулирования экономики, облигации могут превосходить акции.
В качестве примера предположим, что у вас есть сбалансированный портфель на сумму 100 000 долларов, который инвестируется на 60% в акции и 40% в облигации. В год высоких экономических показателей доходность фондовой составляющей вашего портфеля может составить 12%, а облигационная составляющая — -2%, поскольку процентные ставки растут.Таким образом, общая доходность вашего портфеля составит 6,4% ((12% x 0,6) + (-2% x 0,4).
В следующем году, когда экономика заметно замедлится и процентные ставки будут снижены, ваш портфель акций может составить -5%, а портфель облигаций — 8%, что даст вам общую доходность портфеля в размере 0,2%.
Что, если бы вместо сбалансированного портфеля ваш портфель состоял на 100% из акций? Используя те же предположения о доходности, ваш портфель, полностью состоящий из акций, будет иметь доходность 12% в первый год и -5% во второй год, что более волатильно, чем доходность сбалансированного портфеля, равная 6.4% и 0,2%.
Акции и облигации обычно имеют отрицательную корреляцию, но за 10 лет до 2018 года их корреляция колебалась от примерно -0,8 до +0,2, согласно BlackRock.
Примеры отрицательной корреляции
Примеры отрицательной корреляции распространены в инвестиционном мире. Хорошо известный пример — отрицательная корреляция между ценами на сырую нефть и ценами на акции авиакомпаний. Топливо для реактивных двигателей, которое получают из сырой нефти, требует значительных затрат для авиакомпаний и оказывает значительное влияние на их прибыльность и прибыль.
Если цена на сырую нефть вырастет, это может отрицательно сказаться на доходах авиакомпаний и, следовательно, на цене их акций. Но если цена на сырую нефть снизится, это должно повысить прибыль авиакомпаний и, следовательно, их стоимость акций.
Вот как существование этого явления может помочь в построении диверсифицированного портфеля. Поскольку энергетический сектор имеет значительный вес в большинстве фондовых индексов, многие инвесторы в значительной степени зависят от цен на сырую нефть, которые, как правило, весьма волатильны.Поскольку энергетический сектор по очевидным причинам имеет положительную корреляцию с ценами на сырую нефть, инвестирование части своего портфеля в акции авиакомпаний обеспечит хеджирование от падения цен на нефть.
Особые соображения
Следует отметить, что этот инвестиционный тезис может работать не всегда, поскольку типичная отрицательная корреляция между ценами на нефть и акциями авиакомпаний может иногда становиться положительной. Например, во время экономического бума цены на нефть и акции авиакомпаний могут расти; и наоборот, во время рецессии цены на нефть и акции авиакомпаний могут снижаться одновременно.
Когда отрицательная корреляция между двумя переменными нарушается, это может нанести ущерб инвестиционным портфелям. Например, в четвертом квартале 2018 года фондовые рынки США продемонстрировали худшие показатели за десятилетие, отчасти вызванные опасениями, что Федеральная резервная система (ФРС) продолжит повышать процентные ставки.
Опасения по поводу повышения ставок также сказались на облигациях, в результате чего их обычно отрицательная корреляция с акциями упала до самого низкого уровня за десятилетия. В такие моменты инвесторы часто к своему огорчению обнаруживают, что спрятаться негде.
Определение коэффициента Пирсона
Что такое коэффициент Пирсона?
Коэффициент Пирсона — это тип коэффициента корреляции, который представляет взаимосвязь между двумя переменными, которые измеряются в одном интервале или шкале отношений. Коэффициент Пирсона — это мера силы связи между двумя непрерывными переменными.
Понимание коэффициента Пирсона
Чтобы найти коэффициент Пирсона, также называемый коэффициентом корреляции Пирсона или коэффициентом корреляции момента произведения Пирсона, две переменные помещаются на диаграмму рассеяния.Переменные обозначаются как X и Y. Для расчета коэффициента должна быть некоторая линейность; диаграмма рассеяния, не показывающая никакого сходства с линейной зависимостью, будет бесполезна. Чем ближе сходство к прямой линии диаграммы рассеяния, тем выше сила ассоциации. Численно коэффициент Пирсона представлен так же, как коэффициент корреляции, который используется в линейной регрессии, в диапазоне от -1 до +1. Значение +1 является результатом идеальной положительной связи между двумя или более переменными.Положительные корреляции указывают на то, что обе переменные движутся в одном направлении. И наоборот, значение -1 представляет собой идеальную отрицательную связь. Отрицательные корреляции указывают на то, что по мере увеличения одной переменной другая уменьшается; они обратно связаны. Ноль означает отсутствие корреляции.
Ключевые выводы
- Коэффициент Пирсона — это математический коэффициент корреляции, представляющий взаимосвязь между двумя переменными, обозначенными как X и Y.
- Коэффициенты Пирсона находятся в диапазоне от +1 до -1, где +1 представляет положительную корреляцию, -1 представляет отрицательную корреляцию, и 0 означает отсутствие связи.
- Коэффициент Пирсона показывает корреляцию, а не причинно-следственную связь.
- Английскому математику и статистику Карлу Пирсону приписывают разработку многих статистических методов, включая коэффициент Пирсона, критерий хи-квадрат, p-значение и линейную регрессию.
Преимущества коэффициента Пирсона
Для инвестора, желающего диверсифицировать портфель, может быть полезен коэффициент Пирсона. Расчеты на основе диаграмм рассеяния исторической доходности между парами активов, такими как акции-облигации, акции-товары, облигации-недвижимость и т. Д., или более конкретные активы, такие как акции с большой капитализацией, акции с малой капитализацией и акции развивающихся рынков с долговыми обязательствами, будут производить коэффициенты Пирсона, чтобы помочь инвестору составить портфель на основе параметров риска и доходности. Однако обратите внимание, что коэффициент Пирсона измеряет корреляцию, а не причинно-следственную связь, что означает, что одна переменная привела к результату другой переменной. Если акции компаний с большой и малой капитализацией имеют коэффициент 0,8, неизвестно, что вызвало относительно высокую силу ассоциации.
Кем был Карл Пирсон?
Карл Пирсон (1857-1936) был английским академиком и внес значительный вклад в области математики и статистики. Он считается главным основателем современной статистики и защитником евгеники. Помимо одноименного коэффициента, Пирсон известен, в частности, концепциями критерия хи-квадрат и p-значения, а также разработкой линейной регрессии и классификации распределений. В 1911 году Пирсон основал первый в мире университетский статистический факультет — Департамент прикладной статистики Университетского колледжа Лондона.
В 1901 году Пирсон основал первый журнал современной статистики под названием «Биометрика».
Простое определение, формула, простые шаги расчета
Коэффициенты корреляции используются для измерения того, насколько сильна связь между двумя переменными. Существует несколько типов коэффициента корреляции, но наиболее популярным является коэффициент Пирсона. Корреляция Пирсона (также называемая R Пирсона) — это коэффициент корреляции , обычно используемый в линейной регрессии.Если вы только начинаете заниматься статистикой, вы, вероятно, сначала узнаете о Pearson R . На самом деле, когда кто-то называет коэффициентом корреляции , они обычно имеют в виду коэффициент корреляции Пирсона.
Посмотрите видео с обзором коэффициента корреляции или прочтите ниже:
Не можете посмотреть видео? Кликните сюда.
Состав:
- Что такое коэффициент корреляции?
- Что такое корреляция Пирсона? Как вычислить:
Формулы коэффициента корреляции используются, чтобы определить, насколько сильна связь между данными. Формулы возвращают значение от -1 до 1, где:
- 1 указывает на сильную положительную взаимосвязь.
- -1 указывает на сильную отрицательную взаимосвязь.
- Нулевой результат указывает на отсутствие связи.
Графики, показывающие корреляцию -1, 0 и +1
Значение
- Коэффициент корреляции, равный 1, означает, что для каждого положительного увеличения одной переменной существует положительное увеличение фиксированной доли другой.Например, размер обуви увеличивается (почти) идеально в зависимости от длины стопы.
- Коэффициент корреляции -1 означает, что для каждого положительного увеличения одной переменной происходит отрицательное уменьшение фиксированной доли другой. Например, количество газа в баллоне уменьшается (почти) идеально со скоростью.
- Ноль означает, что при каждом увеличении нет положительного или отрицательного увеличения. Эти двое просто не связаны.
Абсолютное значение коэффициента корреляции дает нам силу взаимосвязи.Чем больше число, тем сильнее связь. Например, | -.75 | = 0,75, что имеет более сильную связь, чем 0,65.
Понравилось объяснение? Ознакомьтесь со Справочником по статистике практического мошенничества, в котором есть сотни решаемых задач, шаг за шагом!
Виды формул коэффициентов корреляции.
Существует несколько типов формул коэффициента корреляции.
Одной из наиболее часто используемых формул является формула коэффициента корреляции Пирсона.Если вы изучаете базовый класс статистики, вы, вероятно, воспользуетесь этим:
Коэффициент корреляции Пирсона
Обычно используются две другие формулы: коэффициент корреляции выборки и коэффициент корреляции совокупности.
Выборочный коэффициент корреляции
S x и s y — стандартные отклонения выборки, а s xy — ковариация выборки.
Коэффициент корреляции населения
Коэффициент корреляции совокупности использует σ x и σ y в качестве стандартных отклонений совокупности и σ xy в качестве ковариации совокупности.
Посетите мой канал Youtube, чтобы получить больше советов и помощь со статистикой!
В начало
Корреляция между наборами данных — это мера того, насколько хорошо они связаны. Наиболее распространенной мерой корреляции в статистике является корреляция Пирсона. Полное название — Pearson Product Moment Correlation (PPMC) . Он показывает линейную зависимость между двумя наборами данных. Проще говоря, он отвечает на вопрос: Могу ли я нарисовать линейный график для представления данных? Две буквы используются для обозначения корреляции Пирсона: греческая буква ро (ρ) для генеральной совокупности и буква «r» для выборки.
Возможные проблемы с корреляцией Пирсона.
PPMC не может отличить зависимые переменные от независимых. Например, если вы пытаетесь найти корреляцию между высококалорийной диетой и диабетом, вы можете обнаружить высокую корреляцию 0,8. Однако вы также можете получить тот же результат, поменяв местами переменные. Другими словами, можно сказать, что диабет приводит к высококалорийной диете. Очевидно, в этом нет смысла. Следовательно, как исследователь, вы должны знать, какие данные вы вводите.Кроме того, PPMC не предоставит вам никакой информации об уклоне линии; это только говорит вам, есть ли отношения.
Пример из реальной жизни
Корреляция Пирсона используется в тысячах реальных жизненных ситуаций. Например, китайские ученые хотели узнать, существует ли связь между генетическими различиями популяций сорняков. Целью было выяснить эволюционный потенциал риса. Была проанализирована корреляция Пирсона между двумя группами.Он показал положительную корреляцию момента продукта Пирсона между 0,783 и 0,895 для популяций сорного риса. Эта цифра довольно высока, что говорит о довольно прочных отношениях.
Если вы хотите увидеть больше примеров PPMC, вы можете найти несколько исследований на веб-сайте Openi Национального института здравоохранения, которые демонстрируют результаты столь же разнообразных исследований, как визуализация кисты груди, о роли углеводов в похудании.
В начало
Посмотрите видео, чтобы узнать, как найти PPMC вручную.
Не можете посмотреть видео? Кликните сюда.
Пример вопроса : Найдите значение коэффициента корреляции из следующей таблицы:
Тема | Возраст x | Уровень глюкозы у | 1 | 43 | 99 |
---|---|---|
2 | 21 | 65 | 3 | 25 | 79 |
4 | 42 | 75 | 5 | 57 | 87 |
6 | 59 | 81 |
Шаг 1: Составьте диаграмму. Используйте указанные данные и добавьте еще три столбца: xy, x 2 и y 2 .
Тема | Возраст x | Уровень глюкозы у | ху | х 2 | л 2 | 1 | 43 | 99 |
---|---|---|---|---|---|
2 | 21 | 65 | 3 | 25 | 79 |
4 | 42 | 75 | 5 | 57 | 87 |
6 | 59 | 81 |
Шаг 2: Умножьте x и y вместе, чтобы заполнить столбец xy.Например, строка 1 будет 43 × 99 = 4,257 .
Тема | Возраст x | Уровень глюкозы у | ху | х 2 | л 2 | 1 | 43 | 99 | 4257 |
---|---|---|---|---|---|
2 | 21 | 65 | 1365 | 3 | 25 | 79 | 1975 |
4 | 42 | 75 | 3150 | 5 | 57 | 87 | 4959 |
6 | 59 | 81 | 4779 |
Шаг 3: Возьмите квадрат чисел в столбце x и поместите результат в столбец x 2 .
Тема | Возраст x | Уровень глюкозы у | ху | х 2 | л 2 | 1 | 43 | 99 | 4257 | 1849 |
---|---|---|---|---|---|
2 | 21 | 65 | 1365 | 441 | 3 | 25 | 79 | 1975 | 625 |
4 | 42 | 75 | 3150 | 1764 | 5 | 57 | 87 | 4959 | 3249 |
6 | 59 | 81 | 4779 | 3481 |
Шаг 4: Возьмите квадрат чисел в столбце y и поместите результат в столбец y 2 .
Тема | Возраст x | Уровень глюкозы у | ху | х 2 | л 2 | 1 | 43 | 99 | 4257 | 1849 | 9801 |
---|---|---|---|---|---|
2 | 21 | 65 | 1365 | 441 | 4225 | 3 | 25 | 79 | 1975 | 625 | 6241 |
4 | 42 | 75 | 3150 | 1764 | 5625 | 5 | 57 | 87 | 4959 | 3249 | 7569 |
6 | 59 | 81 | 4779 | 3481 | 6561 |
Шаг 5: Сложите все числа в столбцах и поместите результат внизу столбца. Греческая буква сигма (Σ) — это краткое обозначение «суммы» или суммирования.
Тема | Возраст x | Уровень глюкозы у | ху | х 2 | л 2 | 1 | 43 | 99 | 4257 | 1849 | 9801 |
---|---|---|---|---|---|
2 | 21 | 65 | 1365 | 441 | 4225 | 3 | 25 | 79 | 1975 | 625 | 6241 |
4 | 42 | 75 | 3150 | 1764 | 5625 | 5 | 57 | 87 | 4959 | 3249 | 7569 |
6 | 59 | 81 | 4779 | 3481 | 6561 |
Σ | 247 | 486 | 20485 | 11409 | 40022 |
Шаг 6: Используйте следующую формулу коэффициента корреляции.
Ответ: 2868 / 5413,27 = 0,529809
Щелкните здесь, чтобы получить простые пошаговые инструкции по решению этой формулы.
Из нашей таблицы:
- Σx = 247
- Σy = 486
- Σxy = 20,485
- Σx 2 = 11,409
- Σy 2 = 40,022
- n — размер выборки, в нашем случае = 6
Коэффициент корреляции =
- 6 (20 485) — (247 × 486) / [√ [[6 (11 409) — (247 2 )] × [6 (40 022) — 486 2 ]]]
= 0.5298
Диапазон коэффициента корреляции составляет от -1 до 1. Наш результат составляет 0,5298 или 52,98%, что означает, что переменные имеют умеренную положительную корреляцию.
Вернуться к началу.
Понравилось объяснение? Ознакомьтесь со Справочником по статистике практического мошенничества, в котором есть еще сотни пошаговых объяснений, подобных этому!
Если вы берете статистику AP, вам не придется вручную работать с формулой корреляции. Вы воспользуетесь графическим калькулятором.Вот как найти r на TI83.
Шаг 1. Введите данные в список и создайте диаграмму рассеяния, чтобы убедиться, что ваши переменные примерно коррелированы. Другими словами, ищите прямую линию. Не знаете, как это сделать? См .: TI 83 Диаграмма рассеяния.
Шаг 2: Нажмите кнопку STAT.
Шаг 3: Прокрутите вправо до меню CALC.
Шаг 4: Прокрутите вниз до 4: LinReg (ax + b), затем нажмите ENTER. На выходе будет отображаться буква «r» в самом низу списка.
Совет : Если вы не видите r, включите диагностику, а затем повторите действия.
Посмотрите видео:
Не можете посмотреть видео? Кликните сюда.
Шаг 1: Введите данные в два столбца в Excel. Например, введите данные «x» в столбец A и данные «y» в столбец B.
Шаг 2: Выберите любую пустую ячейку.
Шаг 3: Щелкните функциональную кнопку на ленте.
Шаг 4: Введите «корреляция» в поле «Искать функцию».
Шаг 5: Щелкните «Перейти».« CORREL будет выделен.
Шаг 6: Нажмите «ОК».
Шаг 7: Введите расположение данных в поля «Массив 1», и «Массив 2», . В этом примере введите «A2: A10» в поле «Массив 1», а затем введите «B2: B10» в поле «Массив 2».
Шаг 8: Нажмите «ОК». Результат появится в ячейке, выбранной на шаге 2. Для этого конкретного набора данных коэффициент корреляции (r) равен -0.1316.
Внимание! Результаты этого теста могут вводить в заблуждение, если вы сначала не построили диаграмму рассеяния, чтобы убедиться, что ваши данные примерно соответствуют прямой линии. Коэффициент корреляции в Excel 2007 будет , всегда будет возвращать значение, даже если ваши данные отличаются от линейных (т.е. данные соответствуют экспоненциальной модели).
Вот и все!
Подпишитесь на наш канал Youtube, чтобы получить больше советов по Excel и помощи по статистике.
Вернуться к началу.
Посмотрите видео с шагами:
Не можете посмотреть видео? Кликните сюда.
Шаг 1: Щелкните «Анализировать», затем щелкните «Корреляция», затем щелкните «Двумерный». Появится окно двумерных корреляций.
Шаг 2: Щелкните одну из переменных в левом окне всплывающего окна «Двумерные корреляции». Затем щелкните центральную стрелку, чтобы переместить переменную в окно «Переменные:». Повторите это для второй переменной.
Шаг 3: Установите флажок «Pearson» , если он еще не установлен. Затем щелкните переключатель «односторонний» или «двусторонний» тестирования.Если вы не уверены, является ли ваш тест односторонним или двусторонним, посмотрите: односторонний это тест или двусторонний?
Шаг 4: Нажмите «ОК» и прочтите результаты. Каждое поле в выходных данных дает вам корреляцию между двумя переменными. Например, PPMC для числа старших братьев и сестер и среднего балла составляет -098, что означает практически отсутствие корреляции. Вы можете найти эту информацию в двух местах вывода. Почему? Эта перекрестная ссылка на столбцы и строки очень полезна при сравнении PPMC для десятков переменных.
Совет № 1: Всегда полезно создать диаграмму рассеяния SPSS для вашего набора данных до того, как вы проведете этот тест. Это потому, что SPSS будет всегда давать какой-то ответ и будет предполагать, что данные линейно связаны. Если у вас есть данные, которые могут лучше подходить для другой корреляции (например, экспоненциально связанные данные), тогда SPSS все равно будет запускать Pearson’s для вас, и вы можете получить вводящие в заблуждение результаты.
Совет № 2 : Нажмите кнопку «Параметры» в окне двумерных корреляций, если вы хотите включить описательную статистику, такую как среднее значение и стандартное отклонение.
Вернуться к началу.
Посмотрите это видео о том, как рассчитать коэффициент корреляции в Minitab :
Не можете посмотреть видео? Кликните сюда.
Коэффициент корреляции Minitab вернет значение для r от -1 до 1.
Пример вопроса : Найдите коэффициент корреляции Minitab на основе возраста и уровня глюкозы из следующей таблицы из преддиабетического исследования 6 участников:
Тема | Возраст x | Уровень глюкозы у | 1 | 43 | 99 |
---|---|---|
2 | 21 | 65 | 3 | 25 | 79 |
4 | 42 | 75 | 5 | 57 | 87 |
6 | 59 | 81 |
Шаг 1: Введите данные в рабочий лист Minitab .Я ввел этот образец данных в три столбца.
Данные вводятся в три столбца на листе Minitab.
Шаг 2: Щелкните «Статистика», затем щелкните «Основная статистика», а затем щелкните «Корреляция».
«Корреляция» выбирается в меню «Статистика> Основная статистика».
Шаг 3: Щелкните имя переменной в левом окне, а затем нажмите кнопку «Выбрать» , чтобы переместить имя переменной в поле «Переменная». Для этого примера вопроса нажмите «Возраст», затем нажмите «Выбрать», затем нажмите «Уровень глюкозы», затем нажмите «Выбрать», чтобы перенести обе переменные в окно переменных.
Шаг 4: (Необязательно) Установите флажок «P-Value» , если вы хотите отобразить P-значение для r.
Шаг 5: Нажмите «ОК». Коэффициент корреляции Minitab будет отображаться в окне сеанса. Если вы не видите результатов, нажмите «Окно», а затем «Плитка». Должно появиться окно сеанса.
Результаты корреляции Minitab.
Для этого набора данных:
- Значение r: 0,530
- Значение P: 0,280
Вот и все!
Совет: Дайте столбцам осмысленные имена (в первой строке столбца, прямо под C1, C2 и т. Д.). Таким образом, когда дело доходит до выбора имен переменных на шаге 3, вы легко увидите, что именно вы пытаетесь выбрать. Это становится особенно важным, когда у вас есть десятки столбцов переменных в таблице данных!
Коэффициент корреляции Пирсона — это коэффициент линейной корреляции, который возвращает значение от -1 до +1. -1 означает сильную отрицательную корреляцию, а +1 означает сильную положительную корреляцию. 0 означает, что корреляция отсутствует (это также называется нулевой корреляцией , ).
Поначалу может быть немного сложно понять (кому нравится иметь дело с отрицательными числами?). Кафедра политологии Университета Куиннипиак опубликовала этот полезный список значений коэффициентов корреляции Пирсона. Они отмечают, что это « приблизительных оценок » для интерпретации силы корреляций с использованием корреляции Пирсона:
r значение = | |
+.70 и выше | Очень сильные положительные отношения |
+.40 до +.69 | Крепкие позитивные отношения |
+ 30 до + 39 | Умеренно позитивные отношения |
от +.20 до +.29 | слабая положительная связь |
+.01 до +.19 | Отношения отсутствуют или незначительны |
0 | Нет взаимосвязи [нулевая корреляция] |
-.01 до -.19 | Отношения отсутствуют или незначительны |
-.От 20 до -.29 | слабая отрицательная связь |
-.30 до -.39 | Умеренно отрицательные отношения |
от -,40 до -,69 | Сильные отрицательные отношения |
-.70 или выше | Очень сильная отрицательная связь |
Может быть полезно графически увидеть, как выглядят эти корреляции:
Графики, показывающие корреляцию -1 (отрицательная корреляция), 0 и +1 (положительная корреляция)
Изображения показывают, что сильная отрицательная корреляция означает, что график имеет наклон вниз слева направо: по мере увеличения значений x значения y становятся меньше.Сильная положительная корреляция означает, что график имеет восходящий наклон слева направо: по мере увеличения значений x значения y становятся больше.
Вернуться к началу.
Корреляция V Крамера аналогична коэффициенту корреляции Пирсона. В то время как корреляция Пирсона используется для проверки силы линейных отношений, V Крамера используется для расчета корреляции в таблицах с более чем 2 x 2 столбцами и строками. Корреляция V Крамера варьируется от 0 до 1. Значение, близкое к 0, означает, что между переменными очень мало связи.Значение V Крамера, близкое к 1, указывает на очень сильную связь.
Cramer’s V | |
0,25 или выше | Очень сильные отношения |
от 0,15 до 0,25 | Крепкие отношения |
от 0,11 до 0,15 | Умеренные отношения |
от 0,06 до 0,10 | слабая связь |
от 0,01 до 0,05 | Отношения отсутствуют или незначительны |
Вернуться к началу.
Коэффициент корреляции дает представление о том, насколько хорошо данные соответствуют линии или кривой. Пирсон не был изобретателем термина корреляция, но его использование стало одним из самых популярных способов измерения корреляции.
Фрэнсис Гальтон (который также участвовал в разработке межквартильного размаха) был первым, кто измерил корреляцию, первоначально называемую «взаимозависимостью», что действительно имеет смысл, учитывая, что вы изучаете взаимосвязь между парой различных переменных.В «Взаимоотношениях и их измерении» он сказал
.«Рост родственников — взаимосвязанные переменные; таким образом, рост отца соотносится с ростом взрослого сына … и так далее; но показатель родства … в разных случаях разный ».
Стоит отметить, однако, что Гальтон упомянул в своей статье, что он заимствовал этот термин из биологии, где использовались «Взаимосвязь и корреляция структуры», но до момента написания его статьи это не было должным образом определено.
В 1892 году британский статистик Фрэнсис Исидро Эджворт опубликовал статью под названием «Коррелированные средние значения», Philosophical Magazine, 5th Series, 34, 190-204, где он использовал термин «коэффициент корреляции». Только в 1896 году британский математик Карл Пирсон использовал «коэффициент корреляции» в двух статьях: «Вклад в математическую теорию эволюции» и «Математический вклад в теорию эволюции». III. Регрессия, наследственность и панмиксия. Это была вторая статья, в которой была представлена формула корреляции произведение-момент Пирсона для оценки корреляции.
Уравнение корреляции произведение-момент Пирсона.
Вернуться к началу.
Если вы умеете читать таблицу — можете проверить коэффициент корреляции. Обратите внимание, что корреляции следует рассчитывать только для всего диапазона данных. Если ограничить диапазон, r ослабнет.
Пример задачи : проверьте значимость коэффициента корреляции r = 0,565, используя критические значения для таблицы PPMC. Тест при α = 0.01 для размера выборки 9.
Шаг 1: Вычтите два из размера выборки, чтобы получить df, степени свободы .
9–7 = 2
Шаг 2: Найдите значения в таблице PPMC. При df = 7 и α = 0,01 табличное значение = 0,798
Шаг 3: Нарисуйте график, чтобы было легче увидеть взаимосвязь.
r = 0,565 не попадает в область отбраковки (выше 0.798), поэтому недостаточно доказательств, чтобы утверждать, что в данных существует сильная линейная зависимость.
Тригонометрия редко используется в статистике (например, вам никогда не нужно будет находить производную от tan (x)!), Но связь между корреляцией и косинусом является исключением. Корреляцию можно выразить в углах:
- Положительная корреляция = острый угол <45 °,
- Отрицательная корреляция = тупой угол> 45 °,
- Некоррелированный = ортогональный (прямой угол).
Более конкретно, корреляция — это косинус угла между двумя векторами, определяемыми следующим образом (Knill, 2011):
Если X, Y — две случайные величины с нулевым средним, то ковариация Cov [XY] = E [X · Y] является скалярным произведением X и Y. Стандартное отклонение X равно длине X.
Список литературы
Актон, Ф. С. Анализ прямолинейных данных. Нью-Йорк: Довер, 1966.
Эдвардс, А. Л. «Коэффициент корреляции». Гл. 4 в «Введение в линейную регрессию и корреляцию».Сан-Франциско, Калифорния: W. H. Freeman, pp. 33-46, 1976.
Gonick, L. и Smith, W. «Регрессия». Гл. 11 в The Cartoon Guide to Statistics. Нью-Йорк: Harper Perennial, стр. 187-210, 1993.
Knill, O. (2011). Лекция 12: Корреляция. Получено 16 апреля 2021 г. с сайта: http://people.math.harvard.edu/~knill/teaching/math29b_2011/handouts/lecture12.pdf
Другие аналогичные формулы, которые включают корреляцию ( щелкните, чтобы увидеть статью ):
————————————————— —————————-Нужна помощь с домашним заданием или контрольным вопросом? С Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области.Ваши первые 30 минут с репетитором Chegg бесплатны!
Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .
Коэффициент корреляции — обзор
10.3.1 Формулировка скорректированной меры корреляции
Стандартный коэффициент линейной корреляции — это мера корреляции между двумя временными рядами Δ x i и Δ y i и определяется следующим образом:
(10.1) Q (xi, yi) ≡∑i = 1n (Δxi− 〈Δx〉) (Δyi− 〈Δy)〉 i = 1n (Δxi− 〈Δx〉) 2 ∑i = 1n (Δyi− 〈Δy〉) 2
со средними по выборке,
(10.2) 〈Δx〉 ≡∑i = 1nΔxin и 〈Δy〉 ≡∑i = 1nΔyin
Размер выборки T с n = T / Δ т наблюдения с однородным интервалом. Значения корреляции безразмерны и могут варьироваться от -1 (полностью антикоррелировано) до 1 (полностью коррелировано). Нулевое значение указывает на две нескорректированные серии.
Две переменные Δ x i и Δ y i обычно представляют собой доходность двух финансовых активов.При оценке риска (но не при распределении портфеля) отклонение доходности от нулевого уровня часто рассматривается вместо отклонения от выборочных средних 〈Δ x 〉 и 〈Δ y 〉. В этом частном случае мы можем вставить 〈Δ x 〉 = 〈Δ y 〉 = 0 в уравнение 10.1.
Оценка локальной коволатности для каждого из этих наблюдений определяется дальнейшим делением каждого временного интервала (Δ t ), на котором Δ x i и Δ y i , вычисляются на м и равных подинтервалах, из которых могут быть получены значения субдоходов, Δx˜j и Δy˜j.Этот переопределенный временной ряд теперь состоит из n˜ = T / Δt˜ равноотстоящих обратных наблюдений, где Δt≡mΔt˜. Определения доходности соответствуют уравнению 3.7, основанному на логарифмических средних ценах, как в уравнении 3.6. Чтобы получить однородный ряд, нам потребуется линейная интерполяция, как введено в уравнении 3.2. Выбор метода линейной интерполяции очень важен.
Для каждой из предыдущих грубых доходностей Δ x i (как для Δ y i ) существует соответствующая оценка коволатильности между двумя однородными временными рядами доходностей
(10.3) ωi (Δx˜j; Δy˜j; Δt˜) ≡∑j = 1m (| Δx˜i · m − j− 〈Δx˜i · m〉 | · | Δy˜i · m − j− 〈Δy ˜i · m〉 |) α
, где
(10.4) 〈Δx˜i · m〉 = ∑j = 1mΔx˜i · m − jmand 〈Δy˜i · m〉 = ∑j = 1mΔy˜i · m −jm
Наиболее очевидный выбор для α — 0,5, хотя его можно исследовать как способ увеличения или уменьшения веса, придаваемого более удаленным возвращаемым значениям. Значение 0,5 используется во всех случаях, описанных в этом обсуждении.
Уравнение 10.3 формулирует коволатильность около среднего, а не около нуля, и, следовательно, следует, что ω i = 0 для случая доходности, полученной из двух линейно интерполированных цен, существующих за пределами нашей области интереса, Δ t .Эти оценки коволатности могут быть вставлены в качестве весов во все суммы, вычисленные для получения дисперсии и ковариации вычисления корреляции:
(10.5) Q˜ (Δxi, Δyi, ωi) ≡∑i = 1T / Δt [(Δxi− 〈 Δx〉) (Δyi− 〈Δy〉) ωi] ∑i = 1T / Δt [(Δxi− 〈Δx〉) 2ωi] ∑i = 1T / Δt [(Δyi− 〈Δy〉) 2ωi]
Обратите внимание, что Δ x i и Δ y i из уравнения 10.5 — это те же значения, которые используются в уравнении 10.1, поскольку они представляют собой логарифмическую доходность, взятую за тот же период времени, Δ t .Эти грубые возвращаемые значения затем могут быть определены как сумма точных возвращаемых значений
(10.6) Δxi≡∑j = 1mΔx˜i · m − j
Образец означает 〈Δ x 〉 и 〈Δ y 〉 Необходимо пересмотреть в уравнении 10.5. В частном случае оценки риска мы все же можем заменить их нулем. В противном случае мы предпочитаем, чтобы они снова вычислялись взвешенным образом, чтобы результаты учитывались только при наличии наблюдений в интервалах размером Δ t . Вместо того, чтобы придерживаться уравнения 10.2 мы определяем средневзвешенные значения коволатильности для обоих временных рядов:
(10.7) 〈Δx〉 ≡∑i = 1T / Δt (Δxi · ωi) ∑i = 1T / Δtωi и 〈Δy〉 ≡∑i = 1T / Δt ( Δyi · ωi) ∑i = 1T / Δtωi
Таким образом, средние значения вычисляются по идентично взвешенной выборке данных, которая также используется для остального расчета корреляции. Веса корректируются для периодов низкой или высокой активности.
Уравнение 10.3 сформулировано таким образом, что ω i = 0 для случая возвратов, интерполированных по пробелу данных, то есть интервалу тиков, который полностью содержит анализируемый интервал размером Δ t .Пробелы в данных не влияют на средние значения, и суммы уравнений 10.5 и 10.7 там не обновляются. Показатель корреляции с поправкой на коволатность, описываемый уравнением 10.5, также сохраняет желаемые характеристики исходного стандартного коэффициента линейной корреляции; он не имеет масштаба, и можно напрямую сравнивать совершенно разные измерения. Кроме того, этот альтернативный метод лишь немного сложнее реализовать, чем стандартный коэффициент линейной корреляции, и его легко реализовать на компьютере.
Как будет показано ниже, эта корреляционная мера легко вписывается в структуру автокорреляционного анализа. Учитывая временной ряд корреляций Q˜t, он может быть коррелирован с его копией, но с разными временными задержками (τ) между ними, как показано в уравнении 10.8:
(10.8) R (Q˜ (Δxi, Δyi , ωi), τ) = ∑t = τ + 1n (Q˜t− 〈Q˜1〉) (Q˜t − τ− 〈Q˜2〉) [∑t = τ + 1n (Q˜t− 〈 Q˜1〉) 2∑t = τ + 1n (Q˜t − τ− 〈Q˜2〉) 2] 1/2
для τ <0, где
(10.9) 〈Q˜1〉 = 1n −τ∑t = τ + 1nQ˜tand 〈Q˜2〉 = 1n − τ∑t = τ + 1nQ˜t − τ
Для дальнейшего обсуждения мы измеряем корреляцию, используя метод с поправкой на коволатильность, описанный уравнением 10.5, если не указано иное, и всегда м = 6 и α = 0,5 (см. Уравнение 10.3). Любое последующее использование общепризнанного коэффициента линейной корреляции (уравнение 10.1) будет называться «стандартным» методом.
Коэффициент корреляции (r)
Выборочный коэффициент корреляции (r) является мерой близости точек на графике разброса с линией линейной регрессии на основе этих точек, как в приведенном выше примере для накопленной экономии с течением времени.Возможные значения коэффициента корреляции варьируются от -1 до +1, где -1 указывает на абсолютно линейную отрицательную, то есть обратную корреляцию (наклон вниз), а +1 указывает на идеально линейную положительную корреляцию (наклон вверх).
Коэффициент корреляции, близкий к 0, предполагает небольшую корреляцию, если она вообще есть. Диаграмма разброса предполагает, что измерения IQ не меняются с возрастом, т.е. нет никаких доказательств того, что IQ связан с возрастом.
Расчет коэффициента корреляции
Уравнения ниже показывают вычисления sed для вычисления «r».Однако запоминать эти уравнения не нужно. Мы будем использовать R для выполнения этих вычислений за нас. Тем не менее, уравнения дают представление о том, как вычисляется «r».
, где Cov (X, Y) — ковариация, т.е. насколько далеко каждая наблюдаемая пара (X, Y) от среднего значения X и среднего значения Y одновременно, и s x 2 и s y 2 — это примерные дисперсии для X и Y.
. Cov (X, Y) вычисляется как:
Вам не нужно запоминать или использовать эти уравнения для ручных вычислений.Вместо этого мы будем использовать R для вычисления коэффициентов корреляции. Например, мы могли бы использовать следующую команду для вычисления коэффициента корреляции для ВОЗРАСТА и TOTCHOL в подмножестве Framingham Heart Study следующим образом:
> cor (ВОЗРАСТ, TOTCHOL)
[1] 0,2
Описание коэффициентов корреляции
В таблице ниже приведены некоторые рекомендации по описанию силы коэффициентов корреляции, но это всего лишь рекомендации для описания. Кроме того, имейте в виду, что даже слабые корреляции могут быть статистически значимыми, как вы вскоре узнаете.
Коэффициент корреляции (r) | Описание (приблизительное руководство) |
---|---|
+1,0 | Идеальный позитив + ассоциация |
+0,8 до 1,0 | Очень сильная + ассоциация |
от +0,6 до 0,8 | Strong + ассоциация |
от +0,4 до 0,6 | Умеренный + ассоциация |
+0.2 до 0,4 | Слабая + ассоциация |
от 0,0 до +0,2 | Очень слабая + или нет ассоциации |
от 0,0 до -0,2 | Очень слабая — связь отсутствует |
от -0,2 до — 0,4 | Слабая — ассоциация |
от -0,4 до -0,6 | Умеренный — ассоциация |
от -0,6 до -0,8 | Strong — ассоциация |
-0.8 до -1,0 | Очень сильная — ассоциация |
-1,0 | Совершенная отрицательная ассоциация |
Четыре изображения ниже дают представление о том, как некоторые коэффициенты корреляции могут выглядеть на диаграмме рассеяния.
График разброса ниже иллюстрирует взаимосвязь между систолическим артериальным давлением и возрастом у большого числа субъектов. Он предполагает слабую (r = 0,36), но статистически значимую (p <0,0001) положительную связь между возрастом и систолическим артериальным давлением.Разброс довольно небольшой, но есть много наблюдений, и есть четкий линейный тренд.
Как корреляция может быть слабой, но все же статистически значимой? Учтите, что у большинства результатов есть несколько детерминант. Например, индекс массы тела (ИМТ) определяется множеством факторов («воздействий»), таких как возраст, рост, пол, потребление калорий, физические упражнения, генетические факторы и т. Д. Таким образом, рост — это лишь один из определяющих факторов и способствующий фактор. , но не единственный фактор, определяющий ИМТ.В результате рост может быть важным определяющим фактором, то есть он может быть в значительной степени связан с ИМТ, но быть лишь частичным фактором. В этом случае даже слабая корреляция может быть статистически значимой, если размер выборки достаточно велик. По сути, обнаружение слабой корреляции, которая является статистически значимой, предполагает, что это конкретное воздействие оказывает влияние на переменную результата, но есть и другие важные детерминанты.
Остерегайтесь нелинейных отношений
Многие отношения между измеряемыми переменными достаточно линейны, но другие нет. Например, изображение ниже показывает, что риск смерти не коррелирует линейно с индексом массы тела.Вместо этого этот тип взаимосвязи часто описывается как «U-образный» или «J-образный», потому что значение переменной Y первоначально уменьшается с увеличением X, но с дальнейшим увеличением X переменная Y существенно увеличивается. . Связь между употреблением алкоголя и смертностью также имеет «J-образную форму».
Источник: Calle EE и др .: N Engl J Med 1999; 341: 1097-1105
Простой способ оценить, является ли связь достаточно линейной, — это изучить диаграмму рассеяния.Чтобы проиллюстрировать это, посмотрите на приведенный ниже график разброса роста (в дюймах) и веса тела (в фунтах) с использованием данных обследования состояния здоровья в Веймуте в 2004 году. R использовался для создания графика разброса и вычисления коэффициента корреляции.
wey <-na.omit (Weymouth_Adult_Part)
attach (wey)
plot (hgt_inch, weight)
cor (hgt_inch, weight)
[1] 0,5653241
Имеется довольно большой разброс, и большое количество точек данных затрудняет полную оценку корреляции, но тенденция является достаточно линейной.Коэффициент корреляции +0,56.
Остерегайтесь выбросов
Также обратите внимание на график выше, что есть два человека с видимым ростом 88 и 99 дюймов. Высота 88 дюймов (7 футов 3 дюйма) правдоподобна, но маловероятна, а высота 99 дюймов, безусловно, является ошибкой кодирования. Очевидные ошибки кодирования следует исключить из анализа, поскольку они могут оказать чрезмерное влияние на результаты. Всегда полезно смотреть на необработанные данные, чтобы выявить грубые ошибки в кодировании.
После исключения двух выбросов график выглядит следующим образом:
вернуться наверх | предыдущая страница | следующая страница
Корреляционный анализ
В корреляционном анализе мы оцениваем коэффициент корреляции выборки , а точнее коэффициент корреляции момента произведения Пирсона . Коэффициент корреляции выборки, обозначенный r,
находится в диапазоне от -1 до +1 и количественно определяет направление и силу линейной связи между двумя переменными.Корреляция между двумя переменными может быть положительной (т.е. более высокие уровни одной переменной связаны с более высокими уровнями другой) или отрицательной (т.е. более высокие уровни одной переменной связаны с более низкими уровнями другой).
Знак коэффициента корреляции указывает направление ассоциации. Величина коэффициента корреляции указывает на силу ассоциации.
Например, корреляция r = 0,9 предполагает сильную положительную связь между двумя переменными, тогда как корреляция r = -0.2 указывают на слабую отрицательную связь. Корреляция, близкая к нулю, предполагает отсутствие линейной связи между двумя непрерывными переменными.
Важно отметить, что между двумя непрерывными переменными может быть нелинейная связь, но вычисление коэффициента корреляции этого не обнаруживает. Поэтому всегда важно тщательно оценивать данные перед вычислением коэффициента корреляции. Графические дисплеи особенно полезны для изучения связей между переменными.
На рисунке ниже показаны четыре гипотетических сценария, в которых одна непрерывная переменная нанесена по оси X, а другая — по оси Y.
- Сценарий 1 демонстрирует сильную положительную связь (r = 0,9), аналогичную той, которую мы могли бы увидеть для корреляции между массой тела при рождении и длиной тела при рождении.
- Сценарий 2 показывает более слабую связь (r = 0,2), которую мы могли бы ожидать увидеть между возрастом и индексом массы тела (который имеет тенденцию к увеличению с возрастом).
- Сценарий 3 может отражать отсутствие связи (r приблизительно = 0) между степенью воздействия средств массовой информации в подростковом возрасте и возрастом, в котором подростки начинают половую жизнь.
- Сценарий 4 может отображать сильную отрицательную связь (r = -0,9), обычно наблюдаемую между количеством часов аэробных упражнений в неделю и процентом жира в организме.
Пример — корреляция гестационного возраста и массы тела при рождении
Небольшое исследование проводится с участием 17 младенцев для изучения связи между гестационным возрастом при рождении, измеряемым в неделях, и массой тела при рождении, измеряемой в граммах.
Младенец ID № |
Срок беременности (недели) |
Вес при рождении (граммы) |
---|---|---|
1 |
34,7 |
1895 |
2 |
36,0 |
2030 |
3 |
29.3 |
1440 |
4 |
40,1 |
2835 |
5 |
35,7 |
3090 |
6 |
42,4 |
3827 |
7 |
40.3 |
3260 |
8 |
37,3 |
2690 |
9 |
40,9 |
3285 |
10 |
38,3 |
2920 |
11 |
38.5 |
3430 |
12 |
41,4 |
3657 |
13 |
39,7 |
3685 |
14 |
39,7 |
3345 |
15 |
41.1 |
3260 |
16 |
38,0 |
2680 |
17 |
38,7 |
2005 |
Мы хотим оценить связь между гестационным возрастом и массой тела при рождении.В этом примере вес при рождении является зависимой переменной, а гестационный возраст — независимой переменной. Таким образом, y = масса тела при рождении, а x = срок беременности. Данные отображаются на диаграмме разброса на рисунке ниже.
Каждая точка представляет пару (x, y) (в данном случае гестационный возраст, измеренный в неделях, и вес при рождении, измеренный в граммах). Обратите внимание, что независимая переменная, гестационный возраст) находится на горизонтальной оси (или оси X), а зависимая переменная (масса при рождении) — на вертикальной оси (или оси Y).Диаграмма разброса показывает положительную или прямую связь между сроком беременности и массой тела при рождении.