Корелация: понятие, видове и мерки в статистиката
Научете всичко за корелацията: понятие, видове, мерки и интерпретация в статистиката. Примери, графики и как да разпознавате дали връзките са случайни или причинно-следствени.
В статистиката и теорията на вероятностите корелацията означава колко тясно свързани са два набора от данни.
Корелацията не винаги означава, че едното причинява другото. Много е възможно да има и трети фактор.
Корелацията обикновено има една от двете посоки. Те са положителна или отрицателна. Ако тя е положителна, двете съвкупности се повишават заедно. Ако е отрицателна, тогава едната се повишава, а другата се понижава.
За различни ситуации се използват много различни измервания на корелацията. Например на графиката на разсейване хората чертаят линията на най-добро съответствие, за да покажат посоката на корелацията.
Какво още означава корелация
Корелацията описва количествено степента и посоката на връзката между две променливи. Стойностите на корелационните мерки често са в интервала от -1 до +1:
- +1 — перфектна положителна връзка (едната винаги се увеличава с другата);
- -1 — перфектна отрицателна връзка (едната винаги намалява, когато другата се увеличава);
- 0 — няма линейна връзка (но може да има нелинейна зависимост).
Видове корелация
- Положителна корелация — стойностите на двете променливи се покачват или падат заедно.
- Отрицателна корелация — когато едната променлива се покачва, другата намалява.
- Нулева или слабa корелация — няма явна линейна зависимост.
- Спурийна (фалшива) корелация — наблюдаваната връзка се дължи на трети променливи или случайност; тук важи предупреждението, че корелацията не означава причинност.
- Частична корелация — измерва връзката между две променливи при контролиране на ефекта на една или повече допълнителни променливи.
- Крос-корелация — използва се при времеви редове, за да се оцени зависимостта с временно отместване (лаг).
Основни мерки за корелация
- Пиърсънов коефициент на корелация (r) — най-често използваният показател за линейна връзка между две количествени променливи. Изчислява се като: r = Σ(xi - x̄)(yi - ȳ) / sqrt(Σ(xi - x̄)^2 · Σ(yi - ȳ)^2). Прилага се при приблизително нормално разпределение и линейна връзка; е чувствителен към аутлайъри.
- Спиърманов ранг-корелационен коефициент (ρ или rs) — измерва монотонната (не непременно линейна) връзка, основава се на рангове. Устойчива е на аутлайъри и подходяща при порядкови данни или при нелинейни монотонни зависимости.
- Кендъл τ — друг рангов коефициент, използван за оценка на монотонни връзки; предпочитан при малки извадки или когато има много еднакви рангове.
- Фай коефициент (φ) и точков-бисериален коефициент — за двоични променливи или комбинация от бинарна и количествена променлива.
- Частична корелация — измерва връзката между две променливи след отстраняване влиянието на други променливи.
Интерпретация и статистическа значимост
- Стойността на коефициента дава идея за сила и посока, но трябва да се тълкува заедно с размер на извадката (n). Малка извадка може да даде висока стойност, която не е статистически значима.
- За Пиърсъновия r често се прави t-тест за нулева корелация с df = n − 2; p-стойността показва дали връзката е вероятно различна от нула.
- За интерпретация на силата на ефекта често се използват груби прагове (по Cohen): |r| ≈ 0.1 (малък), 0.3 (среден), 0.5 (голям) — това са ориентири, не правила.
- Доверителни интервали за коефициента на корелация могат да се изчислят чрез Фишърско преобразуване (Fisher z), което помага да се оценят несигурността и стабилността на оценката.
Ограничения и опасности
- Корелация ≠ причинност. Дори силна корелация не доказва, че една променлива причинява промени в друга.
- Аутлайъри могат да изкривят Пиърсъновия коефициент; полезно е да се визуализират данните с графика на разсейване преди изчисления.
- Нелинейни връзки може да останат незабелязани при използване само на линейни мерки — в такива случаи подходящи са ранговите коефициенти или трансформации на данните.
- Хомоскедастичност и нормалност — при някои тестове и интерпретации за Пиърсън се предполага приблизително нормално разпределение и равномерна дисперсия; при нарушаване на тези условия резултатите могат да са ненадеждни.
Визуализация и практически съвети
- Винаги чертаете графика на разсейване (scatterplot) преди да се доверите на един само числен коефициент.
- Използвайте heatmap (карта на корелациите) при много променливи, за да намерите интересни връзки.
- Ако наблюдавате нелинейна връзка, опитайте трансформации (лог, корен) или използвайте рангови мерки (Spearman, Kendall).
- При времеви редове проверете за автокорелация и използвайте крос-корелация с лагове.
- При наличието на потенциални объркващи променливи използвайте частична корелация или модели (регресия) за контролиране.
В обобщение, корелацията е мощен инструмент за откриване и измерване на връзки между променливи, но изисква внимателна интерпретация, визуализация и проверка на допусканията, преди да се правят заключения за причинност или значимост.

Тази графика на разсейване има положителна корелация. Това се вижда, защото тенденцията е нагоре и надясно. Червената линия е линията на най-добро съответствие.
Обяснение на корелацията
Силен и слаб са думи, използвани за описание на корелацията. Ако има силна корелация, то всички точки са близо една до друга. Ако има слаба корелация, всички точки са разпръснати една от друга. Съществуват начини числата да показват колко силна е корелацията. Тези измервания се наричат коефициенти на корелация. Най-известният е коефициентът на корелация Пирсън. Въвеждате данните във формула и тя ви дава число. Ако числото е 1 или -1, значи е налице силна корелация. Ако отговорът е 0, значи няма корелация. Друг вид корелационен коефициент е коефициентът на рангова корелация на Спирман.
Корелация срещу причинно-следствена връзка
Корелацията не винаги означава, че едно нещо причинява друго (причинно-следствена връзка), защото нещо друго може да е причинило и двете неща. Например в горещите дни хората си купуват сладолед, а също така ходят на плаж, където някои биват изяждани от акули. Съществува връзка между продажбите на сладолед и нападенията от акули (в този случай и двете се увеличават с повишаването на температурата). Но това, че продажбите на сладолед се увеличават, не означава, че продажбите на сладолед причиняват повече нападения от акули или обратното.
Тъй като корелацията не означава причинно-следствена връзка, учените, икономистите и т.н. проверяват своите теории, като създават изолирани среди, в които се променя само един фактор (когато това е възможно). Въпреки това политици, търговци, новинарски агенции и други често внушават, че определена корелация предполага причинно-следствена връзка. Това може да се дължи на незнание или на желанието да бъдат убедени. Така например новинарски репортаж може да привлече вниманието, като каже, че хората, които консумират по-често определен продукт, имат определен здравословен проблем, намеквайки за причинно-следствена връзка, която всъщност може да се дължи на нещо друго.
Свързани страници
- Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Приложна множествена регресия/корелационен анализ за поведенческите науки. (3-то издание) Hillsdale, NJ: Lawrence Erlbaum Associates.
Въпроси и отговори
В: Какво е корелация?
О: Корелацията е начин да се посочи колко тясно свързани са два набора от данни.
В: Корелацията означава ли, че единият набор от данни причинява другия?
О: Не, корелацията не винаги означава, че единият набор от данни причинява другия. Всъщност често има и трети фактор.
В: Какви са двете посоки на корелацията?
О: Двете посоки на корелация са положителна и отрицателна.
В: Какво означава положителна корелация?
О: Положителната корелация означава, че двете групи данни се повишават заедно.
В: Какво означава отрицателна корелация?
О: Отрицателната корелация означава, че единият набор от данни се повишава, докато другият се понижава.
В: Има ли различни измервания на корелацията?
О: Да, за различни ситуации се използват много различни измервания на корелацията.
Въпрос: Как хората често показват посоката на корелация върху графиката на разсейване?
О: Хората често чертаят линията на най-добро съответствие, за да покажат посоката на корелацията върху графиката на разсейване.
обискирам