В статистиката и теорията на вероятностите корелацията означава колко тясно свързани са два набора от данни.

Корелацията не винаги означава, че едното причинява другото. Много е възможно да има и трети фактор.

Корелацията обикновено има една от двете посоки. Те са положителна или отрицателна. Ако тя е положителна, двете съвкупности се повишават заедно. Ако е отрицателна, тогава едната се повишава, а другата се понижава.

За различни ситуации се използват много различни измервания на корелацията. Например на графиката на разсейване хората чертаят линията на най-добро съответствие, за да покажат посоката на корелацията.

Какво още означава корелация

Корелацията описва количествено степента и посоката на връзката между две променливи. Стойностите на корелационните мерки често са в интервала от -1 до +1:

  • +1 — перфектна положителна връзка (едната винаги се увеличава с другата);
  • -1 — перфектна отрицателна връзка (едната винаги намалява, когато другата се увеличава);
  • 0 — няма линейна връзка (но може да има нелинейна зависимост).

Видове корелация

  • Положителна корелация — стойностите на двете променливи се покачват или падат заедно.
  • Отрицателна корелация — когато едната променлива се покачва, другата намалява.
  • Нулева или слабa корелация — няма явна линейна зависимост.
  • Спурийна (фалшива) корелация — наблюдаваната връзка се дължи на трети променливи или случайност; тук важи предупреждението, че корелацията не означава причинност.
  • Частична корелация — измерва връзката между две променливи при контролиране на ефекта на една или повече допълнителни променливи.
  • Крос-корелация — използва се при времеви редове, за да се оцени зависимостта с временно отместване (лаг).

Основни мерки за корелация

  • Пиърсънов коефициент на корелация (r) — най-често използваният показател за линейна връзка между две количествени променливи. Изчислява се като: r = Σ(xi - x̄)(yi - ȳ) / sqrt(Σ(xi - x̄)^2 · Σ(yi - ȳ)^2). Прилага се при приблизително нормално разпределение и линейна връзка; е чувствителен към аутлайъри.
  • Спиърманов ранг-корелационен коефициент (ρ или rs) — измерва монотонната (не непременно линейна) връзка, основава се на рангове. Устойчива е на аутлайъри и подходяща при порядкови данни или при нелинейни монотонни зависимости.
  • Кендъл τ — друг рангов коефициент, използван за оценка на монотонни връзки; предпочитан при малки извадки или когато има много еднакви рангове.
  • Фай коефициент (φ) и точков-бисериален коефициент — за двоични променливи или комбинация от бинарна и количествена променлива.
  • Частична корелация — измерва връзката между две променливи след отстраняване влиянието на други променливи.

Интерпретация и статистическа значимост

  • Стойността на коефициента дава идея за сила и посока, но трябва да се тълкува заедно с размер на извадката (n). Малка извадка може да даде висока стойност, която не е статистически значима.
  • За Пиърсъновия r често се прави t-тест за нулева корелация с df = n − 2; p-стойността показва дали връзката е вероятно различна от нула.
  • За интерпретация на силата на ефекта често се използват груби прагове (по Cohen): |r| ≈ 0.1 (малък), 0.3 (среден), 0.5 (голям) — това са ориентири, не правила.
  • Доверителни интервали за коефициента на корелация могат да се изчислят чрез Фишърско преобразуване (Fisher z), което помага да се оценят несигурността и стабилността на оценката.

Ограничения и опасности

  • Корелация ≠ причинност. Дори силна корелация не доказва, че една променлива причинява промени в друга.
  • Аутлайъри могат да изкривят Пиърсъновия коефициент; полезно е да се визуализират данните с графика на разсейване преди изчисления.
  • Нелинейни връзки може да останат незабелязани при използване само на линейни мерки — в такива случаи подходящи са ранговите коефициенти или трансформации на данните.
  • Хомоскедастичност и нормалност — при някои тестове и интерпретации за Пиърсън се предполага приблизително нормално разпределение и равномерна дисперсия; при нарушаване на тези условия резултатите могат да са ненадеждни.

Визуализация и практически съвети

  • Винаги чертаете графика на разсейване (scatterplot) преди да се доверите на един само числен коефициент.
  • Използвайте heatmap (карта на корелациите) при много променливи, за да намерите интересни връзки.
  • Ако наблюдавате нелинейна връзка, опитайте трансформации (лог, корен) или използвайте рангови мерки (Spearman, Kendall).
  • При времеви редове проверете за автокорелация и използвайте крос-корелация с лагове.
  • При наличието на потенциални объркващи променливи използвайте частична корелация или модели (регресия) за контролиране.

В обобщение, корелацията е мощен инструмент за откриване и измерване на връзки между променливи, но изисква внимателна интерпретация, визуализация и проверка на допусканията, преди да се правят заключения за причинност или значимост.