В математиката и статистиката коефициентът на корелация на Спирман е непараметрична мярка за степента на монотонна зависимост между две променливи, наречена на името на Чарлз Спирман. Обикновено се означава с гръцката буква rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) или като r s {\displaystyle r_{s}} {\displaystyle r_{s}}. Тази мярка се прилага за данни, които могат да бъдат подредени по стойност (ранги) — например оценки, места в класация или измервания, които могат да се сравняват по големина.

Какво показва стойността на ρ

  • Стойностите на ρ винаги са между -1 и +1.
  • ρ = +1 означава перфектна възходяща (монотонно нарастваща) зависимост между рангите на двете променливи.
  • ρ = −1 означава перфектна низходяща (монотонно намаляваща) зависимост.
  • ρ ≈ 0 показва липса на монотонна връзка (може да има нелинейна или друга непредвидима връзка).

Формула и обяснение на символите

Общата формула за r s {\displaystyle r_{s}}{\displaystyle r_{s}} е

ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Обяснение на символите:

  • n — брой наблюдения (двойки от стойности).
  • d — разликата между ранга на наблюдението в първата променлива и ранга на същото наблюдение във втората променлива (d = rank(X) − rank(Y)).
  • ∑d² — сумата от квадратите на тези разлики за всички наблюдения.

Алтернативно (особено при връзки и при наличие на равни стойности) ρ може да се изчисли като корелация на ранговете посредством ковариация:

ρ = cov(rank(X), rank(Y)) / (σ_rank(X) · σ_rank(Y)),

което е удобно при компютърни изчисления и дава правилна стойност при връзки (ties), когато рангът се задава като средна стойност за равните наблюдения.

Стъпки за изчисление

  1. За всяка променлива заместете стойностите с техните рангове (1, 2, ..., n). При равни стойности (връзки) се присвоява средният ранг за съответните позиции.
  2. За всяко наблюдение изчислете разликата d между двата ранга и след това d².
  3. Сумирайте всички d² и ги заместете във формулата ρ = 1 − (6 ∑ d²) / (n(n² − 1)).
  4. Интерпретирайте резултата: близо до +1 силна положителна монотонна връзка; близо до −1 силна отрицателна; около 0 слаба или липса на монотонна връзка.

Пример

Имаме данни за пет компютъра: колко струват и колко са бързи (в относителна скала). Поредността на наблюденията е A, B, C, D, E.

  • Цени: A = 300, B = 200, C = 400, D = 150, E = 350
  • Скорост: A = 3.2, B = 2.8, C = 3.6, D = 2.0, E = 3.0

Стъпки:

  • Ранг на цените (от най-ниска към най-висока): D(1), B(2), A(3), E(4), C(5) ⇒ ranks_price = [3,2,5,1,4].
  • Ранг на скоростта (от най-ниска към най-висока): D(1), B(2), E(3), A(4), C(5) ⇒ ranks_speed = [4,2,5,1,3].
  • Разлики d = ranks_price − ranks_speed: A: 3−4 = −1, B: 2−2 = 0, C: 5−5 = 0, D: 1−1 = 0, E: 4−3 = 1.
  • d²: 1, 0, 0, 0, 1 ⇒ ∑d² = 2.
  • n = 5, следователно ρ = 1 − (6·2) / (5·(25−1)) = 1 − 12 / 120 = 1 − 0.1 = 0.9.

Заключение: ρ = 0.9 показва много силна положителна монотонна връзка между цена и скорост в този пример — по-скъпите компютри обикновено са по-бързи.

Връзки (ties) и тест за значимост

  • При равни стойности (ties) за дадена променлива обикновено се присвоява средният ранг на местата, които тези наблюдения заемат; това е стандартен подход при изчисляване с рангове.
  • Формулата с 6∑d² е точна при липса на връзки; при налични връзки се предпочита изчисляване чрез корелация на ранговете (ковариацията на ранговете) или специални корекции.
  • За тестване на значимост можете да използвате приближение чрез t-статистика: t = ρ · sqrt((n−2) / (1−ρ²)), която приблизително следва t-разпределение с n−2 степени на свобода (по-надеждно при по-големи n). За малки проби е по-добре да се използва точен пермутационен тест.

Кога да използваме Спирман вместо Пиърсън

  • Спирман е подходящ, когато данните не са нормално разпределени, когато връзката може да бъде нелинейна, но монотонна, или когато имаме порядкови (ordinal) данни.
  • Пиърсън измерва линейна корелация и е по-чувствителен към екстремни стойности и към допусканията за нормалност. Ако интересът е в монотонната зависимост и/или данните са рангови — използвайте Спирман.

Спирмановият коефициент е широко прилаган в различни области — психология, екология, икономика, биомедицина и др. — всеки път, когато ни трябва проста и устойчива оценка на монотонната връзка между две променливи.