В математиката и статистиката коефициентът на корелация на Спирман е непараметрична мярка за степента на монотонна зависимост между две променливи, наречена на името на Чарлз Спирман. Обикновено се означава с гръцката буква rho ( ρ {\displaystyle \rho } ) или като r s {\displaystyle r_{s}}
. Тази мярка се прилага за данни, които могат да бъдат подредени по стойност (ранги) — например оценки, места в класация или измервания, които могат да се сравняват по големина.
Какво показва стойността на ρ
- Стойностите на ρ винаги са между -1 и +1.
- ρ = +1 означава перфектна възходяща (монотонно нарастваща) зависимост между рангите на двете променливи.
- ρ = −1 означава перфектна низходяща (монотонно намаляваща) зависимост.
- ρ ≈ 0 показва липса на монотонна връзка (може да има нелинейна или друга непредвидима връзка).
Формула и обяснение на символите
Общата формула за r s {\displaystyle r_{s}} е
ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
Обяснение на символите:
- n — брой наблюдения (двойки от стойности).
- d — разликата между ранга на наблюдението в първата променлива и ранга на същото наблюдение във втората променлива (d = rank(X) − rank(Y)).
- ∑d² — сумата от квадратите на тези разлики за всички наблюдения.
Алтернативно (особено при връзки и при наличие на равни стойности) ρ може да се изчисли като корелация на ранговете посредством ковариация:
ρ = cov(rank(X), rank(Y)) / (σ_rank(X) · σ_rank(Y)),
което е удобно при компютърни изчисления и дава правилна стойност при връзки (ties), когато рангът се задава като средна стойност за равните наблюдения.
Стъпки за изчисление
- За всяка променлива заместете стойностите с техните рангове (1, 2, ..., n). При равни стойности (връзки) се присвоява средният ранг за съответните позиции.
- За всяко наблюдение изчислете разликата d между двата ранга и след това d².
- Сумирайте всички d² и ги заместете във формулата ρ = 1 − (6 ∑ d²) / (n(n² − 1)).
- Интерпретирайте резултата: близо до +1 силна положителна монотонна връзка; близо до −1 силна отрицателна; около 0 слаба или липса на монотонна връзка.
Пример
Имаме данни за пет компютъра: колко струват и колко са бързи (в относителна скала). Поредността на наблюденията е A, B, C, D, E.
- Цени: A = 300, B = 200, C = 400, D = 150, E = 350
- Скорост: A = 3.2, B = 2.8, C = 3.6, D = 2.0, E = 3.0
Стъпки:
- Ранг на цените (от най-ниска към най-висока): D(1), B(2), A(3), E(4), C(5) ⇒ ranks_price = [3,2,5,1,4].
- Ранг на скоростта (от най-ниска към най-висока): D(1), B(2), E(3), A(4), C(5) ⇒ ranks_speed = [4,2,5,1,3].
- Разлики d = ranks_price − ranks_speed: A: 3−4 = −1, B: 2−2 = 0, C: 5−5 = 0, D: 1−1 = 0, E: 4−3 = 1.
- d²: 1, 0, 0, 0, 1 ⇒ ∑d² = 2.
- n = 5, следователно ρ = 1 − (6·2) / (5·(25−1)) = 1 − 12 / 120 = 1 − 0.1 = 0.9.
Заключение: ρ = 0.9 показва много силна положителна монотонна връзка между цена и скорост в този пример — по-скъпите компютри обикновено са по-бързи.
Връзки (ties) и тест за значимост
- При равни стойности (ties) за дадена променлива обикновено се присвоява средният ранг на местата, които тези наблюдения заемат; това е стандартен подход при изчисляване с рангове.
- Формулата с 6∑d² е точна при липса на връзки; при налични връзки се предпочита изчисляване чрез корелация на ранговете (ковариацията на ранговете) или специални корекции.
- За тестване на значимост можете да използвате приближение чрез t-статистика: t = ρ · sqrt((n−2) / (1−ρ²)), която приблизително следва t-разпределение с n−2 степени на свобода (по-надеждно при по-големи n). За малки проби е по-добре да се използва точен пермутационен тест.
Кога да използваме Спирман вместо Пиърсън
- Спирман е подходящ, когато данните не са нормално разпределени, когато връзката може да бъде нелинейна, но монотонна, или когато имаме порядкови (ordinal) данни.
- Пиърсън измерва линейна корелация и е по-чувствителен към екстремни стойности и към допусканията за нормалност. Ако интересът е в монотонната зависимост и/или данните са рангови — използвайте Спирман.
Спирмановият коефициент е широко прилаган в различни области — психология, екология, икономика, биомедицина и др. — всеки път, когато ни трябва проста и устойчива оценка на монотонната връзка между две променливи.