Спирманов коефициент на корелация (ρ) — дефиниция, формула и пример
Научете какво е коефициентът на корелация на Спирман (ρ), формулата, стъпка по стъпка пример и приложения за ранжируеми данни — бързо и ясно обяснение.
В математиката и статистиката коефициентът на корелация на Спирман е непараметрична мярка за степента на монотонна зависимост между две променливи, наречена на името на Чарлз Спирман. Обикновено се означава с гръцката буква rho ( ρ {\displaystyle \rho } ) или като r s {\displaystyle r_{s}} 
. Тази мярка се прилага за данни, които могат да бъдат подредени по стойност (ранги) — например оценки, места в класация или измервания, които могат да се сравняват по големина.
Какво показва стойността на ρ
- Стойностите на ρ винаги са между -1 и +1.
- ρ = +1 означава перфектна възходяща (монотонно нарастваща) зависимост между рангите на двете променливи.
- ρ = −1 означава перфектна низходяща (монотонно намаляваща) зависимост.
- ρ ≈ 0 показва липса на монотонна връзка (може да има нелинейна или друга непредвидима връзка).
Формула и обяснение на символите
Общата формула за r s {\displaystyle r_{s}} е
ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
Обяснение на символите:
- n — брой наблюдения (двойки от стойности).
- d — разликата между ранга на наблюдението в първата променлива и ранга на същото наблюдение във втората променлива (d = rank(X) − rank(Y)).
- ∑d² — сумата от квадратите на тези разлики за всички наблюдения.
Алтернативно (особено при връзки и при наличие на равни стойности) ρ може да се изчисли като корелация на ранговете посредством ковариация:
ρ = cov(rank(X), rank(Y)) / (σ_rank(X) · σ_rank(Y)),
което е удобно при компютърни изчисления и дава правилна стойност при връзки (ties), когато рангът се задава като средна стойност за равните наблюдения.
Стъпки за изчисление
- За всяка променлива заместете стойностите с техните рангове (1, 2, ..., n). При равни стойности (връзки) се присвоява средният ранг за съответните позиции.
- За всяко наблюдение изчислете разликата d между двата ранга и след това d².
- Сумирайте всички d² и ги заместете във формулата ρ = 1 − (6 ∑ d²) / (n(n² − 1)).
- Интерпретирайте резултата: близо до +1 силна положителна монотонна връзка; близо до −1 силна отрицателна; около 0 слаба или липса на монотонна връзка.
Пример
Имаме данни за пет компютъра: колко струват и колко са бързи (в относителна скала). Поредността на наблюденията е A, B, C, D, E.
- Цени: A = 300, B = 200, C = 400, D = 150, E = 350
- Скорост: A = 3.2, B = 2.8, C = 3.6, D = 2.0, E = 3.0
Стъпки:
- Ранг на цените (от най-ниска към най-висока): D(1), B(2), A(3), E(4), C(5) ⇒ ranks_price = [3,2,5,1,4].
- Ранг на скоростта (от най-ниска към най-висока): D(1), B(2), E(3), A(4), C(5) ⇒ ranks_speed = [4,2,5,1,3].
- Разлики d = ranks_price − ranks_speed: A: 3−4 = −1, B: 2−2 = 0, C: 5−5 = 0, D: 1−1 = 0, E: 4−3 = 1.
- d²: 1, 0, 0, 0, 1 ⇒ ∑d² = 2.
- n = 5, следователно ρ = 1 − (6·2) / (5·(25−1)) = 1 − 12 / 120 = 1 − 0.1 = 0.9.
Заключение: ρ = 0.9 показва много силна положителна монотонна връзка между цена и скорост в този пример — по-скъпите компютри обикновено са по-бързи.
Връзки (ties) и тест за значимост
- При равни стойности (ties) за дадена променлива обикновено се присвоява средният ранг на местата, които тези наблюдения заемат; това е стандартен подход при изчисляване с рангове.
- Формулата с 6∑d² е точна при липса на връзки; при налични връзки се предпочита изчисляване чрез корелация на ранговете (ковариацията на ранговете) или специални корекции.
- За тестване на значимост можете да използвате приближение чрез t-статистика: t = ρ · sqrt((n−2) / (1−ρ²)), която приблизително следва t-разпределение с n−2 степени на свобода (по-надеждно при по-големи n). За малки проби е по-добре да се използва точен пермутационен тест.
Кога да използваме Спирман вместо Пиърсън
- Спирман е подходящ, когато данните не са нормално разпределени, когато връзката може да бъде нелинейна, но монотонна, или когато имаме порядкови (ordinal) данни.
- Пиърсън измерва линейна корелация и е по-чувствителен към екстремни стойности и към допусканията за нормалност. Ако интересът е в монотонната зависимост и/или данните са рангови — използвайте Спирман.
Спирмановият коефициент е широко прилаган в различни области — психология, екология, икономика, биомедицина и др. — всеки път, когато ни трябва проста и устойчива оценка на монотонната връзка между две променливи.
Разработване
Първа стъпка
За да изчислите r s {\displaystyle r_{s}}, първо трябва да класирате всяка част от данните. Ще използваме примера от въведението за компютрите и тяхната скорост.
Така компютърът с най-ниска цена ще бъде на първо място. Този, който е на по-висока позиция, ще бъде на 2. След това се увеличава, докато се класират всички. Трябва да направите това и за двата набора от данни.
| Цена ($) | R a n k 1 {\displaystyle Rank_{1}}  | Скорост (GHz) | R a n k 2 {\displaystyle Rank_{2}}  | |
| A | 200 | 1 | 1.80 | 2 | 
| B | 275 | 2 | 1.60 | 1 | 
| C | 300 | 3 | 2.20 | 4 | 
| D | 350 | 4 | 2.10 | 3 | 
| E | 600 | 5 | 4.00 | 5 | 
Втора стъпка
След това трябва да намерим разликата между двата ранга. След това умножете разликата по себе си, което се нарича квадратиране. Разликата се нарича d {\displaystyle d} , а числото, което ще получите, когато квадратирате d {\displaystyle d}
, се нарича d 2 {\displaystyle d^{2}}. 
.
| R a n k 1 {\displaystyle Rank_{1}}  | R a n k 2 {\displaystyle Rank_{2}}  | d {\displaystyle d}  | d 2 {\displaystyle d^{2}}  | 
| 1 | 2 | -1 | 1 | 
| 2 | 1 | 1 | 1 | 
| 3 | 4 | -1 | 1 | 
| 4 | 3 | 1 | 1 | 
| 5 | 5 | 0 | 0 | 
Трета стъпка
Пребройте колко данни имаме. Тези данни са с рангове от 1 до 5, така че имаме 5 части от данни. Това число се нарича n {\displaystyle n} .
Четвърта стъпка
Накрая използвайте всичко, което сме изработили досега, в тази формула: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
∑ d 2 {\displaystyle \sum d^{2}} означава, че вземаме сбора от всички числа, които са били в колоната d 2 {\displaystyle d^{2}}. 
. Това е така, защото ∑ {\displaystyle \sum } 
означава общо.
Така че ∑ d 2 {\displaystyle \sum d^{2}} е 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}
, което е 4. Формулата казва, че трябва да се умножи по 6, което е 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} е 5 × ( 25 - 1 ) {\displaystyle 5\ пъти (25-1)}, 
което е 120.
Така че, за да откриете r s {\displaystyle r_{s}} просто правим 1 - 24 120 = 0,8 {\displaystyle 1-{{\cfrac {24}{120}}=0,8}
 .
Следователно коефициентът на корелация на Спирман е 0,8 за този набор от данни.
Какво означават числата
r s {\displaystyle r_{s}} винаги дава отговор между -1 и 1. Числата между тях са като скала, в която -1 е много силна връзка, 0 е никаква връзка, а 1 също е много силна връзка. Разликата между 1 и -1 е, че 1 е положителна корелация, а -1 е отрицателна корелация. Графика на данни със стойност на r s {\displaystyle r_{s}}
 от -1 би изглеждала като показаната графика, с изключение на това, че линията и точките ще вървят от горе вляво до долу вдясно.
Например за данните, които представихме по-горе, r s {\displaystyle r_{s}} беше 0,8. Това означава, че е налице положителна корелация. Тъй като тя е близка до 1, това означава, че връзката е силна между двата набора данни. Така че можем да кажем, че тези два набора от данни са свързани и се повишават заедно. Ако беше -0,8, можем да кажем, че са свързани и когато едната се покачва, другата се понижава.
Ако две числа са еднакви
Понякога при класифициране на данни има две или повече числа, които са еднакви. Когато това се случи в r s {\displaystyle r_{s}} , вземаме средната стойност или средната стойност на ранговете, които са еднакви. Тези рангове се наричат обвързани рангове. За да направим това, класираме обвързаните числа така, сякаш те не са обвързани. След това събираме всички рангове, които те биха имали, и ги разделяме на броя им. Например, да кажем, че класираме колко добре са се справили различни хора на тест по правопис.
| Резултат от теста | Ранг | Ранг (с обвързани) | 
| 4 | 1 | 1 | 
| 6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}  | 
| 6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}  | 
| 6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}  | 
| 8 | 5 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5}  | 
| 8 | 6 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5}  | 
Тези числа се използват по същия начин, както обикновените рангове.
Свързани страници
Въпроси и отговори
В: Какво представлява коефициентът на корелация на Спирман?
О: Коефициентът на корелация на Спирман е мярка за корелация, която показва колко тясно са свързани два набора от данни. Той може да се използва само за данни, които могат да бъдат подредени, например от най-високата към най-ниската стойност.
Въпрос: Кой е създал коефициента на корелация на Спирман?
О: Чарлз Спирман създава коефициента на корелация на Спирман.
В: Как се записва общата формула за коефициента на корелация на Спирман?
О: Общата формула за коефициента на корелация на Спирман се записва като ρ = 1 - 6∑d2/n(n2-1).
Въпрос: Кога трябва да се използва коефициентът на корелация на Спирман?
О: Трябва да използвате ранговия корелационен коефициент на Спирмън, когато искате да видите колко тясно са свързани два набора от данни и дали изобщо са свързани.
В: С какъв тип данни работи?
О: Работи с всеки вид данни, които могат да бъдат подредени, например от най-високата към най-ниската стойност.
В: Можете ли да дадете пример за използване на тази мярка?
О: Пример за използване на тази мярка може да бъде, ако имате данни за това колко скъпи са различните компютри и данни за това колко бързи са компютрите, тогава можете да видите дали са свързани и колко тясно са свързани с помощта на r_s.
обискирам

