Коефициентът на корелация на Спирман
В математиката и статистиката коефициентът на корелация на Спирман е мярка за корелация, наречена на името на създателя ѝ Чарлз Спирман. Записва се накратко като гръцката буква rho ( ρ {\displaystyle \rho } ) или понякога като r s {\displaystyle r_{s}} . Това е число, което показва колко тясно са свързани два набора от данни. То може да се използва само за данни, които могат да бъдат подредени, например от най-високата към най-ниската стойност.
Общата формула за r s {\displaystyle r_{s}} е ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
Например, ако разполагате с данни за това колко скъпи са различните компютри и с данни за това колко бързи са компютрите, можете да видите дали те са свързани и колко тясно са свързани, като използвате r s {\displaystyle r_{s}} .
Разработване
Първа стъпка
За да изчислите r s {\displaystyle r_{s}}, първо трябва да класирате всяка част от данните. Ще използваме примера от въведението за компютрите и тяхната скорост.
Така компютърът с най-ниска цена ще бъде на първо място. Този, който е на по-висока позиция, ще бъде на 2. След това се увеличава, докато се класират всички. Трябва да направите това и за двата набора от данни.
Цена ($) | R a n k 1 {\displaystyle Rank_{1}} | Скорост (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
A | 200 | 1 | 1.80 | 2 |
B | 275 | 2 | 1.60 | 1 |
C | 300 | 3 | 2.20 | 4 |
D | 350 | 4 | 2.10 | 3 |
E | 600 | 5 | 4.00 | 5 |
Втора стъпка
След това трябва да намерим разликата между двата ранга. След това умножете разликата по себе си, което се нарича квадратиране. Разликата се нарича d {\displaystyle d} , а числото, което ще получите, когато квадратирате d {\displaystyle d}, се нарича d 2 {\displaystyle d^{2}}. .
R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
1 | 2 | -1 | 1 |
2 | 1 | 1 | 1 |
3 | 4 | -1 | 1 |
4 | 3 | 1 | 1 |
5 | 5 | 0 | 0 |
Трета стъпка
Пребройте колко данни имаме. Тези данни са с рангове от 1 до 5, така че имаме 5 части от данни. Това число се нарича n {\displaystyle n} .
Четвърта стъпка
Накрая използвайте всичко, което сме изработили досега, в тази формула: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
∑ d 2 {\displaystyle \sum d^{2}} означава, че вземаме сбора от всички числа, които са били в колоната d 2 {\displaystyle d^{2}}. . Това е така, защото ∑ {\displaystyle \sum } означава общо.
Така че ∑ d 2 {\displaystyle \sum d^{2}} е 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}, което е 4. Формулата казва, че трябва да се умножи по 6, което е 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} е 5 × ( 25 - 1 ) {\displaystyle 5\ пъти (25-1)}, което е 120.
Така че, за да откриете r s {\displaystyle r_{s}} просто правим 1 - 24 120 = 0,8 {\displaystyle 1-{{\cfrac {24}{120}}=0,8} .
Следователно коефициентът на корелация на Спирман е 0,8 за този набор от данни.
Какво означават числата
r s {\displaystyle r_{s}} винаги дава отговор между -1 и 1. Числата между тях са като скала, в която -1 е много силна връзка, 0 е никаква връзка, а 1 също е много силна връзка. Разликата между 1 и -1 е, че 1 е положителна корелация, а -1 е отрицателна корелация. Графика на данни със стойност на r s {\displaystyle r_{s}} от -1 би изглеждала като показаната графика, с изключение на това, че линията и точките ще вървят от горе вляво до долу вдясно.
Например за данните, които представихме по-горе, r s {\displaystyle r_{s}} беше 0,8. Това означава, че е налице положителна корелация. Тъй като тя е близка до 1, това означава, че връзката е силна между двата набора данни. Така че можем да кажем, че тези два набора от данни са свързани и се повишават заедно. Ако беше -0,8, можем да кажем, че са свързани и когато едната се покачва, другата се понижава.
Ако две числа са еднакви
Понякога при класифициране на данни има две или повече числа, които са еднакви. Когато това се случи в r s {\displaystyle r_{s}} , вземаме средната стойност или средната стойност на ранговете, които са еднакви. Тези рангове се наричат обвързани рангове. За да направим това, класираме обвързаните числа така, сякаш те не са обвързани. След това събираме всички рангове, които те биха имали, и ги разделяме на броя им. Например, да кажем, че класираме колко добре са се справили различни хора на тест по правопис.
Резултат от теста | Ранг | Ранг (с обвързани) |
4 | 1 | 1 |
6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
8 | 5 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} |
8 | 6 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} |
Тези числа се използват по същия начин, както обикновените рангове.
Свързани страници
Въпроси и отговори
В: Какво представлява коефициентът на корелация на Спирман?
О: Коефициентът на корелация на Спирман е мярка за корелация, която показва колко тясно са свързани два набора от данни. Той може да се използва само за данни, които могат да бъдат подредени, например от най-високата към най-ниската стойност.
Въпрос: Кой е създал коефициента на корелация на Спирман?
О: Чарлз Спирман създава коефициента на корелация на Спирман.
В: Как се записва общата формула за коефициента на корелация на Спирман?
О: Общата формула за коефициента на корелация на Спирман се записва като ρ = 1 - 6∑d2/n(n2-1).
Въпрос: Кога трябва да се използва коефициентът на корелация на Спирман?
О: Трябва да използвате ранговия корелационен коефициент на Спирмън, когато искате да видите колко тясно са свързани два набора от данни и дали изобщо са свързани.
В: С какъв тип данни работи?
О: Работи с всеки вид данни, които могат да бъдат подредени, например от най-високата към най-ниската стойност.
В: Можете ли да дадете пример за използване на тази мярка?
О: Пример за използване на тази мярка може да бъде, ако имате данни за това колко скъпи са различните компютри и данни за това колко бързи са компютрите, тогава можете да видите дали са свързани и колко тясно са свързани с помощта на r_s.