Analýza dat v neurologii LXXIV. - Neparametrický Spearmanův koeficient korelace


Authors: L. Dušek;  T. Pavlík;  J. Jarkovský;  J. Koptíková
Authors‘ workplace: Institut bio statistiky a analýz, LF MU, Brno
Published in: Cesk Slov Neurol N 2019; 82(2): 236-239
Category: Statistician‘s Window

V minulých dílech seriálu jsme se věnovali výkladu Pearsonova korelačního koeficientu, který je také označován jako parametrická nebo lineární korelace. Jeho hodnocení je totiž smysluplné pouze při splnění předpokladu normálního rozložení hodnot u obou do korelace vstupujících proměnných X Y. Na příkladech v předchozím díle jsme doložili, že asymetrie rozložení nebo výskyt odlehlých hodnot zásadně zkreslují odhad tohoto korelačního koeficientu a také výsledek jeho statistického hodnocení. Jak tedy postupovat v situacích, kdy rozložení hodnot korelovaných proměnných není normální? V takovém případě můžeme buď proměnné transformovat nějakou normalizující funkcí anebo použijeme tzv. neparametrickou korelaci, která nevyžaduje normalitu rozložení hodnot. Nejčastěji používanou neparametrickou mírou korelace je Spearmanův korelační koeficient (rs), jehož výkladu budeme věnovat tento díl seriálu.

Příklad 1. Výpočet Spearmanova korelačního koeficientu.
Příklad 1. Výpočet Spearmanova korelačního koeficientu.

Příklad 2. Testování statistické významnosti Spearmanova korelačního koeficientu.
Příklad 2. Testování statistické významnosti Spearmanova korelačního koeficientu.

Příklad 3. Výpočet 95% intervalu spolehlivosti Spearmanova korelačního koeficientu (data z příkladu 1).
Příklad 3. Výpočet 95% intervalu spolehlivosti Spearmanova korelačního koeficientu (data z příkladu 1).

Příklad 4. Srovnání hodnot Pearsonova a Spearmanova korelačního koeficientu.
Příklad 4. Srovnání hodnot Pearsonova a Spearmanova korelačního koeficientu.

Připomeňme, že neparametrické statistiky jsou tzv. robustní, tedy více či méně necitlivé vůči odchylkám od normality analyzovaných proměnných. Neparametrické postupy typicky převádějí původní kvantitativní hodnoty proměnných na pořadí („rank“) a tím se od vlivu odlehlých hodnot oprošťují. Z tohoto postupu vychází i vztah pro výpočet Spearmanova korelačního koeficientu, který přibližuje příklad 1. Původní hodnoty proměnných X Y jsou nejprve převedeny na pořadí (samostatně každá proměnná zvlášť) a následně je kalkulována hodnota korelace, která pracuje s diferencemi pořadí X Y u jednotlivých objektů, kterých je N. Diference pořadí u i-tého řádku vstupní matice hodnot se označuje di. Výsledný vztah pro výpočet rs je následující:


Jsou-li pořadí hodnot X Y naprosto shodná, pak součet všech hodnot di je roven nule a korelační koeficient dosahuje své maximální kladné hodnoty, tedy 1. Obdobně, pokud by hodnoty X Y byly řazeny přesně opačně, pak by výsledná hodnota rs byla –1 (záporná korelace). Je patrné, že výpočet rs je velmi jednoduchý a lze ho provést i bez zvláštního softwarového vybavení.

Ze vztahu pro výpočet je zřejmé, proč je Spearmanův koeficient v literatuře často označován jako pořadová korelace („rank correlation“). Z tohoto označení také vyplývá interpretace neparametrické korelace, která je rozdílná od korelace Pearsonovy. Pearsonův korelační koeficient pracuje s původními kvantitativními hodnotami X Y a na jeho hodnotu mají vliv nejen stejný směr v hodnotách obou proměnných, ale také kvantitativní rozdíly hodnot X Y od jejich průměru. Jde o korelaci, která dosahuje maxima, pokud je mezi X Y čistý přímkový vztah. Hodnoty Spearmanova korelačního koeficientu odrážejí pouze stejný směr hodnot X Y (koeficient je počítán z pořadí, nikoli z původních hodnot), a tedy nijak nesouvisí s tvarem vztahu obou proměnných. Hodnota rs se tudíž může blížit maximu, i když mezi hodnotami X Y není lineární vztah. Pro maximální neparametrickou korelaci stačí pouze, aby hodnoty obou proměnných rostly nebo klesaly ve stejném pořadí. Neparametrická korelace neodráží kvantitu, tedy „o kolik“ se mění hodnota X v závislosti na hodnotě Y.

Výše zmíněné rozdíly mezi parametrickou a neparametrickou korelací jsou především interpretační. Pokud jde o dosažitelné hodnoty koeficientů, není mezi oběma metodickými postupy žádný rozdíl. Spearmanův korelační koeficient může stejně jako Pearsonova korelace nabývat hodnot od –1 do +1. Hodnoty rs blízké nebo rovny nule ukazují na situaci, kdy jsou pořadí hodnot X Y náhodně zpřeházená a mezi oběma veličinami není žádný vztah.

Rovněž odhad intervalu spolehlivosti pro neparametrickou korelaci a test její statistické významnosti (testujeme nulovou hypotézu rs = 0) jsou prakticky totožné s výpočty pro Pearsonův korelační koeficient. Konkrétní postupy dokládají příklady 2 a 3. 

Jistou slabinou výpočtu Spearmanova korelačního koeficientu je práce s pořadími hodnot, neboť transformace původních hodnot proměnných do pořadí zásadně zužuje numerický rozsah hodnot. To se projeví zejména při práci s malými soubory dat, kdy říkáme, že neparametrické testy mají tzv. nižší sílu než testy parametrické. Tím je myšleno, že mají při stejné velikosti vzorku nižší schopnost rozpoznat neplatnost nulové hypotézy. Problémem také může být výskyt stejných hodnot, které pak v rámci proměnných X Y dostávají stejná pořadí a ta se musí průměrovat. V takovém případě je v literatuře doporučován jiný vztah pro výpočet rs:


Tento vztah je v podstatě vztahem pro výpočet Pearsonova korelačního koeficientu, avšak počítaného na pořadích vstupujících hodnot X Y. Hodnota xri značí pořadí hodnoty xi v rámci vzestupně uspořádaných hodnot X. Obdobně jsou takto převedeny hodnoty proměnné Y. Označení pomocí indexu r značí „rank“, tedy pořadí. Hodnoty xryr jsou potom průměrnými pořadími v rámci hodnot X a Y, hodnota sxr syr je součinem směrodatných odchylek rovněž počítaných na pořadích hodnot obou proměnných. 

Čtenáře nyní jistě napadne otázka, kdy je tedy v praxi lepší použít neparametrickou korelaci místo parametrické. Obecné pravidlo vyplývá již z výše uvedeného výkladu. Spearmanova korelace by měla být jednoznačně preferována u dat, kde vstupující proměnné nesplňují podmínky normálního rozdělení, zejména pokud se v nich vyskytují odlehlé hodnoty. Není-li z nějakého důvodu smyslem korelace prokázat přímkový vztah X Y, je neparametrický korelační koeficient dobrou volbou. Při analýze konkrétních dat lze ovšem vždy použít současně obě korelace a srovnat jejich výsledky. Významné rozdíly mezi neparametrickou a parametrickou korelací by pak měly být varováním a signálem, že je třeba věnovat pozornost rozložení hodnot a možným zkreslením. Tyto situace se snaží přiblížit ukázky uvedené na příkladu 4.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut bio­statistiky a analýz, LF MU, Brno

e‑mail: dusek@iba.muni.cz


Labels
Paediatric neurology Neurosurgery Neurology

Article was published in

Czech and Slovak Neurology and Neurosurgery

Issue 2

2019 Issue 2

Most read in this issue

This topic is also in:


Login
Forgotten password

Don‘t have an account?  Create new account

Forgotten password

Enter the email address that you registered with. We will send you instructions on how to set a new password.

Login

Don‘t have an account?  Create new account