Analýza dat v neurologii LXXV. Příklady chybné korelační analýzy


Autoři: L. Dušek;  T. Pavlík;  J. Jarkovský;  J. Koptíková
Působiště autorů: Institut bio statistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2019; 115(3): 352-354
Kategorie: Okénko statistika

Tento díl serlu věnujeme reakci na podnět jednoho z čtenářů. V předchozích dílech jsme u analýzy korelace často varovali před chybným hodnocením či interpretací korelace. Zdůrazňovali jsme, že průkaz korelace sám o sobě není důkazem příčinné závislosti. A naopak, že nekorelovanost neznamená nezávislost, neboť vztah dvou proměnných může být komplikovaný, nelinrní, a korelační koeficient ho nemusí vždy podchytit. Avšak nejzávažnější chyby vznikají, pokud je hodnota Pearsonova koeficientu korelace odhadována na datech, která nejsou pro výpočet této parametrické linrní korelace vhodná. Právě na tyto situace mířil dotaz čtenáře, který se ptal, zda může v určitých situacích dostat při výpočtu korelace zcela opačný výsledek než je realita naměřená v datech. Odpověď na tuto otázku je bohužel kladná a tyto situace se zde pokusíme ukázat na třech modelových příkladech.

Velkou nevýhodou Pearsonovy korelace je totiž její vysoká citlivost na odchylky od normálního rozdělení korelovaných proměnných. Skutečně, jediná odlehlá hodnota může doslova otočit výsledek analýzy a místo rlně existující kladné korelace vypočítáme korelaci zápornou. A aby toho nebylo málo, tak při dostatečně velkém vzorku dat vyjde tento zcela nesprávný výsledek jako statisticky významný. Příklad 1 ukazuje přesně takovou situaci. Dopad jedné odlehlé hodnoty, které se také někdy říká vlivný bod, je zásadní a zcela mění výsledek analýzy. Přitom taková hodnota může být i výsledkem nesprávného opsání naměřených dat do tabulky. Ve velkém souboru si autor analýzy nemusí odlehlé hodnoty mezi mnoha čísly všimnout. Proto je zásadní před korelační analýzou vždy ověřit normalitu rozložení proměnných XY. Rovněž je nutné prohlédnout si vztah proměnných v grafu.

Příklad 1. Ukázka dopadu tzv. vlivného bodu na výpočet Pearsonova korelačního koeficientu.
Příklad 1. Ukázka dopadu tzv. vlivného bodu na výpočet Pearsonova korelačního koeficientu.

K příkladu 1 je nutné doplnit jednu velmi podstatnou poznámku. Oba prezentované výsledky, tedy výpočet korelace se započítáním anebo naopak s vyloučením odlehlé hodnoty, jsou numericky proveditelné a čistě jako výpočet je lze matematicky provést. V tom právě spočívá záludnost vlivu odlehlých měření či chyb v datech. Software provede jakýkoli výpočet, který mu je zadán, a pro nezkušeného zpracovatele může statistická významnost hodnoty korelačního koeficientu vypadat jako potvrzení správnosti výsledku. Pro konečnou interpretaci výsledku je ovšem taková chyba naprosto fatální. Nelze se tedy divit editorům významných vědeckých časopisů, že si někdy žádají zdrojová data publikujících týmů, zejména jsou-li prezentované výsledky z nějakého pohledu překvapivé či
nečekané.

Příklad 2 ukazuje na další z možných komplikací korelační analýzy, tentokrát citlivost odhadu korelačního koeficientu k číselnému rozsahu korelovaných hodnot proměnných XY. Je jistě žádoucí, aby do korelační analýzy proměnné vstupovaly s reprezentativní škálou svých číselných hodnot. Pokud z nějakého důvodu zúžíme analýzu na omezený interval možných hodnot XY, nemusí vztah proměnných na tomto intervalu odpovídat vztahu na celé škále možných hodnot. Zde samozřejmě nemůžeme paušálně mluvit o chybě. Pokud je omezení analyzovaných hodnot řádně zdůvodněno a popsáno, pak je takový postup jistě legitimní. Problém nastává ve chvíli, kdy je analyzován nereprezentativní rozsah hodnot například v důsledku zkresleného výběru vzorku k analýze. V takovém případě nemá hodnota korelačního koeficientu smysluplnou interpretaci.

Příklad 2. Vliv hodnoceného intervalu dat na výpočet Pearsonova korelačního koeficientu.
Příklad 2. Vliv hodnoceného intervalu dat na výpočet Pearsonova korelačního koeficientu.

Poslední příklad ukazuje poněkud extrémní situaci, kdy mezi proměnnými XY existují různé (dílčí) vztahy, například v závislosti na hodnotách jedné z proměnných. Na grafu v příkladu 3 vidíme dvě jasné přímkové závislosti mezi XY, obě s různými sklony. Hodnoty Y větší než 8 vykazují vůči X jinou závislost než hodnoty menší než 8. Celková záporná korelace počítaná na všech hodnotách spojených dohromady nemá žádnou smysluplnou interpretaci a fakticky jen maskuje skutečný průběh vztahu XY. Příklad pracuje s modelovými daty, která bychom v takto jasné podobě asi v rlné klinické praxi nenaměřili. V obou kategorch hodnot Y je vztah s X čistě přímkový, tedy bez rozptylu hodnot, a připomíná tak spíše kalibrační měření v laboratoři. Avšak rozdílný tvar závislosti proměnných při různých hodnotách jedné nebo obou z nich není v přírodě nic výjimečného. Učebnicovým příkladem může být stimulace odpovědi nějakého bio­logického systému při rostoucích dávkách nějaké látky, např. mikroživiny. Od určité úrovně dávky se ale růst odpovědi systému zastaví anebo může začít klesat, protože vysoké koncentrace látky budou naopak působit toxicky. V takových případech je nutné korelační analýzu provádět odděleně pro různé kategorie hodnot proměnných. Spojení dat do jednoho souboru nepovede k relevantnímu popisu takto složitých vztahů.

Příklad 3. Ukázka komplikované závislosti proměnných X a Y.
Příklad 3. Ukázka komplikované závislosti proměnných X a Y.

Závěrem lze shrnout, že korelační analýza je skutečně velmi citlivá na podobu analyzovaných dat. Neopatrným postupem můžeme snadno dospět k velmi zavádějícímu výsledku. Naštěstí máme k dispozici hned několik postupů, jak můžeme velmi snadno a bez složitých matematických postupů nesprávnému výsledku zabránit. Zmiňme se zejména o následujících třech:

Grafické znázornění vztahu XY. Tento postup není jistě třeba květnatě zdůvodňovat. Korelační analýzu by vždy měla doprovázet grafická vizualizace vztahu obou proměnných. Grafy samozřejmě není nutné vždy publikovat, ale jako pracovní nástroj odhalující většinu potenclních problémů v datech jsou nepostradatelné.

Současný výpočet parametrické (Pearsonovy) a neparametrické (Spearmanovy) korelace. Ačkoli to na první pohled nevypadá koncepčně, současný výpočet těmito dvěma postupy není nic špatného. Není-li v datech nějaký závažný problém, odchylky od normality, odlehlé hodnoty apod., měly by oba korelační koeficienty vyjít přibližně stejné. Jako vážné varování je třeba vnímat výsledek, kdy se tyto typy koeficientů numericky zásadně liší anebo dokonce jeden vyjde kladný a druhý záporný.

Ověření vlivu odlehlých hodnot či skupin odlehlých hodnot. Výpočet korelace není při současném výkonu výpočetní techniky nijak zatěžující, a lze jej tedy opakovat s vyloučením podezřelých či odlehlých hodnot. Pokud se vyloučením jediného bodu výsledek korelace zásadně změní, je třeba tyto hodnoty dále ověřit. Je jistě správné, aby výsledek výpočtu nebyl závislý na jediné hodnotě v datovém souboru. Podobně lze přistupovat i ke skupině hodnot.


Štítky
Dětská neurologie Neurochirurgie Neurologie
Článek Editorial

Článek vyšel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 3

2019 Číslo 3

Nejčtenější v tomto čísle

Tomuto tématu se dále věnují…


Přihlášení
Zapomenuté heslo

Nemáte účet?  Registrujte se

Zapomenuté heslo

Zadejte e-mailovou adresu se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se