Analýza dat v neurologii LXXVI. Korelační analýza vícerozměrných souborů kvantitativních a kvalitativních dat –  představení vybraných ukazatelů


Autoři: L. Dušek;  T. Pavlík;  J. Jarkovský;  J. Koptíková
Působiště autorů: Institut bio statistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2019; 82(4): 464-468
Kategorie: Okénko statistika

Tímto dílem vstupujeme do závěrečné části výkladu různých aspektů korelační analýzy. V několika předchozích dílech jsme tuto analýzu představili z různých pohledů jako nástroj pro studium síly vztahu dvou kvantitativních proměn­ných, představili jsme parametrické i neparametrické korelační koeficienty a vysvětlili principy hodnocení jejich statistické významnosti. Avšak svět klinického a bio­medicínského výzkumu většinou nepracuje pouze se dvěma charakteristikami zkoumaných subjektů. Typickým výstupem probíhajících měření jsou tzv. mnohorozměrné (vícerozměrné) soubory dat, kdy je N jedinců popisováno proměn­nými a zápis datového souboru vytváří matici N × K. S rozšiřujícím se arzenálem různých vyšetřovacích metod a zejména s nástupem molekulárně bio­logických a genetických vyšetření se tento trend týká i klasického klinického výzkumu a výsledné datové matice zahrnují i mnoho desítek proměn­ných. Logicky vzniká potřeba vyhodnotit vzájemnou korelaci všech těchto proměn­ných.

Problémem korelační analýzy mnohorozměrných souborů může být již samotný vysoký počet vzájemných korelací sledovaných proměn­ných. Ty je nutné nějak přehledně znázornit a dále s nimi efektivně pracovat. Např. je třídit podle síly a významnosti nebo seskupovat proměn­né do skupin podle toho, jaký mezi sebou mají vztah. Jistou pomocí zde jsou tzv. korelační matice. Při současném zpracování proměn­ných hodnotíme korelaci pro K*(K – 1)/2 dvojic proměn­ných, které sestavujeme do tzv. korelační matice, jejíž řádky i sloupce jsou věnovány postupně první až K-té proměn­né. Na průsečíku
i-tého řádku a j-tého sloupce je uvedena korelace i-té a j-té proměn­né. Korelační matice jsou tak logicky čtvercové (symetrické podle hlavní diagonály). Na hlavní diagonále korelační matice najdeme vždy hodnoty 1, neboť platí, že korelace proměn­né X se sebou samou musí být absolutní, a tedy platí vztah
cor(X, X) = 1.

Samotné vytvoření korelační matice sice částečně zpřehlední větší množství korelací, ale při jejich velkém počtu ani to není konečným řešením. Proto se korelační matice graficky znázorňují v tzv. korelogramu (cor­relogram), což není nic jiného než vykreslené vzájemné korelace dvojic proměn­ných v celkovém grafu. Tento typ grafického znázornění jsme již popsali v díle 71 tohoto seriálu, pro přehlednost jej zde připomínáme v příkladu 1. Je zřejmé, že jde o poměrně funkční nástroj, který usnadní orientaci i ve velké korelační matici. Dostupnost tohoto typu grafu je velmi dobrá, zvládne jej automaticky vykreslit v podstatě každý software určený k statistickému zpracování dat.


Příklad 1. Znázornění korelační matice v tzv. korelogramu.

Zde se jistě nabízí otázka, jakou přidanou hodnotu mají tyto mnohonásobné grafy proti „běžné“ korelaci dvou proměn­ných? Odpověď je snadná a spočívá již v důvodu, proč byly tyto proměn­né společně sledovány. Pokud u jednoho subjektu, pa­cienta, máme důvod sledovat současně K proměn­ných, pak nás jistě nezajímají jen jejich separované vzájemné vztahy, ale i odpovědi na následující otázky:

Jaká je vzájemná provázanost jednotlivých proměn­ných? Nebo jinými slovy, do jaké míry se sledované proměn­né vzájemně nezávisle doplňují a do jaké míry spolu souvisí, například až tak, že by jejich současné sledování bylo redundantní? Pokud by totiž mezi sebou ně­kte­ré proměn­né velmi silně korelovaly (korelace blízké hraničním hodnotám – 1 nebo +1), pak se vzájemně nahrazují a nepřinášejí novou informaci o sledovaných subjektech.

A naopak, existuje v sadě sledovaných proměn­ných nějaká proměn­ná, která vůbec nekoreluje s ostatními, tedy je na nich nezávislá?

Lze proměn­né ve sledované sadě nějak třídit dle jejich vzájemné korelace? Např. do skupin proměn­ných, které jsou uvnitř silně vzájemně korelované, avšak nezávislé na jiných skupinách proměn­ných?

Existují nějaké významné dílčí korelace mezi proměn­nými? Existují ně­kte­ré proměn­né, jejichž změny lze vysvětlit korelacemi s jinými proměn­nými? Takovou analýzou se dá odhalit například maskující vliv ně­kte­rých vzájemně korelovaných znaků apod.

Takto bychom mohli v otázkách pokračovat dále, neboť vícerozměrná analýza dat reprezentovaných mnoha proměn­nými samozřejmě nabízí velké množství pohledů a dílčích analýz. Konkrétním přístupům se proto budeme věnovat v příkladech v dalším díle seriálu. Zde se pokusíme vysvětlit výpočetní základnu pro tyto analýzy. Nejčastěji používanými statistikami v těchto sofistikovaných analýzách jsou tzv. vícenásobné koeficienty korelace a dílčí (parciální) koeficienty korelace. Jejich výpočty doložíme formou příkladů, avšak nejprve se musíme zastavit u pojmu determinant matice, v našem případě půjde o determinant korelační matice.

Determinant matice zjednodušeně definujme jako číslo, které lze spočítat pouze u čtvercové matice. Determinant matice A se označuje detA. Výpočet determinantu se liší podle velikosti matice, nejjednodušší je postup u matic druhého řádu 2 × 2 nebo třetího řádu 3 × 3, s rostoucím řádem složitost výpočtu narůstá. To ale nemusí čtenáře trápit, výpočet determinantu matic je dostupný i v běžných tabulkových procesorech (např. MS Excel [Microsoft, Redmond, WA, USA]) anebo lze využít řady on-line dostupných webových kalkulátorů. Příklady výpočtu pro nejjednodušší matice přibližuje příklad 2.

Příklad 2. Ukázka výpočtu determinantu matice a jeho výpočet pro matici 2 ×2 a 3 ×3.
Příklad 2. Ukázka výpočtu determinantu matice a jeho výpočet pro matici 2 ×2 a 3 ×3.

Mnohem důležitější než samotný výpočet je význam a interpretace hodnoty determinantu korelační matice. Platí totiž, že s rostoucí mírou vzájemné závislosti (korelace) proměn­ných v matici hodnota determinantu klesá. Při silné vzájemné lineární závislosti analyzovaných proměn­ných se determinant korelační matice málo liší od nuly (viz ukázky uvedené v příkladu 3). Výpočet korelační matice vyššího řádu a jejího determinantu dokládá příklad 4. Determinant tedy můžeme vnímat jako číselnou prezentaci korelační matice, která ukazuje na míru vzájemné lineární závislosti proměn­ných, tzv. multikolinearity. Z těchto důvodů je determinant silně využíván v statistické analýze vícerozměrných dat.

Příklad 3. Příklady determinantů různých korelačních matic.
Příklad 3. Příklady determinantů různých korelačních matic.

Příklad 4. Korelační matice většího množství proměnných a její determinant.
Příklad 4. Korelační matice většího množství proměnných a její determinant.

Determinant korelační matice využijeme k technickému výkladu výpočtu výše zmíněného vícenásobného koeficientu korelace a parciálního koeficientu korelace. Vztahy a postup výpočtu těchto statistik přibližují příklady 5 a 6.

Mnohonásobný korelační koeficient (příklad 5) vyjadřuje míru závislosti jedné proměn­né na dalších proměn­ných v souboru. Taková analýza je velmi užitečná například při ověřování, zda je či není sledování této proměn­né v daném souboru redundantní. Rovněž takto lze posuzovat vysvětlující vliv ně­kte­rých proměn­ných pro změny hodnot vybrané proměn­né apod.

Příklad 5. Mnohonásobný korelační koefi cient.
Příklad 5. Mnohonásobný korelační koefi cient.

Parciální korelační koeficient (příklad 6) sleduje v podstatě opačný cíl než koeficient mnohonásobný. Touto korelací hodnotíme vztah dvou spojitých proměn­ných při vyloučení vlivu ostatních proměn­ných v souboru. Tato analýza je velmi užitečná, chceme-li odhalit či vyloučit vliv jiných proměn­ných na míru vztahu dvou separátně sledovaných proměn­ných v souboru.

Příklad 6. Parciální korelační koefi cient.
Příklad 6. Parciální korelační koefi cient.

Jsme si vědomi, že čtenářům touto snad ještě srozumitelnou formou předkládáme relativně složité statistiky kalkulované na vnitřně komplikovaných mnohonásobných souborech dat. Avšak příklady 5 a 6 dokládají, že samotný výpočet mnohonásobných a dílčích koeficientů korelace není problém, a pokud uživatel zvládne na počítači výpočet determinantu matice, může tyto korelační koeficienty hodnotit velmi jednoduchými vztahy. Tím se mu otevírají možnosti velmi sofistikovaných analýz s významnou klinickou či bio­logickou interpretací. Těm bude formou příkladů věnován celý příští díl seriálu.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut bio statistiky a analýz, LF MU, Brno

e-mail: dusek@iba.muni.cz


Štítky
Dětská neurologie Neurochirurgie Neurologie
Článek Editorial

Článek vyšel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 4

2019 Číslo 4

Nejčtenější v tomto čísle

Tomuto tématu se dále věnují…


Přihlášení
Zapomenuté heslo

Nemáte účet?  Registrujte se

Zapomenuté heslo

Zadejte e-mailovou adresu se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se