Analýza dat v neurologii LXXVI. Korelační analýza vícerozměrných souborů kvantitativních a kvalitativních dat – představení vybraných ukazatelů

Stáhnout PDF

Autoři: L. Dušek; T. Pavlík; J. Jarkovský ; J. Koptíková
Působiště autorů: Institut bio statistiky a analýz, LF MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2019; 82(4): 464-468
Kategorie: Okénko statistika

Tímto dílem vstupujeme do závěrečné části výkladu různých aspektů korelační analýzy. V několika předchozích dílech jsme tuto analýzu představili z různých pohledů jako nástroj pro studium síly vztahu dvou kvantitativních proměnných, představili jsme parametrické i neparametrické korelační koeficienty a vysvětlili principy hodnocení jejich statistické významnosti. Avšak svět klinického a biomedicínského výzkumu většinou nepracuje pouze se dvěma charakteristikami zkoumaných subjektů. Typickým výstupem probíhajících měření jsou tzv. mnohorozměrné (vícerozměrné) soubory dat, kdy je N jedinců popisováno K proměnnými a zápis datového souboru vytváří matici N × K. S rozšiřujícím se arzenálem různých vyšetřovacích metod a zejména s nástupem molekulárně biologických a genetických vyšetření se tento trend týká i klasického klinického výzkumu a výsledné datové matice zahrnují i mnoho desítek proměnných. Logicky vzniká potřeba vyhodnotit vzájemnou korelaci všech těchto proměnných.

Problémem korelační analýzy mnohorozměrných souborů může být již samotný vysoký počet vzájemných korelací sledovaných proměnných. Ty je nutné nějak přehledně znázornit a dále s nimi efektivně pracovat. Např. je třídit podle síly a významnosti nebo seskupovat proměnné do skupin podle toho, jaký mezi sebou mají vztah. Jistou pomocí zde jsou tzv. korelační matice. Při současném zpracování K proměnných hodnotíme korelaci pro K*(K – 1)/2 dvojic proměnných, které sestavujeme do tzv. korelační matice, jejíž řádky i sloupce jsou věnovány postupně první až K-té proměnné. Na průsečíku
i-tého řádku a j-tého sloupce je uvedena korelace i-té a j-té proměnné. Korelační matice jsou tak logicky čtvercové (symetrické podle hlavní diagonály). Na hlavní diagonále korelační matice najdeme vždy hodnoty 1, neboť platí, že korelace proměnné X se sebou samou musí být absolutní, a tedy platí vztah
cor(X, X) = 1.

Samotné vytvoření korelační matice sice částečně zpřehlední větší množství korelací, ale při jejich velkém počtu ani to není konečným řešením. Proto se korelační matice graficky znázorňují v tzv. korelogramu (correlogram), což není nic jiného než vykreslené vzájemné korelace dvojic proměnných v celkovém grafu. Tento typ grafického znázornění jsme již popsali v díle 71 tohoto seriálu, pro přehlednost jej zde připomínáme v příkladu 1. Je zřejmé, že jde o poměrně funkční nástroj, který usnadní orientaci i ve velké korelační matici. Dostupnost tohoto typu grafu je velmi dobrá, zvládne jej automaticky vykreslit v podstatě každý software určený k statistickému zpracování dat.

Příklad 1. Znázornění korelační matice v tzv. korelogramu.

Zde se jistě nabízí otázka, jakou přidanou hodnotu mají tyto mnohonásobné grafy proti „běžné“ korelaci dvou proměnných? Odpověď je snadná a spočívá již v důvodu, proč byly tyto proměnné společně sledovány. Pokud u jednoho subjektu, pacienta, máme důvod sledovat současně K proměnných, pak nás jistě nezajímají jen jejich separované vzájemné vztahy, ale i odpovědi na následující otázky:

Jaká je vzájemná provázanost jednotlivých proměnných? Nebo jinými slovy, do jaké míry se sledované proměnné vzájemně nezávisle doplňují a do jaké míry spolu souvisí, například až tak, že by jejich současné sledování bylo redundantní? Pokud by totiž mezi sebou některé proměnné velmi silně korelovaly (korelace blízké hraničním hodnotám – 1 nebo +1), pak se vzájemně nahrazují a nepřinášejí novou informaci o sledovaných subjektech.

A naopak, existuje v sadě sledovaných proměnných nějaká proměnná, která vůbec nekoreluje s ostatními, tedy je na nich nezávislá?

Lze proměnné ve sledované sadě nějak třídit dle jejich vzájemné korelace? Např. do skupin proměnných, které jsou uvnitř silně vzájemně korelované, avšak nezávislé na jiných skupinách proměnných?

Existují nějaké významné dílčí korelace mezi proměnnými? Existují některé proměnné, jejichž změny lze vysvětlit korelacemi s jinými proměnnými? Takovou analýzou se dá odhalit například maskující vliv některých vzájemně korelovaných znaků apod.

Takto bychom mohli v otázkách pokračovat dále, neboť vícerozměrná analýza dat reprezentovaných mnoha proměnnými samozřejmě nabízí velké množství pohledů a dílčích analýz. Konkrétním přístupům se proto budeme věnovat v příkladech v dalším díle seriálu. Zde se pokusíme vysvětlit výpočetní základnu pro tyto analýzy. Nejčastěji používanými statistikami v těchto sofistikovaných analýzách jsou tzv. vícenásobné koeficienty korelace a dílčí (parciální) koeficienty korelace. Jejich výpočty doložíme formou příkladů, avšak nejprve se musíme zastavit u pojmu determinant matice, v našem případě půjde o determinant korelační matice.

Determinant matice zjednodušeně definujme jako číslo, které lze spočítat pouze u čtvercové matice. Determinant matice A se označuje detA. Výpočet determinantu se liší podle velikosti matice, nejjednodušší je postup u matic druhého řádu 2 × 2 nebo třetího řádu 3 × 3, s rostoucím řádem složitost výpočtu narůstá. To ale nemusí čtenáře trápit, výpočet determinantu matic je dostupný i v běžných tabulkových procesorech (např. MS Excel [Microsoft, Redmond, WA, USA]) anebo lze využít řady on-line dostupných webových kalkulátorů. Příklady výpočtu pro nejjednodušší matice přibližuje příklad 2.

**Příklad 2. Ukázka výpočtu determinantu matice a jeho výpočet pro matici 2 ×2 a 3 ×3.**

Mnohem důležitější než samotný výpočet je význam a interpretace hodnoty determinantu korelační matice. Platí totiž, že s rostoucí mírou vzájemné závislosti (korelace) proměnných v matici hodnota determinantu klesá. Při silné vzájemné lineární závislosti analyzovaných proměnných se determinant korelační matice málo liší od nuly (viz ukázky uvedené v příkladu 3). Výpočet korelační matice vyššího řádu a jejího determinantu dokládá příklad 4. Determinant tedy můžeme vnímat jako číselnou prezentaci korelační matice, která ukazuje na míru vzájemné lineární závislosti proměnných, tzv. multikolinearity. Z těchto důvodů je determinant silně využíván v statistické analýze vícerozměrných dat.

**Příklad 3. Příklady determinantů různých korelačních matic.**

**Příklad 4. Korelační matice většího množství proměnných a její determinant.**

Determinant korelační matice využijeme k technickému výkladu výpočtu výše zmíněného vícenásobného koeficientu korelace a parciálního koeficientu korelace. Vztahy a postup výpočtu těchto statistik přibližují příklady 5 a 6.

Mnohonásobný korelační koeficient (příklad 5) vyjadřuje míru závislosti jedné proměnné na dalších proměnných v souboru. Taková analýza je velmi užitečná například při ověřování, zda je či není sledování této proměnné v daném souboru redundantní. Rovněž takto lze posuzovat vysvětlující vliv některých proměnných pro změny hodnot vybrané proměnné apod.

**Příklad 5. Mnohonásobný korelační koefi cient.**

Parciální korelační koeficient (příklad 6) sleduje v podstatě opačný cíl než koeficient mnohonásobný. Touto korelací hodnotíme vztah dvou spojitých proměnných při vyloučení vlivu ostatních proměnných v souboru. Tato analýza je velmi užitečná, chceme-li odhalit či vyloučit vliv jiných proměnných na míru vztahu dvou separátně sledovaných proměnných v souboru.

**Příklad 6. Parciální korelační koefi cient.**

Jsme si vědomi, že čtenářům touto snad ještě srozumitelnou formou předkládáme relativně složité statistiky kalkulované na vnitřně komplikovaných mnohonásobných souborech dat. Avšak příklady 5 a 6 dokládají, že samotný výpočet mnohonásobných a dílčích koeficientů korelace není problém, a pokud uživatel zvládne na počítači výpočet determinantu matice, může tyto korelační koeficienty hodnotit velmi jednoduchými vztahy. Tím se mu otevírají možnosti velmi sofistikovaných analýz s významnou klinickou či biologickou interpretací. Těm bude formou příkladů věnován celý příští díl seriálu.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut bio statistiky a analýz, LF MU, Brno

e-mail: dusek@iba.muni.cz