Analýza dat v neurologii
LX. Analýza trendu ve vztahu kategoriálních znaků

Stáhnout PDF

Autoři: L. Dušek; T. Pavlík; Jiří Jarkovský ; J. Koptíková
Působiště autorů: Masarykova univerzita, Brno ; Institut biostatistiky a analýz
Vyšlo v časopise: Cesk Slov Neurol N 2016; 79/112(6): 729-731
Kategorie: Okénko statistika

V minulém díle seriálu věnovaném kauzalitě vztahu znaků jsme zdůraznili, že jedním ze silných důkazů ve prospěch kauzality je statisticky významný vztah „dávka –⁠ odpověď“. Skutečně, pokud s dávkou (úrovní) expozice nějakého faktoru narůstají i následky tohoto působení na zkoumaný biologický systém, jde s vysokou pravděpodobností o příčinný vztah. Proto je průkaz závislosti následků expozice na její dávce jedním z klíčových přístupů při zkoumání příčinnosti nejrůznějších vztahů v biologii i medicíně.

Vstupují-li takto do vzájemné interakce dva spojité (kvantitativní) faktory (např. expozice jako dávka léku přímo v koncentračních jednotkách a jako následek např. pokles tělesné teploty ve stupních Celsia), pak lze jednoduše zakreslit bodový či čárový graf a trend vztahu zviditelnit. Následně lze kvantifikovat změnu teploty na jednotku změny koncentrace léku a vztah hodnotit korelační či regresní analýzou. Těmto kvantitativním analýzám budeme věnovat další díly seriálu. U kategoriálních znaků je hodnocení vztahu „dávka –⁠ účinek“ bohužel méně graficky atraktivní, nicméně i zde využitelné.

V tomto díle se zaměříme na testy trendů, které lze hodnotit z větších tabulek četností R × C (R –⁠ řádky (rows); C –⁠ sloupce (columns)), u kterých kategorie minimálně jednoho nebo obou asociovaných znaků nejsou nominálními položkami, ale vytvářejí ordinální škálu. V takovém systému jde vedle vlastní asociace znaků testovat i její trendovou složku, která může být informačně velmi důležitá. Úvodem připomeňme zcela elementární skutečnosti:

Minimálně jeden ze zkoumaných znaků musí být kategoriální s více než dvěma kategoriemi. Pokud z experimentu získáme nejjednodušší tabulku četností 2 × 2, pak sice můžeme hodnotit sílu vztahu dvou binárních parametrů, ale hovořit o trendu zde postrádá smysl. Trend lze analyzovat ve vztahu jednoho binárního znaku a jednoho znaku s více než dvěma ordinálními kategoriemi a ovšem také ve vztahu dvou a více znaků s více než dvěma ordinálními kategoriemi.
Velmi nutnou podmínkou analýzy trendu je, aby zkoumané kategoriální proměnné byly ordinální. Tedy aby jejich hodnoty vytvářely jasně řazenou ordinální škálu od nejmenší hodnoty po největší. Pokud by totiž jednotlivé hodnoty kategoriálního znaku mohly být v tabulce seřazeny jakkoli, nemá hodnocení trendu smysl.
Připomeňme ještě, že ordinální znaky jsou definovány tak, že jejich hodnoty je možno navzájem uspořádat, ale není známa míra (kvantita) toho, jak jsou od sebe jednotlivé kategorie vzdáleny. Tento fakt má pro hodnocení trendu velmi vážné důsledky. V takovém prostoru totiž můžeme prokázat trendovou asociaci znaků (pozitivní, kdy obě ordinální škály spolu klesají či stoupají, nebo negativní, kdy se jejich hodnoty vyvíjejí v opačném směru), ale nemůžeme kvantifikovat diference. Nelze tedy určit, o kolik se změní hodnota jednoho znaku při jednotkové změně hodnoty jiného znaku, neboť vzdálenosti mezi body na ordinální stupnici nejsou kvantifikovatelné. Známe jen pořadí (rank) bodů.

Je nepochybné, že trend v tabulce četností nepůsobí jako nějaký neutrální prvek, ale silně ovlivňuje rozložení četností v jednotlivých polích tabulky. Potvrzení existence statisticky významného trendu tedy také nutně znamená zamítnutí nulové hypotézy o neexistenci vztahu obou znaků; je-li mezi hodnotami znaků trend, musí mezi nimi být i vztah (asociace). Čím významnější trend je, tím více se četnosti v tabulkách mění v závislosti na hodnotách obou znaků a tím průkaznější bude i sama existence obecného vztahu obou znaků.

Příklad 1 dokumentuje schematicky ukázky možných tabulek četností vstupujících do trendové analýzy a jejich kvalitativní grafické znázornění. V případě, že proti sobě v tabulce vystupují binární znak a znak ordinální, pak v podstatě studujeme, zda se ordinální škála liší ve dvou kategoriích daného binárního znaku. Příklad 2 dokumentuje výpočet testu pro trend v kontingenční tabulce 2 × C a příklad 3 ten samý výpočet pro kontingenční tabulku R × C.

**Příklad 1. Vizualizace trendů v kontingenčních tabulkách.**

**Příklad 2. Testování trendu v kontingenční tabulce 2 × C.**

**Příklad 3. Testování trendu v kontingenční tabulce R × C.**

Při testování síly vztahu a trendu ve složitějších tabulkách četností musíme při interpretaci vždy dbát na možný vliv různých faktorů zkreslení. Interpretace takových analýz směřuje k diskuzi o kauzalitě vztahu dvou nebo více proměnných a nelze ji opřít pouze o výsledek jednoho statistického testu (viz též předchozí díl seriálu). Vedle možnosti zkreslení již samotným designem studie a náběrem probandů vstupují do hry i potenciální zavádějící faktory. Jako příklad uveďme studium výskytu vrozených vývojových vad u dětí, kde z frekvenčních dat může vyplynout silný vztah mezi pořadím narození dítěte a rizikem takové vady. Avšak skutečným rizikovým faktorem tu není pořadí novorozence, ale věk matky.

doc. RNDr. Ladislav Dušek, Ph.D.

Institut biostatistiky a analýz

MU, Brno

e‑mail: dusek@iba.muni.cz