Analýza dat v neurologii
XXII. Rozbor složitějších kontingenčních tabulek je účinným nástrojem pro studium vztahů kategoriálních znaků

Stáhnout PDF

Autoři: L. Dušek; T. Pavlík; J. Jarkovský ; J. Koptíková
Působiště autorů: Institut biostatistiky a analýz, Masarykova univerzita, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2010; 73/106(4): 444-447
Kategorie: Okénko statistika

Minulý díl seriálu jsme věnovali analýze kontingenčních tabulek a hodnocení nezávislosti dvou kategoriálních znaků. Připomeňme si, že jde o tabulky četností, kde proti sobě stavíme výskyt kategorií dvou náhodně sledovaných znaků; v nejjednodušším případě jde o tabulky typu 2 × 2. Standardním testem pro hodnocení hypotézy vzájemně nezávislého výskytu znaků je test využívající statistiku χ². Ačkoli díl XXI vyčerpal základy této problematiky, nechceme dané téma ještě opustit. Připravili bychom čtenáře o další zajímavé přístupy, které při aplikaci na klinická data přinášejí cenné interpretace.

Tento díl věnujeme hodnocení nezávislosti dvou znaků u složitějších tabulek typu R × C. Tyto kontingenční tabulky jsou tvořeny více kategoriemi dvou znaků, a mají tedy více než dva řádky (R) nebo sloupce (C) anebo obojí. Hodnocení nezávislosti znamená, že zkoumáme společný výskyt dvou náhodných znaků, ke kterým přistupujeme zcela rovnocenně. Oba kategoriální znaky sledujeme u každého prvku (subjektu, pacienta...) náhodného výběru o velikosti n. Příkladem může být klinické stadium nemoci v kategoriích I–IV a výskyt potíží určitého typu (např. A, B, C). Náhodný výběr n pacientů bychom zde přepsali do kontingenční tabulky o rozměru 4 × 3. Pro posouzení hypotézy o nezávislém výskytu stadia a potíží použijeme test χ² (viz díl XXI), u kterého lze teoreticky očekávat tři možnosti výsledku:

Nezamítneme nulovou hypotézu a prokážeme, že oba znaky se u pacientů vyskytují vzájemně nezávisle. To znamená, že vypočtená hodnota testové statistiky χ²je pro tabulku s primárními četnostmi numericky malá a nepřekračuje kritickou mez pro danou hladinu chyby I. druhu (α) a pro daný počet stupňů volnosti: (R – 1) ×× (C – 1) = 6. Tímto naše testování nutně končí, závěr je konečný.
Zamítneme nulovou hypotézu, což znamená, že prokazujeme existující vztah (vazbu) mezi kategoriemi obou znaků. Nabízí se ale otázka, zda by dílčí rozbor poměrně velké tabulky 4 × 3 neupřesnil, mezi kterými kategoriemi tato vazba statisticky průkazně existuje a mezi kterými ne. Tedy zda je možné sloučit některé dílčí kategorie v rámci řádků (stadium) nebo sloupců (typ potíží) na základě dílčích testů nezávislosti. Pokud například dokážeme z původní tabulky separovat určitou část (např. 4 kategorie řádků × 2 kategorie sloupců), mezi kterými potvrdíme nezávislost výskytu, můžeme tyto dvě kategorie sloupců sloučit. To znamená sečíst jejich pozorované četnosti a původní tabulku tak zjednodušit. Logicky tak přesněji určujeme prokázaný vztah a posilujeme klinickou interpretaci výsledku.
Zamítneme nulovou hypotézu, a tedy prokážeme, že existuje vztah ve výskytu klinického stadia a typu potíží. Dalším detailním rozborem původní tabulky ale nenajdeme žádné kategorie řádků a sloupců, které by bylo možné sloučit na základě dílčích testů hypotézy nezávislosti. Původní tabulku nemůžeme nijak zjednodušit a v podstatě konstatujeme velmi silnou závislost kategorií obou znaků, jejichž vzájemná vazba ovlivňuje četnost v každém poli původní tabulky.

Z hlediska analýz a interpretací je nejzajímavější varianta číslo 2. Detailním průzkumem původní tabulky můžeme „objevit“ kategorie znaku, které znamenají určitý zlom ve vztahu ke znaku druhému. Můžeme tak značně zjednodušit i poměrně objemnou tabulku s mnoha řádky a sloupci a získat prakticky využitelnou a statisticky potvrzenou informaci. Při detailním průzkumu velkých tabulek doporučujeme provést přepočet jednotlivých polí na dílčí procenta v rámci sloupců nebo řádků, v tabulce se pak lépe orientujeme a naše kroky při analýze jsou cílenější. Popis takové analýzy je uveden v příkladu 1, kde sloučením kategorií sloupců došlo ke zjednodušení původní tabulky 2 × 4 na konečnou 2 × 2. Kategorie sloupců zde vyjadřovaly gradient spotřeby kofeinu a analýza prokázala závislost spotřeby kofeinu na rodinném stavu člověka. Detailní rozbor dále odhalil, že nemá význam rozlišovat čtyři kategorie denní dávky kofeinu a daný vztah k rodinnému stavu určují dávky nižší nebo vyšší než 150 mg/den. Dvě kategorie z oblasti nízkého příjmu kofeinu a dvě kategorie v oblasti vysokého příjmu kofeinu byly sloučeny na základě dílčích statistických testů. Analýza tak identifikuje jistý bod zlomu („cut-off“) ve spotřebě kofeinu pro další hodnocení nebo uvažování.

**Příklad 1. Analýza složitější kontingenční tabulky pro nominální a ordinální znak.**

Příklad 2 je další ukázkou rozboru složitější kontingenční tabulky, tentokrát pro dva nominální znaky (zkoumá vztah výskytu krevních skupin a různých onemocnění). Opět zde dílčím slučováním vzájemně nezávislých kategorií dospíváme k pojmenování skutečného vztahu (statisticky významně vyšší výskyt krevní skupiny 0 u pacientů s žaludečními vředy), který byl v původní tabulce v podstatě maskován velkým množstvím vstupních kategorií. Příklad dále dokládá možnou kontrolu výpočtu, kterou u průzkumu složité kontingenční tabulky máme. Všechny dílčí tabulky, které vedly ke sloučení kategorií řádků nebo sloupců, plus konečná zjednodušená tabulka sčítají „své“ hodnoty testové statistiky χ² přesně do hodnoty χ²vypočítané pro původní tabulku. Postupným slučováním vzájemně nezávislých kategorií tak vlastně naše zorné pole zbavujeme „nadbytečných“ třídění a „koncentrujeme“ hodnotu statistiky χ²v konečné tabulce prokazující závislost.

**Příklad 2. Analýza složitější kontingenční tabulky pro dva nominální znaky.**

Pevně věříme, že samostatný díl věnovaný složitějším kontingenčním tabulkám má smysl především pro čtenáře z řad lékařů. Tento typ asociačních analýz dvou i více znaků je v klinickém výzkumu velmi častý a zasahuje mnoho typů hodnocení diagnostiky a léčby, od zkoumání významu rizikových a prognostických faktorů až po analýzy vysvětlující léčebnou odpověď nebo výskyt komplikací vazbou k různým znakům. Tabulky typu 2 × 2 samozřejmě problém nepředstavují, neboť jejich výstupy jsou jednoznačné. Pokud ale u objemnější tabulky s více řádky a sloupci dosáhneme vysoce průkazného potvrzení vztahu sledovaných znaků, zkoumání tím nekončí, naopak spíše začíná. Málokdy je každá kategorie jednoho znaku nějak provázána s každou kategorií znaku druhého, a měli bychom tedy plně využít prostor pro detailní určení směru a významu zjištěné asociace. To znamená nejen obecné konstatování existující závislosti, ale také pojmenování kategorií znaků, mezi kterými vztah průkazně existuje.

Výše uvedené rozbory vypadají na první pohled velmi pracně – vždyť komu by se chtělo propočítávat různé dílčí testy dobré shody například u tabulky o rozměru 10 × 10? Ve skutečnosti tomu tak ale není. Jakmile již máme k dispozici vstupní tabulku četností, je provádění dílčích analýz velmi snadné. A není k tomu nutný ani specializovaný software. Stačí do internetového vyhledávače zadat heslo „chi square calculator“ nebo „chi square analysis“ a internet nabídne až desítky volně přístupných nástrojů pro hodnocení i velmi objemných tabulek. Sofistikovanější kalkulátory nabízejí i různé možnosti testu, například pro tabulku 2 × 2 alternativní aplikaci Fisherova exaktního testu nebo Yatesovu korekci pro testovou statistiku χ² (viz díl XXI seriálu). I zde se tedy uživatel musí orientovat v terminologii a možnostech výpočtu, nudnou práci však lehce obstará stroj. I u kontingenčních tabulek tedy naštěstí stále platí, že lidé ovládají stroje, nikoli naopak :-)

doc. RNDr. Ladislav Dušek, Dr.
Institut biostatistiky a analýz
Masarykova univerzita, Brno
e-mail: dusek@cba.muni.cz