Analýza dat v neurologii
LXIX. Kovariance


Vyšlo v časopise: Cesk Slov Neurol N 2018; 81(3): 362-363
Kategorie: Okénko statistika

V minulém díle seriálu jsme otevřeli problematiku korelační analýzy, která je velmi široce používanou metodikou. V nejširším slova smyslu označujeme pojmem korelace kvantifikaci vzájemného vztahu proměn­ných, které jsou kvantitativní. Kvantifikace síly a vyhodnocení statistické významnosti takových vztahů je základním úkolem statistiky, která pro tento účel vyvinula několik velmi dobře interpretovatelných ukazatelů. Jedním ze základních ukazatelů vztahu dvou kvantitativních proměn­ných je tzv. kovariance (covariance). Příklady výpočtu kovariance tedy v tomto díle zahájíme výklad nástrojů korelační analýzy. V následujících dílech se posuneme k výkladu korelace a různé ukazatele budeme mezi sebou srovnávat zejména z hlediska jejich interpretace.

Kovariance je kvantitativním ukazatelem vzájemné souvislosti dvou náhodných veličin. Značíme ji cov(X, Y) a v přesné definici jde o střední hodnotu součinu rozdílu náhodných veličin a jejich středních hodnot. V zjednodušeném výkladu můžeme kovarianci představit jako hodnotu společného rozptylu proměnných XY, jejichž závislost studujeme. Výpočet hodnoty kovariance také skutečně vychází z rozptylu X Y:

xi, yi jsou jednotlivé hodnoty proměnných XY naměřené párově u i = 1 až i = N jedinců v analyzovaném souboru;

x, y–   jsou průměry proměnných X a Y.

Jinou formou zápisu vztahu pro výpočet kovariance může být:

cov(X, Y) = cov(Y, X) = E(X –  E[X]) (Y –  E[Y]), kde E(X), resp. E(Y) značí střední hodnoty veličiny X, resp. Y.

Z tohoto vztahu je zřejmé, že velikost rozptylu hodnot XY kolem průměru těchto proměnných určuje číselnou hodnotu kovariance. Obecně kovariance vyjadřuje, jak se hodnoty obou proměn­ných pohybují vůči sobě. Vyjadřuje, zda se tyto proměn­né pohybují ve stejném směru (kladná kovariance, větší než 0), nebo ve směru opačném (záporná kovariance, menší než 0). Nulová hodnota kovariance znamená, že proměnné XY nemají žádný vztah a různé hodnoty X se vyskytují zcela náhodně pro různé hodnoty Y, resp. různé hodnoty Y se vyskytují náhodně (mohou nabývat libovolných hodnot) pro různé hodnoty X. V takovém případě se v čitateli vzorce pro výpočet kovariance náhodně potkávají kladné i záporné vzdálenosti konkrétních hodnoty xiyi od průměrů proměnných a v součtu se vzájemně vynulují. Dále platí:

  • pokud je cov(X, Y) větší než 0, pak je souvislost mezi veličinami X Y pozitivní, tzn., že čím je větší X, tím je větší Y a naopak;
  • pokud je cov(X, Y) menší než 0, pak je souvislost mezi veličinami X Y negativní, tzn., že čím je větší X tím je menší Y a naopak;
  • platí, že nezávislé veličiny mají cov(X, Y) rovnu nule, ale bohužel neplatí, že by cov(X, Y) rovnou nule znamenalo, že X Y jsou nezávislé; mezi proměn­nými může existovat jiný než lineární vztah;
  • sama hodnota kovariance nevypovídá nic o relativní síle vazby X Y, neboť je vyjádřena přímo v jednotkách X Y; např. hodnota kovariance hmotnosti a výšky postavy bude numericky větší, pokud výšku vyjádříme v cm, než když ji vyjádříme v metrech.

Zejména poslední bod ve výše uvedeném výčtu vlastností kovariance je velmi podstatný. Říká totiž, že hodnota kovariace není nijak ohraničena a je odvislá od jednotek proměnných XY. Z tohoto důvodu nelze mezi sebou přímo srovnávat absolutní hodnoty kovariance odhadnuté na různých souborech dat a je tedy nutné tento ukazatel nějakou formou standardizovat, např. pomocí výpočtu tzv. korelačního koeficientu. Této problematice se bude podrobně věnovat příští díl seriálu.

Výpočet hodnoty kovariance zde dokládá číselný příklad 1, doplněný grafickým znázorněním na příkladu 2.

Příklad 1. Výpočet kovariance v jednoduchém číselném příkladu.
Příklad 1. Výpočet kovariance v jednoduchém číselném příkladu.

Příklad 2. Výpočet kovariance s grafickým znázorněním.
Příklad 2. Výpočet kovariance s grafickým znázorněním.
Kovariance je jedním z parametrických ukazatelů vztahu dvou spojitých proměnných. Jak naznačuje její název, jde o hodnocení rozptylu sdíleného dvěma spojitými proměnnými, a také její výpočet odpovídá vzorci pro rozptyl, pouze modifikovanému pro dvě proměnné (pokud bychom počítali kovarianci proměnné na sebe samotnou, dostaneme její rozptyl).

doc. RNDr. Ladislav Dušek, Ph.D.

Institut bio statistiky a analýz, LF MU, Brno

e-mail: dusek@iba.muni.cz


Štítky
Dětská neurologie Neurochirurgie Neurologie

Článek vyšel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 3

2018 Číslo 3

Nejčtenější v tomto čísle
Přihlášení
Zapomenuté heslo

Zadejte e-mailovou adresu, se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se