Co závisí na čem?
Úvaha o kontextu korelací
10. 10. 2012
Může se stát, že nějaký statistický software, nebo obecně výpočet, ukáže korelaci dvou veličin. Tj. že dva jevy spolu vzájemně souvisejí – mění-li se jeden, mění se i druhý.
Ale co to znamená? Můžeme čistě na základě toho něco tvrdit?
Jeden účastník některé z českých konferencí TEDx (už bohužel nevím, kdo to byl) uvedl v souvislosti s tím ve své přednášce krásný příklad: V Německu byla v jedné oblasti vyšší porodnost. (Předpokládám, že vyšší pravděpodobně oproti ostatním oblastem Německa v přepočtu na jednoho patřičně starého obyvatele, protože vyšší porodnost oproti dřívějšímu období ve stejné oblasti by nebyla ničím zajímavým, ta kolísá neustále, podle aktuálního demografického vývoje – třeba v ČR vzrostla porodnost zhruba po roce 2000, když početně silná generace dospěla do věku, kdy se hodně rodí.) A ve stejné oblasti, kde byla vyšší porodnost, byl ve stejnou dobu zaznamenán i vyšší výskyt čápů.
Znamená to snad, že děti nosí čáp?
Mohu uvést ještě jeden podobný příklad – slyšel jsem ho kdysi na přednášce ze statistiky, a později (02/2008) jsem ho popsal na svém blogu v článku „Děti s větší hmotností mají větší znalosti… “.
Jde o ukázkovou úvahu, podle které by se mohlo stát, že když si vezmeme skupinu různých školních dětí, tak ty z nich, které budou mít větší hmotnost, budou mít větší znalosti. Ale bylo by nedobré začít děti vykrmovat, protože jak hmotnost, tak množství znalostí u dětí závisí na věku. Čím starší dítě, tím má větší hmotnost i znalosti (obecně, plošně, v průměru).
Kromě toho existuje i „Studie o škodlivosti chleba“, která zesměšňuje časté zavádějící novinářské interpretace tvrdých dat a manipulování výsledků výzkumů. A hlavně před nimi varuje. Jedním z bodů toho vtipně varovného dílka je, že skoro každý pachatel trestného činu během několika dní před akcí jedl chleba (prostě proto, že jedení chleba je pro běžného středoevropana naprosto normální), z čehož by se dalo soudit, že chléb škodí.
Proto považuji za nutné se vždy lidsky / selsky / věcně / analyticky zamyslet nad tím, jestli je mezi korelujícími jevy kauzální souvislost. Tedy jestli je jeden z nich příčinou druhého nebo jestli mají oba společnou příčinu.
Příklady korelací, které se mohou reálně vyskytnout
Stejná příčina, stejný vliv
Může se stát, že vzroste počet dopravních nehod (v nějaké oblasti za období).
- V důsledku toho pak vzroste počet raněných
- a současně vzroste počet mrtvých.
Počet raněných a počet mrtvých tedy spolu budou korelovat. Protože jejich změny mají stejnou příčinu.
Obecně tedy:
- A => Y
- A => Z
Stejná příčina, opačný vliv
Může se ale stát, že každý ze dvou zkoumaných jevů bude dalším jevem ovlivněn radikálně jinak. Totiž opačně.
Například se zvýší hustota výjezdových středisek zdravotnické záchranné služby
- V důsledku toho klesne počet mrtvých
- a současně vzroste počet raněných.
Obecně pak:
- Bnon => Z
- B => Y
Statisticky řečeno, korelace jevů Y a Z je v takovém případě záporná.
Matematicky řečeno, pokud by šlo o úměru (jednoduchý lineární vztah, kde se jen násobí koeficientem), byla by to úměrnost nepřímá, zatímco v předchozím případě by šlo o úměrnost přímou.
Pro běžného člověka z masa a kostí, konzumujícího výstupy masmédií, tiskové zprávy a další sdělení, je zde ale důležité něco úplně jiného: Všimněme si závislosti B => Y. Tedy, že vzroste počet raněných. To by na první pohled vypadalo jako negativní zpráva. Vždyť to asi není dobře, že je více zraněných, ne?
Jenže! Oni sem ti noví ranění přišli z množiny mrtvých (tedy početně, oproti předchozímu období nebo oproti jiné oblasti). A proto je ta zpráva pozitivní.
Ale pro zkušeného takynovináře by bylo dost snadné tuto jednoznačně pozitivní zprávu „přežili“ překroutit na zprávu negativní: „Jsou zranění, chudáci – a loni jich tolik v nemocnici ležet nemuselo.“ „ … no bodejť by muselo, když ty počty šly rovnou do márnice“, měl by si povšimnout pozorný divák, pokud zná i druhou hodnotu. Pokud.
A stejným způsobem to jde i naopak. Třeba marketingové oddělení může hlásat: Náš nový telefon je nastavitelný 2x rychleji než starší model! (Protože jsme zrušili polovinu možností nastavení, a teď holt máte s nastavováním utrum).
Pře(í)klad pro ekonomy a třeba i ekology
Ekonomicky řečeno, v prvním případě (kladná korelace; v některých případech přímá úměra) jde o komplementy (doplňky). Jdou na odbyt jízdní kola, a jdou na odbyt i cyklistické lahve.
Dosaďte si klidně místo toho jiný příklad, já mám odpor k jakémukoliv včetně toho svého, protože ke každému takovému teoretickému příkladu komplementů mě napadají možnosti, jak ho po praktické stránce napadnout. Ale ekonomické teorie se obecně nesmějí brát moc doslova, není dobré je extrémně prožívat.
A ve druhém případě (záporná korelace; příp. nepřímá úměrnost; příp. až negace, tedy opak) jde o substituty. Tedy náhražky. Vzájemné.
Typický školní příklad: Zdraží čaj, vzroste prodej kávy. Jak já ten příklad nesnáším. No řekněte, jste-li závislí na kávě (čaji), začnete místo toho najednou pít to druhé? To by musel být extrémní vzrůst cen a opravdu pořádný absťák.
Ale nemusí to být jen dva výrobky, mezi kterými si v regále říkáme „ententýky“. Můžeme se na to podívat i jinak: Nemusí jít o dvě veličiny (prodej čaje, prodej kafe) závislé na třetí z nich (cena kafe). Může to být závislost jedné veličiny na druhé:
Mnoho psů, zajícova smrt. A naopak: Vymetáte pavučiny, tak se nedivte, že vám lezou mouchy po monitoru a bzučí u hlavy. Nemáte zasahovat do přírodní rovnováhy, máte pavouky nechat dělat jejich práci. Pracují pro vás.
Ekonomie vs elektrotechnika
Když už jsem u toho ukazování výskytů stejných jevů v různých oborech
(pod různými názvy, aby to nebylo tak jednoduché – zkuste na zkoušce ze statistiky něco vysvětlovat jako programátor, a budete v šoku, jak někdo může nechápat něco, co je přece tak jasné, pokud znáte programátorský žargon (lépe než ten statistický) a máte programátorský způsob myšlení a pohled na věc),
koukneme se ještě jednou na ty prodeje čaje a změnu jeho ceny. Kávu teď nepotřebujeme.
Když se zdraží čaj, bude se méně prodávat. Jak moc méně, to určuje cenová elasticita poptávky, alespoň to tak říká ekonomie. Ale kromě toho mě napadá … když on se bude méně prodávat, to on třeba začne zbývat na skladě (pokud se nezdražil kvůli nedostatku). A to by se pak třeba podle křivky nabídky mohla snížit jeho cena. A teď tu vlastně máme závislost ceny na ceně. Ekonomové tomu asi říkají udržování rovnováhy, resp. změna rovnovážného bodu, nebo ještě nějak jinak, to teď není až tak podstatné. Zkrátka v tom jde o Equilibrium, tedy rovnovážný stav. Ale mě na tom zaujala ta závislost ceny na sobě samé.
Chci totiž zmínit, že v elektrotechnice existuje pojem zpětná vazba. A ta se ještě dělí na kladnou a zápornou. A ono je to vlastně podobné jako v ekonomii, a jde i o jakousi korelaci.
Typickým příkladem pro zápornou zpětnou vazbu je termostat: Je-li nízká teplota vody v akváriu, tedy pokles (teploty) na vstupu, sepneme topnou spirálu, tedy způsobíme nárust (téže teploty) na výstupu. Velmi zjednodušeně řečeno, je záporná zpětná vazba základem automatizace. Udržování optimálního stavu. Tedy spíše nějakého stavu přijatelného, s tolerancí pro nějaký rozsah povolených hodnot, abychom to topení pořád nezapínali a nevypínali s každým zhoupním o desetinu stupně Anderse Celsia. Máme málo studentů, tak nějaké přijmeme; máme velký tlak páry v přetlakové nádobě, tak nějakou páru upustíme.
Jako příklad kladné zpětné vazby mohu uvést mikrofon, zesilovač a reproduktor. Když na koncertě zvukař nebo zpěvák něco nezvládnou, tak zesilovač uslyší sám sebe – do mikrofonu mu půjde zvuk z jeho vlastního reproduktoru. Ostatně i při telefonátech posluchačů do rozhlasového vysílání často slyšíme „Stáhněte si prosím rádio, píská to“. Když zesilovač slyší sám sebe, tak se nám dokola točí jeden a ten samý signál, a reproduktor začne nesnesitelně pískat („vazbit“, jak říkají někteří modeátoři), přestože do té doby bylo v okolí mikrofonu ticho. Obdobou u obrazu je to, když kamera zabírá monitor, na kterém je její výstup – pak vidíme televizi, v ní telku, v ní televizku, v ní televizorek, a tak dále, až je to tak malé, že nevidíme nic. Zkouším hledat nějakou další analogii, v dalším oboru … a napadají mě mezilidské vztahy. Někomu něco provedete, on vám víc, vy jemu ještě víc … a eskaluje to tak dlouho, až bude po vás. Určitě jsem nějakou takovou rádoby vtipnou scénu viděl v nějakém nepříliš inteligentním filmu, dost možná západně zámořském. Určitě existuje nějaká taková scénka v souvislosti s automobilisty. A to ani nemusíme chodit pro fikci – bohatě stačí mediálně známý příběh pražského taxikáře a jeho dopravního soka – veřejnost je, tuším, pojmenovala Karkulka (v červených teplákách) a toho druhého Aragorn (s mečem). Tak to je typický příklad kladné zpětné vazby. Násilí plodí další násilí. Bombing for peace is like having sex for virginity.
Důsledek
Vraťme se ještě na chvíli k výše použitému a zde zapomenutému příkladu s nehodami a zraněnými. Použili jsme ho jen pro demonstraci korelace mezi dvěma jevy (počet raněných; počet zabitých) společně nějak (kladně, záporně) závislých na jevu třetím (počet nehod; hustota výjezdových středisek ZZS),
ale můžeme ho použít i pro demonstraci zcela obyčejné závislosti jednoho jevu na jiném:
Bude-li více nehod,
- bude více raněných.
I to je korelace.
Obecně tudíž:
- A => Y
Složitější vztahy
Bude-li se konat festival (hudební, divadelní), klesne v téže obci návštěvnost kina.
Tedy pokud má festival program až do noci. Jinak by návštěvnost kina mohla naopak vzrůst, pokud by ve městě bylo díky vícedennímu festivalu více lidí, a večer by hledali zábavu.
Ono je to někdy těžké – třeba před Olympiádou v jednom městě někde poblíž řeky Temže, jednoho sudého roku někdy mezi lety 2011 a 2013, se předem v médiích řešilo, jestli konání olympijských her bude pro divadla v daném městě výhoda, či nevýhoda. Každopádně divadla se na to extra připravovala. Pozn: Konkrétní město a rok konání olympiády zde nezmiňuji, protože tato olympiáda nechvalně proslula tím, že nikdo nesměl použít její logo a nikdo o ní pomalu nesměl ani mluvit, natož psát. Dejte zlatokopovi práva na značku, embargem se vám odmění. Na protest proti tomuto komerčnímu běsnění a zákazům používání symbolů třeba ve výzdobě restaurace, ale i psaní článků o akci, tehdy vznikla iniciativa „Lodnon 2102 Oimplycs“ s pěti barevnými čtverci ve znaku. Protože o vy víte čem se nesmělo normálně psát, pokud na to nebyla licence.
A pak nám do naší kulturní úvahy může ještě zasáhnout počasí.
Se zhoršením počasí klesne návštěvnost koncertu … a vzroste návštěvnost kina. A teď se hádejte, co přesně je následek čeho přesně. Kvůli dešti se nešlo na koncert. Ale do kina se šlo bezprostředně kvůli dešti, anebo kvůli tomu, že se nešlo na koncert? Ptejte se lidí v kinosálu, jestli se přišli schovat před deštěm do kina místo do stanu, anebo zabavit filmem místo koncertem. Zvlášť když na koncert stejně nešli kvůli dešti. To je taková závislost filmu na dešti s částečnou odbočkou k nekoncertu.
A teď si představte, že se má řešit zavinění něčeho:
Nabourali jste do něj, protože vám tam vjel z vedlejší a nestihl projet;
anebo proto, že vám tam vjel z vedlejší a nestihl projet, protože jste se přiřítili příliš rychle? To je reálné dilema, které se při některých nehodách musí řešit. A je to dilema právní i morální. Přednost těm na hlavní se má dávat, ale nemusíte počítat, že někdo v obci pojede 100 km/h, a když za tu zatáčku nevidíte, tak toho rychlíka včas nespatříte.
Anebo když ten na hlavní nesvítí tak, jak za dané situace svítit má? Právně je to možná dané jasně, to nevím, ale z morálního hlediska jde asi o to, jestli byl spatřitelný, a jestli mezi řádně svítícími nezanikl. Proč by se potom mělo svítit, když by bylo potřeba dávat přednost i temným jezdcům? Jenže zas není košér ani sestřelit někoho, koho vidíme, jen proto, že nesvítí, jak by svítit měl.
A ještě k tomu kulturnímu příkladu: Návštěvnost kina závisí na počasí a přítomnosti festivalu. Takže bude-li při volnoprostranském (open-air) festivalu špatné počasí, bude sousední kino vyprodané. Bude-li při festivalu hezky, bude prázdné; nebude-li festival, bude poloplné … máme tu závislost na více jevech.
Máme-li letní prázdniny,
a jsme-li současně v turistické oblasti,
a je-li právě týden pěkně (je tu hodně turistů),
a je-li právě den šeredně (nikdo se nechce koupat ve vodní nádrži),
dá se předpokládat nával na hradu, zámku a ve městě.
Reálné závislosti mohou být někdy složité.
A různé vědní obory vlastně řeší v principu to samé, jen si každý zavádí své vlastní názvosloví, aby to bylo složitější.