Hobrasoft: Bayesiánská statistika

11.4.2014

Petr Bravenec
Twitter: @BravenecPetr
+420 777 566 384
petr.bravenec@hobrasoft.cz

Některé programy, které vyvíjíme (Fotomon, Měření), používají množství různé statistiky. Moje chápání statistiky je spíše klasické, ale existuje ještě jiný pohled na statistiku - Bayesiánská statistika. Rozhodl jsem se jí porozumět a naučit se ji prakticky používat.

Příklady, ze kterých nic nepochopíte

Moje první kroky vedly na Wikipedii:

http://cs.wikipedia.org/wiki/Bayesova_věta

Našel jsem tam přesně to, co jsem čekal: matematický formalismus, pod kterým si nedovedu nic představit (pravděpodobnost, že na Wikipedii najdu to, co hledám, ve formě stravitelné pro průměrného inženýra, už dnes dovedu pomocí bayesiánské statistiky docela dobře odhadnout). Ale je tam odkaz:

http://cs.wikipedia.org/wiki/Bayesovská_statistika

Je tam příklad. Skvělé! Ale kdo tohle psal!? Velmi volně cituji:

Test na nemoc dá kladnou odpověď u 99% nemocných pacientů a u 5% zdravých pacientů. Nemocí trpí jen 0.1% populace. Jaká je pravděpodobnost?

He? WTF? Jaká pravděpodobnost? Co se po mě chce? Pravděpodobnost čeho? No nic, třeba to vyplyne z textu dále:

"Pravděpodobnost choroby je o 19% větší, než u těch, kdo se testu nepodrobili."

No nazdar, máme zde další skupinu: přibyli nám ještě netestovaní. Kam si je mám zařadit? Navíc to je formulováno tak nešťastně, že kdybych nevěděl, jak veliký je to nesmysl, mohl bych usuzovat, že provedení testu nějak ovliní, jestli člověk onemocní, nebo zůstane zdravý.

Jsem ztracen.

Několikrát jsem narazil na příklad s dvěma pytlíky s bílými a černými kuličkami, což mi celou problematiku ještě více zatemnilo. Tuhle míchanici současné a předchozí pravděpodobnosti, střídaní minulosti, přítomnosti a budoucnosti, také nedokázal nikdo dostatečně jasně vysvětlit. Popis primitivní úlohy na tři listy formátu A4 zvyšuje WTF faktor nade všechny meze.

Příklady, které vnášejí světlo do problematiky

Začal jsem hledat v angličtině. Odfiltroval jsem všechny kuličky v pytlíku a nakonec jsem skvělý příklad objevil zde:

http://people.hofstra.edu/Stefan_Waner/RealWorld/tutorialsf3/frames6_6.html

Konečně mi docvaklo. Celý ten Bayesův vzorec je obyčejná trojčlenka. To mi mohli vysvětlit už v prváku na střední a nemusí se z toho dělat zbytečná věda. Jakmile jsem si to namaloval a pochopil, vypadá základ bayesovské statistiky prostince:

Pro praktické použití je třeba ještě pochopit jednu věc: bayesiánský vzorec je často uváděn ve zjednodušené formě a není jasné, jak z něj spočítat například toto:

Fabrika A vyrábí 50% výrobků a má 2% zmetků.
Fabrika B vyrábí 30% výrobků a má 3% zmetků.
Fabrika C vyrábí 20% výrobků a má 5% zmetků.
Dotaz: Jaká je pravděpodobnost, že zmetek byl vyroben ve fabrice A?

Ve jmenovateli (část zlomku pod čarou) Bayesova vzorce figuruje takzvaná "úplná pravděpodobnost". V příkladu dopujících a nedopujících sportovců je to součet všech pozitivních výsledků, tj. 9,5% + 13,5%. V případě tří fabrik je to:

Fabrika A: 50% × 2% = 1%
Fabrika B: 30% × 3% = 0,9%
Fabrika C: 20% × 5% = 1 %

Sečteme jednotlivá procenta: celkem 2,9% ze všech výrobků na trhu jsou zmetky. Z fabriky A jich pochází: 50% × 2% / 2,9% = 34,4%

(Příklad jsem nalezl v dokumentu, který nyní není dostupný, googlujte "Bayes Krčková").

Možnost použít libovolný počet různých vstupních parametrů (zde fabriky A, B a C) je dobrá zpráva pro praktické použití v programech - dovoluje to snadno dekomponovat problém na několik samostatných částí.

Závěr

Jakmile jsem pochopil princip, došlo mi, že bayesiánská statistika není nic složitého či nepochopitelného. Zkuste si to. Namalujte si třeba dva pytlíky s kuličkami - uvidíte sami.