Što je vjerojatnost (3)

Vjerojatnost kao stupanj plauzibilnosti. Matematički temelji bejesovske teorije

Zvonimir Šikić / 1. veljače 2023. / Rasprave / čita se 17 minuta

Na pitanje kako opravdati aksiome vjerojatnosti ako su vjerojatnosti racionalne procjene uvjerenja odgovor su ponudili Ramsey i de Finetti, definicijom vjerojatnosti kroz kladilačke koeficijente, koji su se pokazali koherentnima samo ako zadovoljavaju aksiome, piše Zvonimir Šikić. Temelje teorije vjerojatnosti kao logike postavio je Richard Cox, iz čega je izrasla današnja bejesovska teorija vjerojatnosti.

Pascal, Fermat, Bernoulli, Bayes, Laplace i drugi začetnici teorije vjerojatnosti smatrali su da su vjerojatnosti racionalne procjene uvjerenja koje se temelje na raspoloživim informacijama. Dakle:

Vjerojatnost propozicije A njena je plauzibilnost s obzirom na raspoložive informacije J, oznakom Pr (A|J).

To znači da su vjerojatnosti uvijek uvjetne, jer ovise o raspoloživim informacijama. One, mogu biti subjektivne ili objektivne. Vjerojatnost Pr (A|J) subjektivna je ako je procjena da jest A, pod uvjetom da jest J, subjektivna. Ako je riječ o objektivnoj procjeni onda je vjerojatnost objektivna i tada se još naziva logičkom.

Ovaj pojam vjerojatnosti ne pretpostavlja da one postoje u stvarnome svijetu. Bacanje kovanice u stvarnome svijetu potpuno je determinirano vertikalnom brzinom v i kutnom brzinom ω kojima kovanicu bacamo (usp. kraj prvog članka u seriji). Ali ako je kovanica bačena snažno, s dovoljno velikim v i ω, osjetljivost na početne uvjete je velika, što znači da i vrlo mala promjena početnih uvjeta v i ω dovodi do promjene ishoda. Nama informacije o tim malim promjenama nisu dostupne pa za nas ishod nije determiniran, nego je slučajan. Jednaka vjerojatnost glave i pisma racionalna je procjena plauzibilnosti ishoda, jer informacije koje imamo o simetriji kovanice ne daju prednost ni jednoj njenoj strani.  Dakle, jednaka vjerojatnost glave i pisma rezultat je našeg nepoznavanja početnih uvjeta bacanja kovanice i njene simetrije, a ne neko objektivno svojstvo toga bacanja.

Svaka klasična vjerojatnost počiva na informacijama o simetričnosti odgovarajućeg pokusa i te informacije J garantiraju jednaku vjerojatnost svih elementarnih ishoda. Isto tako i relativne frekvencije ponavljanog slučajnog pokusa mogu poslužiti kao pozadinska informacija J o ishodima tog pokusa. Stoga možemo zaključiti da je pojam vjerojatnosti kao plauzibilnosti najobuhvatniji i to mu je velika prednost.  Ali nije odmah jasno zašto bi tako shvaćene vjerojatnosti zadovoljavale uobičajene aksiome vjerojatnosti, osim u zapravo posebnim slučajevima klasične i frekvencijske vjerojatnosti. Frekventisti su to smatrali nepopravljivim nedostatkom vjerojatnosti shvaćene kao plauzibilnosti i svojom velikom prednošću (zanemarujući činjenicu da je pojam granične frekvencije nekonzistentan).

John Maynard Keynes mislio je kako bi aksiome vjerojatnosti trebalo jednostavno percipirati kao istinite, nekom vrstom logičke intuicije.
  • Keynes i Jeffreys

Frekventistička kritika plauzibilnosti kao vjerojatnosti bila je razorna, ali jedna ju je manjina ipak preživjela.

Za Johna M. Keynesa stupanj racionalnog uvjerenja stupanj je djelomične implikacije. Ponekad premise impliciraju konkluziju, ali češće to čine samo djelomično. Keynes tvrdi da konkluzija s premisama stoji u odnosu vjerojatnosti i da je ta relacija logička, jer je vjerojatnost samo produžetak klasične bivalentne logike „istinitosti i neistinitosti”. Ali kako utemeljiti ovaj prošireni logički odnos ili, konkretnije, kako s ove logičke točke gledišta dokazati istinitost aksioma vjerojatnosti? Keynes je mislio da ih naprosto percipiramo kao istinite, nekom vrstom logičke intuicije.

Harold Jeffreys imao je isti logički stav prema vjerojatnosti. Bio je jedan od najranijih kritičara frekvencijske statistike, ali nije samo kritizirao. U svojoj knjizi iz 1939. riješio je mnoge statističke probleme potpuno nedostupne frekventistima. To je trebao biti jasan pokazatelj da je na pravom putu (iako mu prvih stotinjak stranica posvećenih logičkom izvođenju aksioma vjerojatnosti nije naročito uspješno). No njegov je pristup odbačen, kao i Keynesov.

Najpoznatiji kritičar bio je Frank Ramsey. Njegov odgovor 1926. na Keynesov stav da postoje logički odnosi vjerojatnosti i da se oni mogu uočiti nekom vrstom logičke intuicije, bio je jednostavan: „ja ne percipiram odnose vjerojatnosti gospodina Keynesa i, štoviše, mislim da ih ni drugi ne percipiraju“.

Riječ je o „percepciji“ aksioma vjerojatnosti koji su sada u sljedećoj formi. Vjerojatnost propozicije A uz uvjet da vrijede pozadinske informacije J, je realan broj iz [0,1], tj.

(1)          Pr (A|J) ∈ [0,1].

Vjerojatnost logički valjane propozicije je 1, bez obzira na pozadinske informacije J, tj.

(2)         ⊨ A   ⟹   Pr (A|J) = 1.

Ako su A i B međusobno kontradiktorne propozicije (uz pozadinske informacije J) onda je vjerojatnost njihove disjunkcije aditivna, tj.

(3)         J ⊨ – (AB)   ⟹   Pr (A v B|J) = Pr (A|J) + Pr (B|J).

Vjerojatnost konjunkcije je kvazi-multiplikativna, tj.

(4)          Pr (AB|J) = Pr (A| J) Pr (B|AJ).

Ramsey nema problema sa zaključcima teorije vjerojatnosti. Na primjer, da iz (1) – (3) slijedi Pr (A) + Pr (-A) = 1; ili da iz (1) – (3) i A ⊨ B slijedi da je Pr (A) ≦ Pr (B); ili da iz (1) – (4) slijedi Bayesov teorem; itd. Problematični su aksiomi vjerojatnosti, a ne zaključci o vjerojatnostima koji slijede iz tih aksioma. Ukratko, pitanje je kako opravdati aksiome vjerojatnosti ako su vjerojatnosti racionalne procjene uvjerenja koje se temelje na raspoloživim informacijama.

  • Ramsey – Finettijev  Dutch book argument

Umjesto nejasnih logičkih intuicija Frank Ramsey (tek u naznaci 1926.) i Bruno de Finetti (mnogo detaljnije 1937.) ponudili su jasnu definiciju vjerojatnosti i dokazali da ona zadovoljava aksiome (1) – (4). Preciznije kazano, vjerojatnosti su definirali kao kladilačke kvocijente i dokazali su da su oni koherentni, tj. da ne dopuštaju nepoštene oklade, ako i samo ako  zadovoljavaju (1) – (4). Bio je to veliki uspjeh pa je logička teorija Keynesa i Jefrreysa zaboravljena.

Često se naglašava da nije nimalo očito da bi se kladilački kvocijenti, ako su koherentni, trebali pridržavati aksioma vjerojatnosti. No, mislim da je to ipak očito i ponudit ću kasnije jedan očiti dokaz. No, prije toga, predstavit ću standardniju verziju dokaza da koherentnost implicira aksiome (1) – (4), tzv. Dutch book argument. (Ako vas ne zanima taj složeni argument možete ga preskočiti i nastaviti s odjeljkom „Jednostavniji argument“, bez ikakvih gubitaka.)

Dakle, zamislite mene kao kladioničara. Ako ste mi spremni platiti M’ za to da dobijete M ako se dogodi A, onda je u toj okladi na događaj A vaš neto dobitak G (A) = M – M’ ako se A dogodi, odnosno G (A) = –M’ ako se A ne dogodi. Ako definiramo V(A) = 1 ako se A dogodi i V(A) = 0 ako se A ne dogodi, onda je

G (A) = M×V (A) – M’.

Ako ste mi spremni platiti M’ za to da dobijete M samo kada je ispunjen uvjet C i dogodi se A (tj. oklada se poništava ako uvjet C nije ispunjen), tada vaš neto dobitak u okladi na događaj A pod uvjetom C iznosi

G (A|C)) = V (C) (M×V (A) – M’),

oklada se poništava za V (C) = 0, a inače je kao i prije.

Ono što vam nudim, tj. M, vaš je mogući bruto dobitak ili vrijednost oklade. Ono što ste  spremni platiti za okladu, tj. M’, vaše je očekivanje od klađenja. Vaš kladilački kvocijent, u okladi na događaj A, definira se kao

q (A) = M’ / M.

U toj definiciji pretpostavlja se da je vaše očekivanje M’ proporcionalno vrijednosti oklade M, tj. da vaš kladilački kvocijent ovisi samo o propoziciji A (na koju se kladite), a ne o vrijednosti oklade M. Stvarne oklade nisu takve – za milijun puta veći dobitak rijetko je tko spreman uložiti milijun puta veći iznos – i to je slaba točka Dutch book argumenta. Ali idemo dalje s argumentom. Budući da je M’ = q(A) ×M, vaš neto dobitak  može se preformulirati kao

G (A) = M× (V (A) – q (A))

G (A|C) = V(C) ×M× (V (A) – q (A)).

Kaže se da je vaš kladilački kvocijent koherentan, tj. da je klađenje pošteno, ako ja ne mogu izbirati M ≠ 0 tako da pobjeđujem što god se dogodi (ili, ekvivalentno, da ga ne mogu izabrati tako da gubim što god se dogodi). To znači da dobitak ili gubitak koji je ≠ 0 mora ovisiti o tome što će se dogoditi. Formalno gledano, vaš kladilački kvocijent je koherentan, tj. oklada je poštena, ako G ne ovisi o V samo u slučaju da je G = 0.

Sada, kada smo definirali koherenciju (poštenost), možemo dokazati da su aksiomi vjerojatnosti (1) – (4) posljedice te definicije.

Pretpostavimo da je q (A) < 0. Ako je M > 0 (dokaz se provodi analogno i za M < 0), onda je G (A) = M× (V (A) – q (A)) > 0, neovisno o vrijednosti V (A). To znači da vi dobivate neovisno o tome što se desi, što je u suprotnosti s koherentnošću. Dakle, nemoguće je da je q (A) < 0. Slično se dokazuje  i da je nemoguće (A) > 1, tj. q (A) ∈ [0,1]. To je aksiom (1).

Ako je A logički valjana propozicija, onda je V(A) = 1 pa G (A) = M× (1– q (A)) ne ovisi o V. To je, zbog koherencije, moguće samo za G (A) = M× (1 – q (A)) = 0. No to znači da je q (A) = 1. To je aksiom (2).

Ako se kladite na A s kvocijentom q (A) za bruto dobitak M1, na B s kvocijentom q (B) za bruto dobitak M2, i na A∨B s kvocijentom q (A∨B) za bruto dobitak M; onda je vaš ukupni neto dobitak

G = M1 × (V (A) – q (A)) + M2× (V (B) – q (B)) + M× (V (A∨B) – q (A∨B)).

Ako iz vaših informacija slijedi da su A i B međusobno kontradiktorne propozicije, onda je V (A∨B) = V (A) + V (B). Ako je nadalje, vaša oklada takva da je M1 = M2 = – M ≠ 0 onda je, za tu konkretnu okladu,

G = M×q (A) + M×q (B) – M×q (A∨B).

Taj dobitak ne ovisi o V pa, zbog koherencije, mora biti nula,

M× (q (A) + q (B) – q (A∨B)) = 0.

Iz toga slijedi da je q (A∨B) = q (A) + q (B). To je aksiom (3).

Ako se kladite na AB s kvocijentom q (AB) za bruto dobitak M, na B s kvocijentom q (B) za bruto dobitak M1, i na A pod uvjetom B s kvocijentom q (A|B) za bruto dobitak M2; onda je vaš ukupni neto dobitak

G = M× (V (AB) – q (AB)) + M1× (V (B) – q (B)) + V(B) ×M2× (V (A) – q (A|B)).

Naravno, V (AB) = V (A) × V (B), pa ako je vaša oklada takva da je M2 = – M ≠ 0, vaš je neto dobitak

G = – M×q (AB) + M1×V (B) – M1×q (B) + V (B) ×M×q (A|B).

Ako je nadalje M1 = – M×q (A|B), onda, za tu konkretnu okladu,

G = – M×q (AB) + M×q (A|B) ×q (B).

Ovaj dobitak ne ovisi o V pa, zbog koherencije, mora biti nula,

M× (-q (AB) + q (A|B) × q (B)) = 0.

Iz toga slijedi da je q (AB) = q (A|B) × q (B). To je aksiom (4).

Ovo je standardni, možda ne i izrazito transparentni izvod aksioma vjerojatnosti (1) – (4) iz uvjeta koherentnosti. Sada predstavljam dokaz koji je trivijalan i potpuno transparentan (i vjerujem oduvijek poznat).

  • Jednostavniji argument

Umjesto koherentnosti, polazim od njezine jednostavne posljedice: za iste oklade trebate imati ista očekivanja. Ona se lako dokazuje. Naime, ako se kladite na događaj A za iznos M, s različitim očekivanjima M1 i M2, tj. s različitim kvocijentima q1 i q2, onda vam mogu ponuditi M za jedan kvocijent i –M za drugi. Vaš ukupni neto dobitak u složenoj okladi je:

G = M× (V (A) – q1) – M× (V (A) – q2) = M× (q2 – q1).

On je neovisan o V i različit je od nule (jer je q1 ≠ q2 i možemo uzeti M ≠ 0). Dakle, vaši kvocijenti q1 i q2 ne bi bili koherentni kada biste za iste oklade imali različita očekivanja.

Dvije oklade zapravo su iste, ako je vaš bruto dobitak u svakoj mogućoj situaciji isti u obje oklade.

Primjer I: ako su A i B međusobno kontradiktorni, tada je “kladiti se na A∨B za M” isto što i “kladiti se na A za M i kladiti se na B za M”. Naime, budući da je AB isključeno, moguće su samo tri situacije A (-B), (-A) B i (-A) (-B) i u svakoj od njih vaš je bruto dobitak isti za obje oklade. On je M ako je A (-B) ili (-A) B, a 0 je ako je (-A) (-B).

Primjer II: “kladiti se na AB za M” isto je što i “kladiti se na B za M, a zatim se nastaviti kladiti na A za ono što ste dobili”. Sada su moguće situacije, A B, A (-B), (-A) B i (-A) (-B).  U obje oklade vaši su bruto dobici isti u svakoj od četiri situacije. Oni su, redom: M, 0, 0, 0.

Prema primjeru I, ono što ste spremni platiti za okladu na A∨B uz bruto dobitak M (ako se A i B međusobno isključuju), mora biti isto ono što ste spremni platiti za dvije oklade, jednu na A za bruto dobitak M i drugu na B za bruto dobitak M. To znači da je

q (A v B) ×M = q (A) ×M + q (B) ×M

pa (za M ≠ 0) odmah slijedi da je q (A∨B) = q (A) + q (B). To je aksiom (3).

Prema primjeru II, ono što ste spremni platiti za okladu na AB za bruto dobitak M, mora biti isto ono što ste spremni platiti za okladu na B za bruto dobitak M, kojoj slijedi oklada na A za ono što ste prethodno dobili. To znači da je

q (AB) ×M = q (A|B) × (q (B) ×M),

pa (za M ≠ 0) odmah slijedi da je q (AB) = q (A|B) ×q (B). To je aksiom (4).

Argumenti za aksiome (1) i (2) su očiti. Ako je vaš q (A) > 1 očito gubite što god se dogodi, a ako je vaš q (A) < 0, očito dobivate što god se dogodi. Za logički valjanu propoziciju A očito dobivate što god da se dogodi, jer ona vrijedi što god da se dogodi.

Dakle, kladilački kvocijenti sasvim očito zadovoljavaju aksiome vjerojatnosti i tu nema nikakvih iznenađenja. Čak vjerujem da su ovi jednostavni argumenti za aksiome (1) – (4) bili dobro poznati od početaka teorije vjerojatnosti, jer su doista iznimno jednostavni. Možda je razlog što ih ne nalazimo u relevantnoj literaturi taj što su kladilački kvocijenti bili oduvijek problematični, jer nisu bili dobro definirani. Pretpostavka da je iznos M’, koji ste voljni platiti za okladu, proporcionalan iznosu M koji je bruto dobitak kojem se nadate, potpuno je neutemeljena (v. gore). Čak je i Ramsey bio svjestan toga kada je bezuspješno pokušao prevladati taj problem uvođenjem oklada na tzv. “ultimativna dobra”, umjesto novčanih oklada.

Harold Jeffreys objavio je 1939. svoj Theory of Probability, a Richard Cox je 40-ih godina izgradio nedostajuće temelje za logički pojam vjerojatnosti. (alchetron.com)
  • Coxovo rješenje

Ramseyev i Finettijev (subjektivni) pojam vjerojatnosti nije riješio probleme (objektivne) logičke vjerojatnosti Keynesa i Jeffreysa. Ali Richard Cox je 1940-tih godine izgradio nedostajući temelj za logički pojam vjerojatnosti koji je danas poznat kao bejesovska teorija vjerojatnosti, ili skraćeno BPT. Edwin Jaynes je naziva “teorija vjerojatnosti kao logika” (to je i naslov njegove knjige iz 2003.). Intuitivna privlačnost BPT (koju ćemo ilustrirati usporedbom bejesovskog i frekvencijskog testiranja kovanice u sljedećem članku) te ogromna količina uspješnih rezultata i njihova rigorozna matematička osnova od strane Coxa i drugih, čine je najboljom teorijom probabilističkog zaključivanja koju imamo. Zato je prilično čudno što se BPT uopće ne spominje u novijim udžbenicima filozofije posvećenim probabilističkom zaključivanju. Spominje se u bejesovskim udžbenicima, npr. u  udžbeniku Howsona i Urbacha iz 2006. koji BPT izrijekom proglašava najboljim pristupom „jer od svih ostavlja najmanje otvorenih pitanja“. Ali čak se i tada izostavlja Coxov matematički temelj BPT-a, jer “zahtijeva prilično sofisticiranu matematiku“. Iako matematika jest donekle sofisticirana, iznijet ću osnovnu ideju Coxovog dokaza koja i nije toliko složena.

Cox kreće od pojma „plauzibilnosti propozicije A pod uvjetom da znamo da vrijedi propozicija J“, oznakom A|J, za koju pretpostavlja da ima sljedeća svojstva:

(P1) Plauzibilnosti su realni brojevi između minimuma o, koji je plauzibilnost logičke kontradikcije i maksimuma j, koji je plauzibilnost logične istine.

(P2) Ako su A i B (uz poznate informacije J) međusobno kontradiktorne propozicije onda je plauzibilnost njihove disjunkcije “A ili B”, potpuno određena plauzibilnošću od A (uz poznate informacije J) i plauzibilnošću od B (uz poznate informacije J). Funkcija DJ koja determinira tu vezu ovisi o J.

(P3) Funkcija DJ iz (P2) je kontinuirana i striktno rastuća u oba argumenta.

(P4) Plauzibilnost konjunkcije “A i B” (uz poznate informacije J) potpuno je određena  plauzibilnošću od B (uz poznate informacije J) i plauzibilnošću od A (uz poznate informacije B i J). Funkcija KJ koja determinira tu vezu ovisi o J.

(P5) Plauzibilnost propozicije AJ (uz poznate informacije J) jednaka je plauzibilnosti propozicije A (uz poznate informacije J), tj.  AJ|J = A|J.

Cox je dokazao da iz ovih svojstava logički slijedi da postoji kontinuirana i strogo rastuća funkcija f (x) takva da je f (o) = 0, f (j) = 1 te da za svaku propoziciju J vrijedi:

DJ (x, y) = f (f -1 (x) + f -1 (y))           KJ (x, y) = f ((f -1 (x) ⋅ f -1 (y)).

To je ekvivalentno sa:

f -1 (DJ  (x, y)) = f -1 (x) + f -1 (y)           f -1 (KJ (x, y)) = f -1 (x) ⋅ f -1 (y).

Dakle, ako definiramo Pr (x) := f -1 (x), uz odgovarajuće supstitucije za x i y dobivamo:

Pr (A∨B|J ) = Pr (A|J) + Pr (B|J)           Pr (AB|J) = Pr (A|BJ) ⋅ Pr (B|J).

Zaključak je, ako pojam plauzibilnosti zadovoljava (P1) – (P5) tada postoji mjera plauzibilnosti koja zadovoljava aksiome vjerojatnosti (1) – (4). Naime, svaka kontinuirana i strogo rastuća funkcija plauzibilnosti A|J mogla bi biti mjera plauzibilnosti, kao i svaka druga. Od svih tih mogućih mjera odabiremo Pr (A|J), ne zato što je to “ispravnije” nego zato što je to prikladnije, tj. funkcija Pr poštuje najjednostavnija pravila kombinacije: uvjete normalnosti (1), (2), pravilo zbroja (3) i pravilo umnoška (4).

Situacija je analogna onoj u termodinamici, gdje između svih temperaturnih ljestvica (koje su kontinuirano rastuće funkcije jedne drugih) odabirimo Kelvinovu ljestvicu jer je najprikladnija, tj. zakoni termodinamike u njoj imaju najjednostavniji oblik. Ili, u matematici, od svih kutnih mjera biramo radijane kao najprikladnije jer je npr. d (sin x) / dx = cos x samo ako se x mjeri u radijanima. I tako dalje.

Razmotrimo još zašto bi pojam plauzibilnosti trebao imati svojstva (P1) – (P5).

Zahtjev (P1) je da su plauzibilnosti predstavljene realnim brojevima (sa minimumom koji predstavlja plauzibilnost kontradikcija i maksimumom koji predstavlja plauzibilnost tautologija). Vjerujem da je moguće dokazati da je ovaj zahtjev posljedica još elementarnijih zahtjeva (za one kojima je poznat Hölder-Cartanov dokaz da je svaka kontinuirana linearno uređena grupa bez minimuma i maksimuma izomorfna skupu realnih brojeva ℝ, mogu dodati da mislim kako bi se tu radilo o adaptaciji toga dokaza) .

Što se tiče (P2), primijetite da se uz zadane informacije J proces odlučivanja o tome je li A∨B istinita propozicija, može podijeliti na elementarne odluke o A i B zasebno (u svakom koraku u zagradama označavam plauzibilnost koja odgovara tom koraku):

(i) Odlučite je li A istinita.    (A|J)

(ii) Odlučite je li B istinita.    (B|J)

Očito je da te dvije odluke u potpunosti određuju vašu odluku o A∨B i to je (P2). Formalnije:   A∨B|J = DJ (A|J, B|J).

Naravno, ako se plauzibilnost u bilo kojem od dva koraka kontinuirano povećava onda se kontinuirano povećava i plauzibilnost od A∨B. To je (P3).

Što se tiče (P4), uz zadane informacije J, proces odlučivanja o istinitosti propozicije AB možemo podijeliti na jednostavnije odluke o A i B, na sljedeći način:

(i) Odlučite je li B istinita.    (B|J)

(ii) Nakon što prihvatite B kao istinitu, odlučite je li A istinita.    (A|BJ)

Da bi AB bila istinita nužno je da je B istinita. Dakle,  treba odlučiti je li B|J. Nadalje, ako je B istinita, da bi AB bila istinita nužno je je da je i A istinita. Dakle, treba odlučiti je li i A|BJ. Ove dvije odluke u potpunosti određuju vašu odluku o AB i to je (P4).

Formalnije: AB|J = KJ (B|J, A|BJ).

(P5) je samorazumljiv zahtjev.