LJETNI TEČAJ SURADNJE (3)

Ciklusi zla i dobra počinju periodima tame. Kako ipak prevladaju velikodušnost i suradnja

Zvonimir Šikić / 18. kolovoza 2017. / Članci / čita se 9 minuta

Iako mnogi udžbenici tvrde da je strategija Tit For Tat (milo za drago, zub za zub) najuspješnija, nije tako. Uspješniju strategiju biolog Krebs prepoznao je u životinjskom svijetu. Posebno je vole golubovi, štakori, miševi i majmuni, a koristi se i za dresuru konja i drugih životinja. O kojoj je strategiji riječ

LJETNI TEČAJ SURADNJE (1): Nadigravanje sebičnjaka: Što je zajedničko operi Tosca i prodaji lažne robe za lažni novac

LJETNI TEČAJ SURADNJE (2): Pod kojim će se uvjetima u svijetu egoista pojaviti suradnja, a bez središnjeg autoriteta

Kako evoluira suradnja

Strategija milo za drago, ili kraće TFT (tit for tat), opisana uz ostalo u dva prethodna članka, uspješna je dok je god primjenjuju nepogrešiva računala. Međutim, ljudi kao ni ostale životinje nisu nepogrešivi. Katkada su smušeni, katkada ometeni, katkada loše raspoloženi ili naprosto imaju loš dan.

Možda sam želio surađivati, ali mi se omaklo pa nisam. Možda sam uvjeren da moj oponent nije surađivao u prošloj rundi, iako je zapravo surađivao (možda sam ga pobrkao s nekim drugim). Ovaj mi je tip toliko antipatičan da s njim neću surađivati što god on činio. Ljudske interakcije uvijek imaju mnogo šuma.

Na važnu ulogu šuma prvi je upozorio R. May, krajem 80-tih godina (inače fizičar, poznat po matematičkom utemeljenju moderne ekologije). Smatrao je da evolucijski biolozi trebaju temeljito izučiti kako greške utječu na iteriranu zatvorenikovu dilemu, jer mu je bilo potpuno jasno da zaključci koji se pozivaju na nepogrešivo provođene strategije (kakve su bile one u Axelrodovim turnirima, vidi prethodni članak) nisu realni.

Krvna osveta

Čak i rijetke greške mogu imati fatalne posljedice. Kada se susretnu dvije TFT strategije, samo će jedna greška igrače uvesti u neprekinuti niz nesuradnji. Očiti način da se prekine ovaj niz krvne osvete jest da igrači napuste rigidni TFT i prihvate neki oblik praštanja. No, kako će i zašto do toga doći?

Mayov izazov prihvatili su austrijski matematičari K. Sigmund i M. Nowak (danas voditelj programa Evolucijske dinamike na Harvardu). Uz do tada uobičajene determinističke strategije uveli su i probabilističke. Ako bi oponent surađivao strategija bi surađivala s određenom vjerojatnošću, ako on ne bi surađivao strategija bi surađivala s nekom drugom vjerojatnošću. Dakle, praštanja su mogla biti manje ili više vjerojatna.

Početnu (slučajnu) smjesu determinističkih i probabilističkih strategija uključili su u turnir u kojem je svatko igrao sa svakim. No, njihovi turniri razlikovali su se od Axelrodovih i po tome što su se strategije razmnožavale ovisno o njihovoj uspješnosti. Najuspješnije su dobivale mnogo replika, a najmanje uspješne su „izumirale“. Osim toga, replike nisu uvijek bile točne. Sadržavale su greške (mutacije) koje su bile izvor novih strategija.

Tako su se rađale tisuće i tisuće novih generacija, a Sigmund i Nowak su se nadali da će se s vremenom pojaviti konačni pobjednik. Da će se pojaviti strategija koja će istisnuti sve ostale, koja će prirodnom selekcijom postati jedinom ili bar dominantnom strategijom u populaciji.

Loši momci, dobar start

Iako se evolucijska trajektorija nikada nije doslovno ponovila, neke su pravilnosti bile očite. Turnir je uvijek počinjao kaotičnom smjesom strategija, koju su Sigmund i Nowak slučajno generirali. U toj početnoj zbrci uvijek se najuspješnije razmnožavala strategija „nikada ne surađuj“ (NNS). Loši momci imali su dobar start. Nakon otprilike sto generacija NNS je postala najraširenijom (dominantnom) strategijom.

Strategija TFT se u trenutku kulminacije NNS-ova  uvijek nalazila na granici istrebljenja. No, izrabljivači su se toliko proširili da su ostali bez potencijalnih žrtava i tu počinje njihov pad. Vrijedi znati da NNS u susretu s NNS-om dolazi do malo bodova, za razliku od TFT-a u susretu s TFT-om. Naravno, susreti NNS-a s TFT-om također donose malo bodova.

Čak i mali dio populacije, koji čine jedva preživjeli TFT-ovi, počinje se uspješno množiti zahvaljujući međusobnim susretima. S druge strane, zli momci u nedostatku naivnih strategija tipa „uvijek surađuj“ polako odumiru. Uskoro populacijom dominiraju TFT strategije.

Velikodušnost

No, ni njihova dominacija nije stabilna. I najbezazlenija greška (mutacija) čini ih neefikasnima (jer „pregrubo reagiraju na uvrede“), pa oni polako prepuštaju vodstvo svojoj velikodušnijoj varijanti GTFT (generous tit for tat). Ta strategija na suradnju odgovara suradnjom, a na nesuradnju s vjerojatnošću 2/3 odgovara nesuradnjom (prirodna selekcija dovodi do te ili neke druge vjerojatnosti ovisno o korištenoj tablici isplata u zatvorenikovoj dilemi; za konkretnu tablicu koju smo naveli u prethodnom članku u dijelu „Reciprocitet i iterirana zatvorenikova dilema“ vjerojatnost će biti 2/3).

Strategija GTFT dominantna je dulje od svih prethodnika, ali ni ona nije vječna zahvaljujući slučajnim mutacijama. Polako i gotovo neprimjetno velikodušni GTFT mutira prema još velikodušnijim rođacima. Konačno, populacija postaje univerzalno „dobra“ – svi surađuju. Razlog je jednostavan. Kada svi pokušavaju biti dobri, praštanje je sve učestalije. Sve brže i brže se odlučujete na praštanje, jer najveća nagrada dolazi s velikim brojem suradnji.

Okruženje dobrica

Naravno, okruženje „dobrica“ koje stalno surađuju plodno je tlo za ponovni uspon „zlih“ NNS-ova (koji nikada ne surađuju), bilo onih zaostalih iz prošlosti ili novih mutanata. Time je ciklus zatvoren i sve opet počinje iz početka.

U svim se turnirima pojavljuje taj isti ciklus. Početna dominacija zlih NNS-ova, zatim rast i dominacija dobrih ali osvetoljubivih TFT-ova, koje zamjenjuju dobri i sve manje osvetoljubivi GTFT-ovi, koji polako prelaze u prave „dobrice“ koje uvijek surađuju. One su plodno tlo za novi uspon NNS-ova pa ciklus kreće iznova.

Dobra je vijest da turnirima i vremenski i ukupnim brojem dominiraju dobre strategije. Najdulje traje i najbrojniji je GTFT. Loša je vijest da kratke vladavine zlih NNS-ova u stvarnom svijetu, koji pokušavaju modelirati ovi turniri, možda traju desetljećima ili stoljećima. Anegdotalih indicija za to ima dosta (svatko će se lako sjetiti svojeg preferiranog perioda „zla i tame“).

No, još jednom upozoravamo da se radi o modelu koji je daleko od stvarnosti. On dokazuje da je nešto moguće ali ne i da je aktualno ili da je bilo aktualno.

Ako dobijaš, ne mijenjaj – mijenjaj samo ako gubiš

Sigmund i Nowak u svojim su turnirima tražili strategije čije su odluke bile reakcije na akcije oponentnih strategija. Uskoro su proširili svoju potragu i na strategije čije su odluke mogle biti i reakcije na vlastite akcije.

Da biste bolje razumjeli o čemu se tu radi, zamislite sebe kao sudionika turnira. Ako vaš oponent u prethodnoj igri nije surađivao možda će vaša reakcija u sljedećoj igri ovisiti i o tome što se vi učinili u prethodnoj igri. Ako ni vi niste surađivali možda ćete blaže reagirati na nesuradnju oponenta, nego što biste reagirali da jeste surađivali.

Nowak je vjerovao da će velikodušni TFT i uz dodatnu analizu biti dominantan u „ciklusu izmjena dobra i zla“. No, pokazalo se da je veoma zastupljena bila sljedeća strategija:

  1. Ako smo oboje surađivali u prošloj igri onda ja surađujem i u sljedećoj.
  2. Ako oboje nismo surađivali u prošloj igri onda ja u sljedećoj surađujem (s određenom vjerojatnošću).
  3. Ako ste vi u prošloj igri surađivali, a ja nisam, onda ja ni u sljedećoj igri ne surađujem.
  4. Ako sam ja u prošloj igri surađivao, a vi niste, onda ja u sljedećoj igri ne surađujem.

Mogli bismo je sažeti i ovako:

  1. Ako smo u prošloj igri činili isto onda ja u sljedećoj igri surađujem.
  2. Ako smo u prošloj igri činili različito onda ja u sljedećoj igri ne surađujem.

Životinjsko ponašanje

Što me gledaš?

Strategija je postala još jasnijom kada ju je biolog J. Krebs prepoznao kao strategiju s kojom se veoma često susreću etolozi (istraživači životinjskog ponašanja. Oni je nazivaju „ako dobijaš ne mijenjaj, ako gubiš mijenjaj“ ili kraće WSLS (Win Stay, Lose Shift). Naime, točke 1. i 3. iz prvog opisa strategije nisu drugo do „ako dobijaš ne mijenjaj“, dok su točke 2. i 4. „ako gubiš mijenjaj“.

Tu strategiju posebno vole golubovi, štakori, miševi i majmuni, a koristi se i za dresuru konja i drugih životinja. U zoologiji se ona izučava već 100 godina i Krebs je bio zaprepašten da je ta biološki sofisticirana strategija spontano evoluirala u krajnje idealiziranoj kompjuterskoj simulaciji.

Nowak je sada mogao analizirati „cikluse dobra i zla“ koji su se izmjenjivali na njegovom računalu i tako otkriti što WSLS čini uspješnim.

Sjetimo se (usp. prethodni odjeljak) da kraj jednoga ciklusa najavljuje pojava populacije bezuvjetnih surađivača (ranije sam ih zvao „dobricama“). Zahvaljujući slučajnim mutacijama u njihovom će se okruženju neumitno pojaviti „zlikovci“ koji nikada ne surađuju (ranije sam ih zato zvao NNS-ovima) i koji će naivne „dobrice“ lako eksploatirati. „Zlikovci“ će se zato proširiti populacijom i konačno zatvoriti ciklus. Ponovni rast „dobra“, a s time i novi ciklus, počet će na stratištu sukoba „zlih“ sa „zlima“ (jer oni jedni druge uništavaju).

Priča o uspjehu

WSLS-ovi također lako eksploatiraju „dobrice“ ali su (osim toga) uspješniji u međusobnim susretima. To je tajna njihovog uspjeha i zato će oni produžiti cijeli ciklus, odgađajući novi početak.

Zanimljivo je da je WSLS izučavan u kontekstu zatvorenikove dileme i prije Sigmund-Nowakovih turnira. Slavni A. Rapaport (koji je sa TFT-om pobijedio u oba Axelrodova turnira, usp. Prethodne članke) zvao ga je „priglupim“ (simpleton). Nakon kraće analize odbacio je tu „priglupu“ strategiju kao neefikasnu. Na primjer, ona u susretu sa „zlikovcima“ (koji nikada ne surađuju) alternira između suradnje i nesuradnje, što stvarno izgleda priglupo.

Istu strategiju istraživali su D. i V. Krains, nazivajući je „Pavlovom“ (po slavnom ruskom psihologu, otkrivaču uvjetnoga refleksa), kao i ekonomisti E. Maskin i D. Fudenberg. Svi su oni zaključili da strategija ipak može biti efikasna, ali samo u određenim situacijama.

Zašto se onda ona (uz velikodušni TFT) pokazala najuspješnijom u Sigmund-Nowakovim „ciklusima dobra i zla“? Zbog kvalifikacije u točki 2. njenog prvog opisa (vidi gore). Naime, Sigmund-Nowakov WSLS nije čisti priglupi „Pavlov“ ili „simpleton“, jer on tek s određenom vjerojatnošću (dakle, nepredvidivo) surađuje nakon prethodne obostrane nesuradnje. To ga čini otpornijim na napade „zlikovaca“, pa zato i uspješnijim.

Mnogi ljudi i danas misle (i nažalost, mnogi udžbenici to uporno ponavljaju) da je priča iterirane zatvorenikove dileme priča o uspješnosti TFT-a. Međutim, rezultati Sigmunda i Nowaka (uglavnom objavljeni u časopisu Nature) jasno pokazuju da je to priča o uspješnosti velikodušnog TFT-a i WSLS-a.

Dapače između te dvije strategije WSLS se dodatno ističe svojom jednostavnošću. On se drži svojeg izbora dok god mu dobro ide, a kada mu krene loše mijenja ga. On zato treba pratiti samo svoje isplate i uopće ne treba brinuti o potezima oponenta. Takva strategija zahtjeva bitno manje kognitivne sposobnosti od TFT-a i velikodušnog TFT-a, koji moraju prepoznavati oponente i pamtiti njihove prijašnje postupke (usp gore). Zato WSLS bolje modelira ponašanje mnogih organizama nego što to čine TFT-ovi.

Istraživanja Sigmunda i Nowaka pokazala su da je TFT katalizator za evoluciju suradnje, te da je WSLS njena krajnja destinacija u „ciklusima dobra i zla“.

Je li to krajnje rješenje problema suradnje u situacijama zatvorenikove dileme? Nije.

U sljedećem nastavku:

Reputacija, sramota i krivnja