LJETNI TEČAJ SURADNJE (2)

Pod kojim će se uvjetima u svijetu egoista pojaviti suradnja, a bez središnjeg autoriteta

Zvonimir Šikić / 3. kolovoza 2017. / Članci / čita se 8 minuta

Politolog Axelrod organizirao je turnire računalnih programa u igranju zatvorenikove dileme i njihovim strategijama dao psilološke karakteristike. Ustanovio je da su „dobri“ i „praštajući“ programi uspješniji. U drugom turniru te su se karakteristike pojavljivale u 14 od prvih 15 programa. Uspješni programi imali su još tri psihološke karakteristike: „osvetoljubivost“, „reaktivnost“ i „transparentnost“

Zatvorenikova dilema modelira situacije u kojima je teško postići suradnju involviranih igrača, iako bi ona za sve njih bila poželjna. Usprkos tome, u mnogim takvim situacijama često viđamo suradnju.

Međuljudski odnosi počivaju na (često nesvjesnom) reciprocitetu usluga i dobara. Onaj koji kuha obično ne pere suđe i obratno. Ako mi prijatelj pomogne u selidbi, podrazumijeva se da ću i ja njemu pomoći u sličnoj situaciji. Djeca brinu za svoje starce kao što su i oni, u svojoj mladosti, brinuli za njih. Kada vam netko otvori vrata i kaže „izvolite“ gotovo automatski odgovarate „poslije vas“. Reciprocitet je svuda oko nas.

Sličan reciprocitet pokazuju i druge biološke vrste. Kognitivna sposobnost da se prepoznaju sudionici prethodnih interakcija i da se zapamte ishodi tih interakcija, lako dovodi do evolucije kooperativnih ponašanja; u riba, ptica, šišmiša, čovjekolikih majmuna ili ljudi. Recipročni altruizam, kako ga danas zovu biolozi (a kako ga je krajem šezdesetih prvi nazvao i objasnio R. Trivers) opća je pojava.

Folk theorem

Jednostavno ponavljanje igre možda je najočitiji mehanizam koji potiče suradnju u igranju zatvorenikove dileme. Osoba će dobro promisliti o odbijanju suradnje, ako u sljedećem susretu s istim igračem može očekivati isto takvo ponašanje. To vrijedi i za ribe, ptice, šišmiše itd.

(Trivers je među prvima ukazao na to da opetovano igranje zatvorenikove dileme može dovesti do suradnje. Naravno, otišao je i dalje objašnjavajući da je veliki dio ljudskih emocija – poput zahvalnosti, sažaljenja, krivnje, povjerenja ili moralnog zgražanja – evoluirao iz one iste logike reciprociteta koja dovodi do suradnje u svijetu riba, ptica, šišmiša itd.)

J. Aumann (dobitnik „Nobela“ za ekonomiju 2005. godine i savjetnik zapadne strane u pregovorima o razoružanju 60-tih godina) također je analizirao igranje iterirane zatvorenikove dileme. I njemu, kao i svima koji su se tim problemom bavili 60-tih godina, bilo je jasno da iteriranje zatvorenikove dileme dovodi do suradnje, zato što će igrači surađivati danas kako sutra ne bi bili kažnjeni zbog današnje nesuradnje. Aumann je taj široko rasprostranjen uvid nazvao „folk theorem“.

No, „folk theorem“ dokazuje samo to da će iteriranje dovesti do suradnje, ali ne daje uputu kako bi trebalo igrati iteriranu zatvorenikovu dilemu. Prve eksperimentalne rezultate koji pružaju neke odgovore na to pitanje dali su slavni turniri R. Axelroda.

Taj je politolog 1979. godine pokušao eksperimentalno odgovoriti na vječno pitanje:„Pod kojim će se uvjetima suradnja pojaviti u svijetu egoista, bez središnjeg autoriteta“. Zamolio je neke dobro poznate znanstvenike (mnogi od njih već su bili objavili radove o zatvorenikovoj dilemi) da mu pošalju svoju strategiju igranja iterirane zatvorenikove dileme, u obliku računalnog programa. Dobio je 14 odgovora. Dodao je i svoj 15. program koji je slučajno surađivao ili ne surađivao, „ako padne glava surađuj, ako padne pismo ne surađuj“.

Axelrodovi turniri

Pustio je da svaki program odigra 200 iteracija zatvorenikove dileme protiv svakog drugog programa. U svakoj pojedinoj igri programi su dobivali bodove prema sljedećoj tablici:

program y
surađuj ne surađuj
program x surađuj 3,  3         0,  5
ne surađuj 5,  0         1,   1

Pobjednik turnira bio je program koje je sakupio najviše bodova u svojih 14 x 200 = 2800 igara. Ukupno je odigrano 15 x 14 x 200/2 = 21 000 igara.

Kompjuteriziranost turnira dopuštala je da programi budu neograničeno složeni pa su mnogi očekivali da će najsloženiji među njima biti i najuspješniji. Na iznenađenje mnogih eksperata pobijedio je najjednostavniji program sa samo 2 pravila:

  1. Surađuj u prvoj igri.
  2. Nadalje čini ono što je tvoj oponent učinio u prethodnoj igri (ako je surađivao surađuj, a ako nije surađivao ne surađuj).

Poslao ga je ugledni matematičar-psiholog ruskoga porijekla A. Rapaport (koji je već ranije objavio knjigu pod naslovom „Zatvorenikova dilema“). Nazvao ga je Tit for Tat (milo za drago), što se danas često skraćuje u TFT.

Zanimljivo je da je strategija TFT bila dobro poznata i prije turnira. Dapače, postojali su radovi koji su dokazivali njezinu uspješnost (poklapala se i sa strategijom koju su provodile obje supersile u vrijeme hladnoga rata: „obećavam da neću koristiti svoje nuklearno naoružanje dok god ga vi ne koristite“). Mnogi od učesnika turnira zapravo su pokušavali pobijediti taj osnovni recept. Bez uspjeha.

Psihologija u iteriranoj zatvorenikovoj dilemi

Axelrod nije stao samo na objavi rezultata svojega turnira, nego je te rezultate iskoristio i za uspješnu analizu nekih psiholoških karakteristika. Takva analiza prije njegovog eksperimenta nije bila moguća. Naime, za razliku od ljudi, rad svakog programa mogao se detaljno analizirati. Tako se moglo ustanoviti do koje mjere je koji program usklađen s određenim psihološkim karakteristikama (ako su one dovoljno jasno definirane). Vrijednost pojedinih psiholoških karakteristika (npr. njihova vrijednost za preživljavanje) sada se mogla procijeniti brojem bodova skupljenih u natjecanju.

Dakle, koje su psihološke karakteristike korisne za igru iterirane zatvorenikove dileme? Axelrod je ustanovio da su dvije takve karakteristike bile prisutne u svim visoko rangiranim programima. Prva je „dobrota“, koju je Axelrod definirao kao „nikada ne započinje konflikt (tj. nesuradnju)“. Druga je „praštanje“, koju je definirao kao „vraća se suradnji ako se oponent vrati suradnji“. Nijedan program iz donje polovice uspješnosti nije imao niti jedno od ova dva svojstva, dok su ih u gornjoj polovici imali gotovo svi.

Axelrod je zatim pokušao naći strategije (programe) koje će pobjeđivati TFT (to, naravno, ne znači da će one biti jednako uspješne protiv drugih strategija). Našao je tri takve strategije. Dvije od njih nisu bile ni „dobre“ ni „praštajuće“. Treća je, međutim, bila „još bolja“ i „još je više praštala“ nego TFT. Nazvao ju je Tit for two Tats (TFTT), jer je ona počinjala ne surađivati tek nakon dvije nesuradnje oponenta, a ne nakon samo jedne kao TFT.

Drugi turnir

Što nam to govori o „dobroti“ i „praštanju“, pitao se Axelrod. Nemajući zadovoljavajućih odgovora organizirao je drugi turnir, upoznavši sve učesnike s rezultatima prvoga, kao i sa svim svojim analizama. Uzbuđenje je bilo veliko. Svi su znali da se „dobrota“ i „praštanje“ isplate. Sama logika zatvorenikove dileme jasno je pokazivala da bi „zao“ i „nepraštajući“ program mogao biti uspješan u „dobrom“ i „praštajućem“ okruženju. No, s druge strane, i to su svi znali.

Axelrod je opet istražio psihološke karakteristike svih programa i ustanovio da su „dobri“ i „praštajući“ opet bili uspješniji. Obje su se karakteristike pojavljivale u 14 od prvih 15 programa. Pronašao je i 3 nove psihološke karakteristike koje su imali uspješni programi: „osvetoljubivost“, „reaktivnost“  i „transparentnost“

Kako bilo, prijavila su se 62 programa respektabilnih autora iz najmanje 8 znanstvenih područja. Axelrod je dodao i svoja 3 programa koja pobjeđuju TFT.

Rapaport je opet poslao TFT i opet je pobijedio. Axelrodov TFTT završio je na 21. mjestu, a njegovi „zli“ i „nepraštajući“ programi prošli su još lošije.

Axelrod je opet istražio psihološke karakteristike svih programa i ustanovio da su „dobri“ i „praštajući“ opet bili uspješniji (obje su se karakteristike pojavljivale u 14 od prvih 15 programa, iako  je tek manje od pola programa imalo te karakteristike).

Axelrod je pronašao i 3 nove psihološke karakteristike koje su imali uspješni programi: „osvetoljubivost“ koju je definirao kao „na nesuradnju odgovara nesuradnjom“; „reaktivnost“ koju je definirao kao „reagira na akcije oponenta“ i „transparentnost“ koju je definirao kao jednostavnost programa (mjerenu njegovom duljinom).

Naravno, TFT ima sva ova psihološka svojstva u najvećoj mogućoj mjeri. Važno je, međutim, uočiti da mnoge druge psihološke karakteristike koje vežemo uz kooperativnost (npr. „stalno surađuje“) ne nalazimo među najuspješnijim programima.

Teorijski se čini da je TFT lako poboljšati. Dovoljno je u program, koji uglavnom igra TFT, ubaciti modul koji stalno prati reagira li oponent na njegove poteze. Ako ne reagira, jer npr. slučajno odlučuje o tome hoće li surađivati ili neće, onda se program iz TFT ponašanja treba prebaciti u stalnu nesuradnju (jer je to najefikasnija strategija s takvim oponentom).

U natjecanju je bilo nekoliko takvih programa, ali nisu dobro prošli. Iako danas znamo zašto je to tako, ipak iznenađuje da je tako profinjena racionalnost zapravo neefikasna.

U svijetu punom zatvorenikovih dilema pet Axelrodovih psiholoških karakteristika uspješnije je od sofisticirane racionalnosti.

Glavna poruka

Glavna poruka Axelrodovih turnira jest da nije nemoguće da do kooperacije dođe u potpuno sebičnom okruženju (sjetite se, cilj svih programa isključivo je i jedino skupiti što veći broj bodova). Kada neki organizam evoluira do genetskog sklopa koji potiče TFT (ili bar pet Axelrodovih psiholoških karakteristika) on će u situacijama zatvorenikove dileme uspješno surađivati s drugima, iako su njegovi ciljevi potpuno sebični.

Naravno, priča o suradnji i sukobu tu ne prestaje, iako mnogi udžbenici šalju pogrešnu poruku da je TFT kraj priče. Sam Rapaport odmah je upozorio da TFT ne treba precjenjivati, jer katkada „pregrubo reagira na uvrede“. Nakon samo jednog, možda i slučajnog, čina nesuradnje igrači TFT-a uvučeni su u konflikt iz kojeg nema izlaza (kao u Romeu i Juliji ili bilo kojoj drugoj zamci krvne osvete).

No, to više nije Axelrodova priča. To je priča R. Maya, K. Sigmunda i M. Nowaka, o ćemu uskoro nešto više.

Napomenimo još da su Axelrodovi rezultati čisto eksperimentalni. Oni ne sadrže nikakvih dokaza o bilo čemu. Sam eksperiment je proveden jednom na 15, a drugi put na 65 programa koji su upitne reprezentativnosti. Zato sam gore oprezno formulirao njegov doprinos: „Nije nemoguće da do kooperacije dođe…“.  Sve to treba imati na umu kada nas ponese zanos generalizacije.

Međutim, neke su predrasude (usp. prvi odjeljak) sigurno srušene.

Tko god je mislio da do suradnje nikada ne može doći u često egoističnom okruženju, prevario se.

U sljedećem članku:

Kako evoluira suradnja