Zbornik 'Raw Data' is an Oxymoron

Podaci su istisnuli knjige. Kako to izgleda u ekologiji, astronomiji, matematici, ekonomiji, filozofiji

Željko Ivanković / 16. kolovoza 2019. / Članci / čita se 10 minuta

Zašto se umnažanje broja podataka svemirskim brzinama predstavlja kao dostignuće? Zar se u razumijevanju svijeta nije stoljećima težilo redukciji na ono bitno: zemljopisna mapa u omjeru 1:1 je besmislena. Željko Ivanković predstavlja zbornik 'Raw Data' Is an Oxymoron koji analizira ograničenost oslonca na podatke u pojedinim disciplinama

Naslov zbornika „Raw Data“ Is an Oxymoron (MIT Press, 2013) ne obećava puno. Zaključak da su „sirovi podatci“ drveno željezo više-manje je trivijalan. I povod za knjigu je banalan – vrtoglava brzina umnožavanja podataka. Kad je zbornik objavljen, 2013. godine, a navodno se pripremao nekoliko godina, autorice Uvoda, urednica Lisa Gitelman i Virginia Jackson još se koriste pojmom petabyte (10 na 15 bajta) da izraze stopu tog prirasta; danas – prema rutinskoj provjeri na internetu u vrijeme pisanja ovog prikaza – i exabyte (10 na 18) jedva hvata korak. Iako malo kome razlike tih veličina nešto znače, osim proizvođačima uređaja za prijenos i skladištenje podataka, promjena sugerira da je i sam zbornik možda već zastario. Uostalom, da se poslužim drugom mjerom, objavljen je prije slučaja Cambridge Analytica, koji je javnosti prvi put zorno pokazao da se preciznim korištenjem tehnologije big data, obrade velikih količina podataka o korisnicima društvenih mreža, može utjecati čak i na razvoj takvih događaja kao što su referendum o Brexitu i izbor američkog predsjednika.

Ipak, riječ je o zborniku za preporučiti, njegov sadržaj i danas omogućava snažno zadovoljstvo čitanja. Prije svega, pitanje je zašto se uvećavanje broja podataka svemirskim brzinama predstavlja kao dostignuće? Zar se u razumijevanju svijeta nije stoljećima težilo redukciji na ono bitno: zemljopisna mapa u omjeru 1:1 je besmislena. Geoffrey C. Bowker u pogovoru donosi sugestivnu sliku prema kojoj se učestalost korištenja riječi mudrost u knjigama dostupnim na Googleu, a objavljenima od 1800 do 2000, vrlo vidljivo smanjuje, pojam znanje se još nekako drži, no riječi podatak (data) i informacija su buknule. Ako se mudrost među ostalim sastoji u svođenju na bitno, onda slika pokazuje promjenu odnosa prema svijetu, posredovanog informacijskom tehnologijom.

U pretposljednjem članku u zborniku David Ribes i Steven J. Jackson nastoje ukazati na kompleksnost infrastrukture prikupljanja, prijenosa, skladištenja, čuvanja i korištenja podataka, sve te satelite, senzore, kabele, servere koji omogućavaju spomenute nepojmljive količine. I ne uspijevaju drukčije nego koristeći se analogijama i slikama. Podsjećaju, na primjer, da bi jedna uzgojena vrsta američkog kukuruza za koju godinu u prirodi izumrla a da čovjek neprestano ne produžava njezin opstanak. Nije prirodna. Tako bi i „sirovi podatci“ iščeznuli bez ogromnog ljudskog napora i brige. Vinska se mušica, pišu, u laboratorijskim uvjetima razvila u vrstu koja količinom podataka zatrpava istraživače; pitanje je koliko oni govore o prirodi (iako nesumnjivo govore o svijetu u kojem živimo).

Ekologija

Dvojica autora su slijedili istraživače koji u području Baltimorea na 15 lokacija prikupljaju podatke o promjenama u okolišu. Uz ostale uređaje koji omogućavaju uzimanje primjeraka riječne vode za kemijsku i biološku analizu na lokacijama su mali metalni kontejneri koji služe za mjerenje količine padalina, u koje se djeca često imaju neodoljivu potrebu pomokriti; uz lokacije se zna izgraditi novi pogon, riječni kanali se pretvaraju u otpadne itd.  Prikupljeni podatci osjetljivi su na sve te utjecaje. Kad se uoči promjena nekog pokazatelja pitanje je je li signifikantna ili predstavlja privremenu aberaciju uzrokovanu neregularnim utjecajem. U nastojanju da svladaju teškoće znanstvenci rutine pretvaraju gotovo u ritual (novi filter između čovjeka i prirode). Jednostavno prikupljanje uzoraka vode postaje vrlo kompleksno.

Astronomija

Knjiga je nevelika, ni 200 stranica, ima uvod i osam poglavlja. Jedno opisuje teškoće u prikupljanju povijesnih podataka o totalnom pomračenju Sunca koji služe da se kompletira još nepotpuno znanje o kretanju Mjeseca. Čini se da od njih nema ništa sirovije, sastoje se od mjesta i vremena kad se pomrčina dogodila. No već stoljećima traju rasprave o opisima totalne pomrčine iz antičkih spisa. Za neke se slučajeve moguće totalne pomrčine može precizirati vrijeme, ali se polemizira o mjestu. Herodotova povijest se uobičajeno smatra pouzdanim i neutralnim tekstom. Opis jedne bitke sugerira da ju je zaustavila totalna pomrčina.  No postoji mogućnost da se radilo tek o djelomičnoj pomrčini, ili čak o velikom oblaku, ili se Herodot tek poslužio metaforom. U procjeni vjerodostojnosti podatka koristi se lingvistička i stilistička ekpertiza kad se autor koristio istim rječnikom i sl. Naoko egzaktni zaključci o kretanju Mjeseca ovise o znanstvenom konsenzusu tih rasprava.

Kontekst

Uz iskustva astronomije i ekologije zbornik analizira kontekst korištenja podataka u drugim znanostima, matematici, ekonomiji, filozofiji i društvenoj teoriji, ali i u političkom aktivizmu. Prva dva poglavlja, zajedno s uvodom, raspravljaju što su zapravo podatci, posebno njihove pretpostavljenim karakteristikama kao što su neutralnost, „nevinost“, objektivnost. Za razliku od činjenica čiji je kriterij istinitost (neistinite činjenice prestaju biti činjenice), podatci mogu biti dobri ili loši, prljavi ili čisti, dovoljni ili nedovoljni, cjeloviti ili nekompletni. Činjenica je načinjena, podatak nam je – dan.

Zgodan je primjer jedne računalne analize pojave i učestalosti pojma podatak (data, datum) u tekstovima u posljednjih pola milenija sične onoj s prethodne Googleove slike. Na rezultate je utjecao kronolog španjolskog Zlatnog doba Antonio de Herrera y Tordesillas u čijoj se povijesti Kastiljanaca u Americi (Zapadnoj Indiji) pojavljuje King Data, div koji je udebljao svojih dvadesetpetero djece hraneći ih magičnim biljkama. Koliko smisao podataka ovisi o kontekstu zorno pokazuje poglavlje o njihovu korištenju u političkoj propagandi. Oglasi kojima su vlasnici plantaža tražili svoje odbjegle robove, objavljivani u medijima početkom 19. stoljeća u Americi, kompilirani i objavljeni u knjizi bili su snažno sredstvo pokreta za ukidanje ropstva sredinom stoljeća, prije Građanskog rata. U oglasima su, naime, radi prepoznavanja i „potraživanja“ detaljno bili opisani ožiljci, prijelomi i druge tjelesne karakteristike koje su u kasnijem razdoblju svjedočili o njihovom – mučenju.

Pojam

Nema „nevinih“ podataka. Oni su uvijek prvo nekako selekcionirani, i dalje interpretirani. Zbornik nastoji pokazati da im karakter bitno određuje znanstvena i stručna disciplina u kojoj se prikupljaju, prenose, skladište, obrađuju. Kao pojam, podatci (data, datum) prvo se pojavljuju u matematici i teologiji. U matematici je podatak X=3, u teologiji je podatak ono što piše u svetim spisima, bilo da je to neka zapovijed, princip ili informacija. Dok činjenica ima ontološki karakter, ona govori o svijetu kakav jest, a „svjedočenje“ (evidence) dolazi iz područja epistemologije, inicijalna je uloga podatka retorička – podatak se koristi prije nekog argumenta. To „prije“ im je priskrbilo epitet „nevinosti“, uz što se, po nekom čudnom automatizmu vezala – objektivnost. Čak da se dakle i zanemari da nema nevinih podataka, pitanje je po čemu je navodna nevinost – objektivna. Tradicionalno, nevinost je prije označavala neznanje. Kad bi bili nevini, podatci bi bili prazni.

Objektivnost

Što se tiče ideje „objektivnosti“, drugo poglavlje analizira engleski udžbenik iz matematike inicijalno objavljen u prvoj polovici 16. stoljeća a koji je poslije doživio još desetke izdanja. Uobičajeno se matematika smatra objektivnom ako se njezina načela rigorozno primjenjuju. Je li međutim matematika za nas isto što je bila za čitatelje tog udžbenika iz 16. stoljeća, i je li pojam strogosti postupka isti? Prema Travisu D. Williamsu, koji je analizirao udžbenik, odgovori su negativni: priroda matematike nekog razdoblja neodvojiva je od primjene. Udžbenik sadrži zadatke s objašnjenjima dolaženja do rezultata koji su danas potpuno neadekvatni, čak nerazumljivi. Nije jasno kako se iz zadataka izvode generalizacije, kako se primjer pretvara u pravilo. Neki su zadatci riješeni prema pravilu koje se spominje tek u poglavljima nakon onih u kojima je naveden zadatak, a isto se pravilo naziva različitim imenima. Autori udžbenika, po svemu sudeći, nisu bili svjesni da su zlatno pravilo (golden rule), kako ga nazivaju, i pravilo trojno (rule of tree) – isto pravilo. U nekim je zadatcima manjak, u drugima tzv višak podataka. Možda su ispunjeni nekim „samorazumljivostima“ koje su se izgubile, što potvrđuje da nisu ni nevini ni objektivni. Povijest matematike otkriva o njoj više od same matematike.

Ekonomija

Podatci ne govore sve. Samo odgovaraju na neka pitanja koja im postavljamo, ili čak ni to. U poglavlju o ekonomici prikazuju se neki pomaci koje je na prijelazu  iz 19. u 20 stoljeće u tu znanost unio veliki ekonomist/matematičar Irving Fisher. Prije njega, američki su ekonomisti, prema riječima Williama J. Baumola, mahom iznosili „kategoričke tvrdnje zasnovane na osobnom uvjerenju“ (str 72). Ne sumnjam da će biti onih koji će zaključiti kako se običaj u Hrvatskoj zadržao do danas, što jest žalosna činjenica. Iako su druge znanstvene sredine prigrilile  Fisherova nastojanja, članak objavljen u ovom zborniku tek je dio obilne literature koja pokazuje da ni ona ne stoje na dovoljno čvrstim temeljima (zainteresiranog čitatelja upućujem na sjajan prilog Mary S. Morgan o Fisherovom modeliranju objavljen u zborniku Models as Mediators iz 1999, a koji su uredile Morgan i Margaret Morrison).

Irving Fisher

U svojoj je disertaciji Fisher koncipirao mehanički model ekonomije koji dakle pretpostavlja ekvilibrij s čije je jedne strane marginalna korisnost izražena u tzv. utilima, a s druge promjena cijena, uz niz drugih veličina (robe, potrošnja, „marginalna korisnost novca“ …). , Dakako utili su nešto potpuno nemjerljivo, te je podatke nemoguće prikupiti, a i marginalna korisnost novca može biti samo arbitrarno pretpostavljena. Pretpostavka o ekvilibriju je prema tome potpuno proizvoljna: ne postoji točka za koju se može pouzdano ustanoviti da je ekvilibrij (ili je to svaka točka, što je jednako beskorisno).

U sljedećem se koraku Fisher okrenuo dostupnim podatcima s  (financijskog) tržišta. Želio unaprijediti pojam kapitala, centralni ekonomski pojam, kojim je bio nezadovoljan jer je u dotad prikazivan statično (stock) dok se ekonomska aktivnost odvija u vremenu (flow). Definirao ga je kao ono što ima interest (i kod nas se nekoć govorilo interes, kamata, prinos) a pretpostavio je da na njegovu visinu utječu i očekivanja sudionika tržišta. Prihvatio se detaljne analize kretanja cijena niza financijskih proizvoda uz pročišćavanje podataka koji odudaraju (scrubbing data) i unošenje onih koji su po pretpostavci ispušteni.

Izgleda neracionalno negirati pretpostavku da očekivnja utječu na kretanja i da se zbog toga reflektiraju u podatcima. Financijski su analitičari prihvatili i usavršavaju Fisherov pristup, no veza očekivanja i podataka neizbježno ostaje subjektivno nagađanje. Uostalom, i izbačeni  podatci rezultat su očekivanja, samo ne onih koje istraživač i analitičar pretpostavljaju, traže i nastoje prepoznati. Zaključci što „tržišta očekuju“ barem djelomično utječu na očekivanja, ponovo pokreću i mijenjaju cijeli lanac do podataka i očekivanja. Podatci koji bi identificirali ekvilibrij su nemjerljivi, a dostupni tržišni podatci ne otkrivaju sve što utječe na kretanja. (Uostalom, tržište donekle i jest igra skrivača.)

Filozofija

Poglavlje o filozofiji i društvenoj teoriji raspravlja izgradnju sustava, započinje, dakako, s Hegelom, a fokusira se na Niklasa Luhmanna i njegov sustav referenci. Sam Luhmann u jednom je intervjuu izjavio da knjige (o kojima je načinio reference) nikad ne čita ponovo, nego u istraživanju pojedinog problema slijedi kuda ga upućuju reference. Autor poglavlja Markus Krajewski podsjeća na opasku Waltera Benjamina iz 1928. da je za „suvremenu znanstvenu metodu … knjiga arhaični posrednik između dva sustava indeksacije.“ Knjiga se dakle nalazi u jednom sustavu referenci, a upućuje na drugi sustav, u kojima se„nalazi sve što je važno“, zaključuje Benjamin, zacijelo ne bez ironije.

Niklas Luhmann i njegovi registri reerenci

Recentno uzmicanje knjiga i fokus na sustave podataka ima dakle duboke korijene. Krajewski sugerira da nije samo opasnost od prekida veza zbog nadirućeg Napoleona razlog što je Hegel svoj prvi sustav, razvijen u Fenomenologiji duha, izdavaču poslao hitno i  bez referenci. Knjige predstavljaju duži i razvijeni argument. Podatci su započeli kao retorička prethodnica argumentu no s vremenom istiskuju knjige, čime su skrivena njihova ograničenja.