Személyes adatok: aranybánya és vasketrec

Kategória: 2013. december
Írta: Viktor Mayer-Schonberger és Kenneth Cukier
Találatok: 3717

 Barátaink, gondolataink, levelezésünk és utazásaink: ma az emberi tevékenység nagy részéből számszerűsített adatokat állítanak elő. Gyűjtésük és kiértékelésük izgalmas elemzésekhez vezet, ami felkeltette az óriásvállalatok érdeklődését is. Ugyanakkor ennek az adattömegnek az előállítása veszélyessé válhat az egyén szabadságára, ahogy az USA mindenre kiterjedő kémprogramja is mutatja.

Alexandrie---La-bibliotheque--2-Az időszámításunk előtti III. században azt mondták az alexandriai könyvtárról, hogy ott halmozzák fel az emberiség összes tudását. Napjainkban, ha az összes hozzáférhető információt szét akarnánk osztani minden Föld-lakó között, mindenki a teljes alexandriai gyűjtemény háromszázhúsz szorosát kapná meg fejenként: összességében 1200 exabájt (a bájt milliárdszor millárdnyi mennyisége) adatról beszélhetünk. Ha mindezt cd-re másolnánk, ezeket egymásra rakva öt olyan oszlopot kapnánk, amely elérne a Földtől a Holdig.

Az adatok hiperinflációja viszonylag új jelenség. 2000-ben a világ írásba foglalt adatainak csak egynegyede volt elektronikus formátumban, a többit papíron, filmeken, analóg adathordozókon tárolták. A digitális adatok robbanásszerű növekedésével (mennyiségük minden három évben megduplázódik) ez a helyzet soha nem látott arányban változott meg. Az elektronikus adatok 2013-ban már az összes információ 98 százalékát tették ki. Az angolszászok ötlöttek ki egy kifejezést ennek a hatalmas mennyiségnek a leírására, amelynek gigantikus méretei már fenyegetik a kormányokat és az állampolgárokat is: „big data”, azaz az óriás adatmennyiség.

Ilyen hatalmas mennyiséget csak úgy tudunk felfogni, ha ösztönösen a számok felé fordulunk, de ez a módszer félrevezető lehet a jelenség valódi természetét illetően. Az elektronikus adatok félelmetes mennyisége abból a helyzetből ered, hogy a világnak és az emberi életnek egyre több olyan vonatkozását vagyunk képesek paraméterek közé szorítani, amelyet eddig sohasem írtunk le számadatokkal. Ezt a folyamatot nevezhetjük „adatosításnak” (datafication). Így például egy hely vagy egy személy pontos helyzetét először a hosszúsági és a szélességi fokok segítségével alakítottuk pontos adattá, ma pedig a szatellitek és a Global Positioning System (GPS) segítségével digitalizált adattömeget állítunk elő. A Facebook révén még a személyes vélemény, a baráti kapcsolatok, a „like-olások” is a digitális memóriába vésett adatokká váltak. Lényegében ez történik magukkal a szavakkal is, amióta az évszázadok során kialakult világirodalom is felkerült a digitalizált hálóra és a szavak mint információelemek külön is kereshetővé váltak.

 

Három jelentős módszertani változás

Az így létrehozott adatbázisok a lehető legmeglepőbb használati módokra is lehetőségeket adnak, amelyeket az egyre gazdagabb információs memóriák, az egyre hatékonyabb processzorok, az egyre kifinomultabb algoritmusok vagy éppen a statisztikai számadatok alapelveinek hatékony kezelése tesz lehetővé. Ma ahelyett, hogy megtanítanánk egy számítógépnek, hogy hogyan hajtson végre egy műveletet, például hogyan vezessen egy autót vagy fordítson le egy szöveget (ilyen célokon törte a fejét évtizedeken keresztül a mesterségesintelligencia-szakértők hada). A mostani megközelítés inkább az, hogyan lehetséges annyi információt a memóriába vinni, hogy képes legyen a valószínűség számítás alapján megmondani, mikor vált a közlekedési lámpa pirosra vagy zöldre vagy milyen szövegkörnyezetben fordítjuk az angol „light” szót „fénynek” és mikor „könnyűnek”.

Az ilyen felhasználás a megközelítési mód három nagy változását feltételezi. Az első, hogy minél nagyobb mennyiségű információt gyűjtsünk össze és használjunk ahelyett, hogy valamilyen szempontból válogatnánk közülük, ahogy a statisztikusok tették egy évszázadon át. A második újdonság, hogy bizonyos mértékig toleránsnak kell lennünk a rendezetlenséggel szemben: távolról sem azonos minőségű, megszámlálhatatlan mennyiségű adatot használni hasznosabbnak bizonyult, mint kis mennyiségű, ám nagyon pontos mintákat kiválasztani. A harmadik változás meg azt hozta magával, hogy gyakrabban kell lemondanunk arról, hogy jelenségek okait próbáljuk megérteni, inkább megelégszünk az összefüggések, a korreláció felismerésével. Nem azt igyekszünk pontosan megérteni például, miért nem működik többé egy gép, a kutatók azokat az információkat gyűjtik össze és vizsgálják, hogy a gép milyen helyzetekben, milyen gyakorisággal, milyen körülmények között romlik el. Ezzel képesek a „hogyanra” válaszolni s nem a „miérteket” keresik; ez igen gyakran elegendő is.

Ahogy az internet gyökeresen átalakította az emberek közötti kommunikációt, az is alapvetően változott meg, ahogyan a társadalom kezeli az információkat. Miközben ezeket az óriás adatmennyiségeket arra használjuk, hogy bizonyos tényeket megértsünk és döntéseket hozzunk, fokozatosan ráébredünk, hogy az életünk, a létezés maga inkább valószínűségek, mint bizonyosságok mentén alakul.

A digitális adatok felhasználása következtében bekövetkezett változás (mintavétel helyett teljességre törekvő adattömeg feldolgozása, illetve szabályok helyett a rendezetlenség módszereinek kialakítása) magyarázza az elmozdulást az okok keresése felől az összefüggések feltárásának irányába. Kevésbé érdeklődünk a világ folyásának mély okai iránt, inkább az össze nem tartozó jelenségek között feltételezhető kapcsolatokat akarjuk feltárni. A cél már nem a dolgok megértése, hanem a lehetséges legnagyobb hatékonyság.

 

Hatékony alkalmazás

Vegyük például a United Parcel Service-t (UPS), a világ legnagyobb szállítmányozási vállalatát. A cég receptorokat szerelt fel a már többször meghibásodott alkatrészekre. A receptorok a túlmelegedést és a vibrációt mérik, és előre jelzik a meghibásodás valószínűségét. A cél a hibás alkatrészek kicserélése még a műhelyben. Ez persze költséghatékonyabb megoldás, mint amikor az utakon kell a lerobbant autókat megjavítani vagy bevontatni. A mért adatok nem szólnak arról, hogy a hőmérséklet emelkedése és az adott alkatrész meghibásodása milyen ok-okozati kapcsolatban áll egymással, nem foglalkoznak a probléma forrásának diagnosztizálásával. Ezzel szemben információt szolgáltatnak a UPS-nek a megteendő intézkedésekről, hogy megelőzzék az igen költséges meghibásodásokat.

Ez a megközelítési mód könnyen alkalmazható az emberi szervezetre is. Kanadában a kutatók megtalálták a módszert a fertőzések lokalizálására a koraszülött csecsemőknél még a tünetek egyértelmű jelentkezése előtt. Egy másodpercenként több ezer adatot feldolgozó program – amely tizenhat indikátorral dolgozik, például a pulzus, a vérnyomás, a lélegzés vagy a vér oxigénszintje – révén meg tudják állapítani a korrelációt a felmerülő kicsi rendellenességek és a kialakuló nagyobb veszélyek között. Ezzel a technikával az orvosok rögtön a bajok kialakulásakor beavatkozhatnak, így életeket menthetnek meg. Bizonyos idő elteltével e megfigyelések összegzése segíthet abban is, hogy jobban megértsük a fertőzések okait. Amikor egy csecsemő életéről van szó, a legfontosabb mégis az, hogy idejében előre tudjuk jelezni, mi történhet, mint az, hogy megértsük, miért.

Az orvoslás területe illusztrálja a lehető legszemléletesebben, hogyan lehet az összefüggések feltárásával eredményeket elérni akkor is, ha a mélyen rejlő okok továbbra is homályban maradnak. A Google kutatói 2009-ben publikáltak egy cikket a Nature folyóiratban,[1] amely komoly szenzációt keltett orvosi körökben. A szerzők azt bizonyították be, hogy lehet az internet óriásának archívuma segítségével előre jelezni, melyek lesznek egy szezonális influenzajárvány várható földrajzi központjai. A Google adatbázisa csak az Egyesült Államok területén nem kevesebb mint egymilliárd keresést regisztrál naponta: minden egyes ilyen operációt szigorúan megőriz a memóriájában. A program kiválasztotta a keresőben leggyakrabban előforduló ötvenmillió kifejezést 2003 és 2008 között, s ezeket összevetette a Betegségmegelőző Központ (CDC) adataival. A cél az volt, hogy megállapítsák, létezik-e korreláció bizonyos keresőszavak gyakorisága és a vírus megjelenése között. Más szavakkal: megvizsgálni a lehetséges összefüggést a Google-ban lefolytatott bizonyos keresések és a CDC által regisztrált statisztikák között ugyanabban a földrajzi zónában. A CDC összegyűjti az egész ország területéről – többek között az influenzával kapcsolatos kórházi konzultációk – adatait, de mindezek összegzése, statisztikák készítése akár egy-két hetet is igénybe vehet; ez járvány esetén egy örökkévalóság. A Google ezzel szemben pillanatok alatt képes valós idejű statisztikai adatokat nyújtani.

A Google-nak nem volt elképzelése arról, mely keresőszavak lesznek a meghatározók. De egy megfelelő algoritmusnak alávetett egy sor keresőszót, illetve a vírus területi megjelenését, és megnézte, talál-e korrelációt. A rendszer ezután kiválasztotta a legmegfelelőbbnek tűnő keresőszavakat, hogy a lehető leghatékonyabb modellt hozza létre. Mintegy ötszázmillió operációs művelet után a Google-nak sikerült meghatározni negyvenöt keresőszót – „fejfájás”, „orrfolyás” stb. – amelyek ismétlődéseit összevetették a CDC statisztikáival. Minél gyakrabban fordultak elő adott területen ezek a szavak, annál gyakoribb volt ugyanazon a területen a vírus. A végeredmény magától értetődőnek tűnhet, de napi egymilliárdnyi keresés esetében lehetetlen más módszerekkel ilyen eredményhez jutni.

A Google gyűjtötte információk persze tökéletlenek, amennyiben nem csak az egészségügyi altruizmus céljából gyűjtik őket össze és hemzsegnek bennük az elütések vagy a félbe maradt kifejezések. De az adatbank kolosszális mérete nagyban ellensúlyozza az összevisszaságot. Végül is nem többet hoz felszínre, mint egyszerű összefüggéseket. Nem nyújt semmiféle információt arról, mi volt a keresőszót begépelő internet-felhasználó valódi célja a kereséssel. Például neki magának van-e láza vagy csak éppen valaki az arcába tüsszentett-e a metrón, esetleg a tévéhíradó egy összeállítása tette-e érzékennyé a témára. A Google mit sem tud erről, és nem is érdekli. Mellesleg nagyon úgy tűnik, hogy tavaly decemberben a Google rendszere erősen túlbecsülte az influenzás megbetegedések számát az Egyesült Államokban. Ezek az előjelzések csak valószínűségek, sohasem bizonyosságok, különösen akkor, ha maguk az előrejelzések is olyan gyakran változó, könnyen – elsősorban a médiák által – befolyásolható dologra épülnek, mint az internetes keresés. Mindenestre az tény marad, hogy az óriási adatmennyiségek képesek lehetnek azonosítani éppen megtörténő jelenségeket.

 

Az adatosítással megváltozik a felhasználhatóság

Számos specialista úgy gondolja, hogy az óriás adatbázisok használata a nyolcvanas évek digitális forradalmával indult, amikor a mikroprocesszorok és az elektronikus memóriák teljesítményének növekedése lehetővé tette az egyre hatalmasabb kiterjedésű adatmennyiségek tárolását és vizsgálatát. Ez azonban csak részben igaz. A technológiai fejlődés és az internet általánossá válása valóban hozzájárult az információk összegyűjtése, tárolása, kezelése és megosztása költségeinek csökkentéséhez. De ezek az óriási adathalmazok leginkább mégis az emberiség azon elnyomhatatlan vágyának a legújabb megjelenési formái, miszerint meg akarjuk érteni és számszerű összefüggésekkel ki akarjuk elemezni a minket körülvevő világot. Hogy megértsük ennek a legutóbbi korszaknak a valódi jelentését, nem árt a dolgokat más oldalról is szemügyre venni, vagy még inkább: betekinteni a részletekbe.

Sigeomi Kosimizu professzor a tokiói Ipari Technológia Intézetben, szakterülete pedig annak vizsgálata, milyen pozíciót vesznek fel az emberek ülő helyzetben. Ez egy kevéssé vizsgált tudományos terület, amely azonban igen érdekes eredményekkel kecsegtet. Amikor egy ember úgy ül, hogy a hátát valaminek nekitámasztja, a testtartása, testének alakja, a testsúlyának eloszlása számos kvantifikálható és analizálható információt tartalmaz. Autóülésre felszerelt receptorok segítségével Kosimizu és mérnöki csapata megmérte az adott egyén súlyának az ülésre gyakorolt nyomását egy 360 pontból álló hálózat révén, amelyben az egyes pontra jutó nyomást egy 0-tól 260 egységig terjedő skálával mértek. Az így meghatározott adatok az egyes emberek digitális kódját adták ki, amely minden egyes ember esetében más és más. A próbateszt azt is kimutatta, hogy a Kosimizu alkotta rendszer 98 százalékos biztonsággal képes azonosítani minden személyt.

Ezek a vizsgálatok kevésbé hóbortosak, mint amilyennek tűnnek. Kosimizu célja ugyanis felfedezésének ipari alkalmazása, például egy autólopások elleni rendszer létrehozatalával. Egy ilyen, az ülésre gyakorolt nyomást mérő receptorokkal felszerelt autó képes lehet arra, hogy felismerje az autó tulajdonosát, míg minden más vezetőtől jelszót kérhet a gépkocsi elindításához. A meghatározott fenékformát digitális adatokká alakító rendszer így felhasználható alkalmazássá, és valószínűleg igen jövedelmező felfedezéssé válhat. Használható másra is, mint a magántulajdon védelmére: például az alkalmazás révén kapcsolatot lehetne teremteni a vezető testhelyzete és a gépkocsi biztonságos vezetése vagy a vezetés közbeni gesztikuláció és a balesetek előfordulásának gyakorisága között. Ezek a receptorok arra is szolgálhatnak, hogy riasztást indítsanak be vagy lefékezzék a járművet, amikor a vezető mondjuk, elalszik a kormánynál.

Kosimizu tehát talált magának olyan területet, amelyet eddig még senki nem alakított át adatokká, sőt még csak nem is gondolt arra, hogy ez valamiféle hasznosítható információt hordozhat magában, hogy kvantifikálható, digitalizálható adatok formájába öntse. Az adatbázisba való konverzió azonban mást jelent, mint egyszerű digitalizálást, amely mindösszesen bizonyos analóg formában levő tartalmak – szövegek, filmek, fényképek – a számítógépek által olvasható egy-nulla formátumba, átalakítása bináris kódba. Az adatbázisba foglalás ennél bonyolultabb tevékenység, olyan dolgokat vonhat maga után, amelyre ma még nem is gondolunk: nemcsak dokumentumokról van szó, hanem arról, hogy életünk minden vonatkozását digitalizálhatóvá tegyük. A Google által gyártott szemüvegek – amelyeket kamerával, mikrofonnal szereltek fel és az internethez csatlakoznak – adatokká változtatják magát a látásunkat, a Twitter adatosítja a véleményünket, a Linkedln pedig a szakmai kapcsolatainkat.

Amint valamely dolog adattá válik, ez megváltoztatja a felhasználhatóságát, információt készít belőle, amely az érték új formájává válik. Az IBM például 2012-ben szabadalmat kapott az irodai biztonság növelése a padlózat informatikai technológiája révén elnevezésű találmányára: a tudatosan homályos elnevezés mögött végül is olyan rendszer áll, amely az iroda padlóját szereli fel receptorokkal, amelyek hasonlatosak egy smartphone (okostelefon) képernyőjéhez, ahol a lábunk mozgását érzékelik. Magának a padlózatnak adatokká alakítása példátlan perspektívákat rejt magában. Padlónk azonnal reagálhat jelenlétünkre, felkapcsolhatja a villanyt, amikor hazaérkezünk, azonosíthat egy látogatót a súlya vagy a járása alapján. Bekapcsolhatja a riasztást, ha valaki elesik és nem kell fel – ez az alkalmazás például nagyon is érdekelheti az idősebb felhasználókat. Vagy az üzletvezetők követhetnék a vásárlók tipikus útvonalát. Ahogy az összes emberi aktivitás regisztrálhatóvá és kihasználhatóvá válik, úgy tudunk meg egyre többet a világról. Olyasmikról szerzünk ismereteket, amikről, megfelelő és a méréseket pontosan elvégző eszközök híján, sohasem tudtunk volna.

 

Tűzveszély New Yorkban

Michael Boomberg a digitális iparban szerezte vagyonát, így nem meglepő, hogy amikor ő volt a polgármester, New York városa igen sok digitális eszközt használt fel, a közszolgáltatások optimalizálására és persze a költségcsökkentésre. A város tűzmegelőző stratégiája jó példa erre.

Az illegálisan sok apró helyiségekre felosztott és bérbe adott épületek tűzveszélyesebbek, mint a nagyobb helyiségek. New York városa évente 85 ezer feljelentést kap ilyen túlzsúfolt lakóépületekről, azonban mindösszesen kétszáz felügyelő vizsgálja ki ezeket. A polgármesteri hivatal létrehozott egy kis csoportot a probléma kezelésére. A probléma mértéke és a meglévő eszközök közötti ellentmondás feloldására olyan adatbankot alakítottak ki, amely tartalmazza a város kilencszázezer épületének adatait. Ezt kiegészítették 19 helyi önkormányzati iroda adataival: az adómentességben részesülők listája, a szolgáltatások szabálytalan használata, a víz- és áramkimaradások gyakorisága, a nem fizetett bérleti díjak, a mentők kihívásának gyakorisága, a bűnözés mértéke, vannak-e rágcsálók az épületben stb. Az elemzők ezután megpróbáltak összefüggést kimutatni ezen információáradat elemei és a városi tűzesetek gyakorisága között az utóbbi ötven évben. Nem volt nagy meglepetés, hogy az épület típusa és építési éve komoly szerepet játszik a tűzesetekben. Ennél váratlanabb volt azonban az az összefüggés, hogy a homlokzat felújítására nemrégiben engedélyt kapott épületekben kisebb a tűzesetek valószínűsége.

Az adatok összevetésével a városi közigazgatásban dolgozó csapat felvázolhatott egy olyan elemekből álló sémát, amikor a túlzsúfoltság feljelentése esetén különösen oda kell figyelni. Önmagában egyik jellemző sem konkrét oka a tűzeseteknek, azonban ha egymás mellé állítjuk őket, egyértelműen jelzik a fokozottabb veszélyt. E felfedés nyomán a New York-i felügyelők nagyban megkönnyebbültek: a múltban a helyszíni szemlék mindössze 13 százaléka után rendelték el az épület kiürítését, az új módszerrel viszont hatékonyabbá váltak a helyszínelések, már 70 százalékuk kiürítéssel jár.

 

Politika és magánélet

Az adatok óriási mennyisége segítségével demokratizálni és átláthatóbbá lehetne tenni a politikai közéletet is. Jelentős mozgalom jött létre, amely követeli a közérdekű adatok megnyitását a széles nyilvánosság előtt (open data). Ez túllép az információs szabadság egyszerű védelmén. Itt már arról van szó, hogy nyomást gyakoroljanak a kormányokra, tegyék elérhetővé az általuk összegyűjtött irgalmatlan mennyiségű adatrengeteget – mármint legalább azokat, amelyek nem képeznek államtitkot. Az Egyesült Államok jár élen ezen a területen azzal, hogy az interneten közzétette a központi kormányzat archívumát (megtisztítva az esetleges érzékeny részeitől) a Data-gov honlapon. Más országok is követni fogják a példáját.

Ahogy az államok elősegítik az adatbázisaik használatát, úgy került felszínre egy új probléma: az állampolgárok védelme bizonyos piaci szereplők túlsúlyától. Az olyan vállalatok, mint a Google, az Amazon vagy a Facebook (hozzá kell tennünk olyan diszkrétebb, de nem kevésbé félelmetes cégeket, mint az „adatokkal kereskedő” Acxiom vagy Experian) napról napra gyűjtenek össze elképesztő mennyiségű információt mindenkiről és mindenről. Léteznek már olyan törvények, amelyek megtiltják a monopóliumok kialakulását bizonyos iparágakban vagy szolgáltatási területeken: szoftverek, médiák stb. Ezek a szabályozások olyan szektorokban működnek, amelyeket viszonylag könnyű határok közé szorítani. De hogyan alkalmazzuk a monopólium-ellenes törvényeket nehezen megfogható és igen változékony piacon? Mindez veszélyezteti az egyéni szabadságot. Annál is inkább, mert minél több adatot gyűjtenek össze, annál valószínűbb lesz, hogy a felhasználásukhoz nem kérik az érintett személyek beleegyezését. Ezt a gondot egyelőre a törvényhozók és az új technológiák cégei nem képesek még végiggondolni sem, nemhogy megoldani.

Ennek a piacnak valamilyen formájú szabályozása kemény érdekkonfliktushoz vezethet nemzetközi szintéren is. Az európai kormányok számadásra próbálták kényszeríteni a Google-t, amelynek pozíciója és a felhasználók magánéletére fittyet hányó politikája komoly aggodalmakat okozott. A Microsoft pedig mintegy tíz éve váltotta ki az Európai Bizottság haragját. A Facebook is könnyen jó néhány ország jogrendszerének célkeresztjében találhatja magát, elsősorban a felhasználóiról felhalmozódott, csillagászati mennyiségű adat miatt. Az a kérdés, hogy az információk áramlása a szabadkereskedelmi megállapodások joghatálya alá tartozik-e, kemény vitákat fog okozni a diplomaták között. Ha Kína továbbra is ragaszkodik ahhoz, hogy bizonyos kereséseket cenzúrázzon az interneten, az is elképzelhető, hogy egy nap a nemzetközi jog megsértésével fogják vádolni, ám nem azért vagy nem elsősorban azért, mert megsértette a szabad véleménynyilvánításhoz való jogot, hanem mert akadályokat állít a szabadkereskedelem elé.

Miközben arra várunk, hogy az államok végre az egyéni szabadságjogokat védelemre méltó javaknak kezeljék, az adatokkal dolgozó tömegipar a legnagyobb nyugalommal aktualizálta újra a Big Brother alakját. A világsajtó 2013 júniusában számolt be arról, hogy Edward Snowden nyilvánosságra hozta alkalmazója megfigyelési gyakorlatát: a National Security Agency (NSA), a legfontosabb amerikai hírszerzési hivatal tevékenységét. A telekommunikációs eszközökön kívül érintettek voltak az internetes keresések, a Facebook-üzenetek, a Skype-beszélgetések stb. is. Az amerikai hatóságok megmagyarázták, hogy ezek az adatokat az igazságszolgáltatás engedélyével gyűjtötték és csak a „gyanús” személyeket érintettek. De minthogy az NSA minden tevékenysége titkos, senki sincs abban a helyzetben, hogy ennek igazságáról meggyőződjön.

A Snowden-ügy mindenestre rámutatott az államok szerepére az adatkezelésben. A digitális adatok összegyűjtői és felhasználói valójában a totalitarizmus új formáját gyakorolják, amely nem is áll olyan távol a sci-fi-írók legsötétebb fantáziájától. A Philip K. Dick novellájából készült, Minority Report című film (2002) olyan ellenutópiát megvalósító új világot ábrázol, ahol a megelőzés vallása uralkodik. A Tom Cruise által játszott főszereplő egy speciális rendőrségi csoport vezetője. Azelőtt kell elfogniuk a bűnelkövetőt, mikor egyáltalán elkövette volna a szóban forgó bűncselekményt. Ahhoz, hogy tudják hol, mikor és hogyan kell beavatkozniuk, a rendőrök különleges lények segítségével dolgoznak, akik állítólag tévedhetetlen jósok és jövőbelátók. A film cselekménye ilyen rendszer működési zavarait beszéli el, és azt emeli ki, hogy a megelőző rendszer megkérdőjelezi és tagadja a szabad akarat elvét.[2]

 

A szikra nem a szoftverekből fog kipattanni

Leleplezni a bűnösöket, akik még nem is követtek el semmit: már maga az ötlet is őrültségnek tűnik. Ezt azonban a hatalom legmagasabb köreiben már komolyan gondolják, éppen az óriási mennyiségben gyűjtött adatoknak köszönhetően. A 2007-ben létrehozott, belső biztonsággal foglalkozó államtitkárság (a 2003-ban George W. Bush által létrehozott „antiterrorizmussal” foglalkozó minisztérium újabb változata) által kidolgozott kutatási terv célja a „potenciális terroristák” azonosítása volt, akik ma még esetleg ártatlanok, de holnap minden bizonnyal bűnösök lesznek. A „jövőbéli jellemzőket kiszűrő technológiának” (Future Attribute Screening Technology) elkeresztelt program analizálja a vizsgált személy viselkedésének különböző jellemzőit: testbeszédét, pszichológiai karakterjegyeit stb. Napjaink mágusai már nem kávézaccból, hanem adatbázisok szoftvereiből jósolnak.[3] Számos nagyvárosban – Los Angelesben, Memphisben, Richmondban vagy Santa Cruzban stb. – a rendfenntartó erők „megelőző biztonságra” épülő szoftvereket használnak, amelyekkel a már megtörtént bűncselekmények adataiból kiindulva megjósolhatják, hol és mikor fognak megtörténni a következő bűncselekmények. Ma még nem tartunk ott, hogy ezek révén a gyanús személyeket is előre meg lehessen határozni. De nem lenne különösebben meglepő, ha előbb-utóbb erre is sor kerülne.

Persze már megtörtént az is, hogy az amerikai vezetők utólag csikorgatták a fogukat, hogy túlzottan bíztak a tévedhetetlennek tartott számadatokban. Robert McNamara, aki védelmi miniszter volt John Kennedy elnöksége idején, statisztikákra hivatkozva állította, hogy az amerikai csapatok helyzete Vietnamban egyre kedvezőbb. Szakértői csapata táblázatokat készített a megölt ellenség számának emelkedő adataiból. Ezeket aztán – fegyelmezésül és biztatás gyanánt – a harcoló csapatok vezetőinek éppúgy elküldték, mint ahogy mindennap publikáltatták az újságokban is: a megölt vietkongok száma a stratégia legfontosabb eleme és egy korszak szimbóluma lett. A háború híveinek mindez azt jelentette, hogy közeli a győzelem. A háborút ellenzőket viszont arról győzte meg, mekkora gyalázat maga a háború. Az adatok persze igen gyakran tévesnek bizonyultak, és mind kevesebb közük volt a harctéri valósághoz. A tanulság az lehet, hogy örüljünk annak, ha az adatok elemzése hozzájárul az életviszonyok javulásához, de mindig a józan eszünkre hallgassunk…

Mert a jövőben az adatbankok szerepe, akár a legrosszabb, akár a legjobb értelemben, döntő lesz, részük lesz az egész bolygónkat érintő problémák kezelésében. A globális felmelegedés elleni harc például a környezetszennyezés jelenségéről a lehető legtöbb információ egybegyűjtését igényli, hogy lokalizálni tudjuk a legsürgősebb beavatkozást igénylő területeket. Az egész bolygón receptorokat kell majd telepíteni – akár felhasználva milliónyi okostelefont –, amelyek segítségével a klimatológusok megbízhatóbb és pontosabb modellek alapján dolgozhatnak.

Felmerül a kérdés, hogy abban a világban, ahol az adattömegek egyre közelebbről befolyásolják a vezetők döntéseit és gyakorlati cselekvését, marad-e még hely az élőnek, a digitális rendszer diktatúrájával szembeni ellenállóknak vagy azoknak, akik egyszerűen szeretnek az ár ellen úszni. Ha a műszaki eszközök kultusza mindenkinek kötelező lesz, nem lehetetlen, hogy éppen ennek ellenhatásként az emberiség újra felfedezi az előrejelezhetetlenség báját: az ösztönöst, a kockázatvállalást, a véletlent, sőt akár a hibát is. Megtörténhet még, hogy egy nap az emberiség fennmaradásához szükségessé válik, hogy az intuíció, a megérzés, a szándékos logikátlanság, az élet váratlanságai és minden más, ami az emberi nem lényegét jelenti, hadat üzenjenek a számítógépek kalkulációinak.

Megmarad-e a fejlődésbe vetett hit? Az adattömegek felhasználása új feladatok megoldását teszi lehetővé. Teljesen új fázisba léphet a megismerés és a kísérletezés, de mint az óriásmennyiségű adatok megjelenése előtt is, a felfedezésre, a teljesen új dolgok megjelenésére nem találunk majd választ az adatbázisokban. A szikra nem a szoftverekből fog kipattanni. Ha például Henry Ford informatikai algoritmusokat használhatott volna, hogy megtudja a korabeli fogyasztók elvárásait, bizony könnyen lehet, hogy ezt a választ kapta volna: „Az emberek gyorsabb lovakat szeretnének.”

 

Részlet a két szerző Big Data: A Revolution That Will Transform How Will Life, Work and Think (Az óriás adathalmaz: a forradalom, amely megváltoztatja az életet, a munkát és a gondolkodást) című könyvéből (Houghton Mifflin Harcourt, New York, 2013). A cikket a Houghton Mifflin Publishing Company szíves engedélyével közöljük (minden jog fenntartva).

Fordította: Balázs Gábor



[1] Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski és Larry Brilliant: Detecting influenza epidemics using search engine query data [Az influenzajárvány felderítése keresőmotor adatainak felhasználásával], Nature, n. 457, London, 2009. február 19.

[2] A szabad akarat filozófiájának rövid ismertetését lásd: http://hu.wikipedia.org/wiki/Szabad_akarat

[3] L. Pablo Jensen: Simulation numérique des conflits sociaux [Társadalmi konfliktusok digitális szimulációja], Le Monde diplomatique, 2013. április.