Baggrund

Rejs med ind i datadybet

Supermarkeder kan forudsige, at din datter er gravid, før familien ved det. Google ved, hvornår du bliver syg – før alle andre. Anonyme ratings hos filmudbydere afslører dit politiske ståsted. Data kan skade dig, data kan lyve, data indhenter dig. Rejs med ind i datadybet i denne longread.

Du er logget ind

Din profil kan bruges på berlingske.dk, business.dk og bt.dk, der alle er en del af Berlingske Media. Du kan altid logge ud eller opdatere dine oplysninger ved at klikke på dit profilnavn.

Lis Emma Kjærgaard fik i oktober 2013 at vide, at hun havde tarmkræft.

Hun måtte selv hente beskeden i postkassen.

I et brev med bl.a. Sundhedsstyrelsens logo i brevhovedet stod der, at hun var udtaget til at besvare et spørgeskema for at »kortlægge udredningen for kræftpatienter i Danmark.« Lis Emma Kjærgaard var blandt de udvalgte, fordi hun havde »fået konstateret tarmkræft«, stod der i brevet.

69-årige Lis Emma Kjærgaard bor på Smyrnavej på Amager i samme andelsejendom som sine to børn, tre børnebørn og ét oldebarn. Hun blev født i denne ejendom, voksede op i denne ejendom og har altid boet her. Også mens hun i 32 år gjorde rent på Sundbyøster Skole på Amager, indtil hun lod sig pensionere.

Kræft rev for otte år siden Lis Emma Kjærgaard og hendes mand fra hinanden. Sygdommen fik tag i ægtemandens ryg. Parret havde kun seks uger sammen, fra sygdommen blev konstateret, til han døde.

69-årige Lis Emma Kjærgaard fik i oktober 2013 at vide, at hun havde tarmkræft ved data-fejl. »Jeg gik jeg ud fra, at oplysninger om mit helbred – mit helbred – var dybt fortrolige.«
69-årige Lis Emma Kjærgaard fik i oktober 2013 at vide, at hun havde tarmkræft ved data-fejl. »Jeg gik jeg ud fra, at oplysninger om mit helbred – mit helbred – var dybt fortrolige.«

 

»Så jeg er bange for kræft,« siger Lis Emma Kjærgaard.

I efteråret 2013 havde sygdommen ifølge brevet tilsyneladende også fat i hende.

Der er bare ét aber dabei ved den fortælling. Lis Emma Kjærgaard havde ikke kræft.

Opkast, maveonde og svimmelhed havde sommeren 2013 ganske vist sendt hende på Hvidovre Hospital og Amager Hospital. Men undersøgelserne konkluderede: Hun var rask og frisk.

Lis Emma Kjærgaards praktiserende læge, Klaus Ruhnau, forklarer, at fejlen i brevet med al sandsynlighed skyldes flere forhold: Der bliver indsamlet kolossale mængder data om danskerne. Der bliver udvekslet store mængder. Og der sker fejl. Hver gang Klaus Ruhnau f.eks. anfører en diagnose om en patient, bliver oplysningen automatisk lagret i flere databaser, tilføjer han.

»Vores data er ikke sikre mere. Dataindsamlingen er blevet markant mere problematisk på det seneste, og jeg forstår ikke, at vi som samfund tillader det. Selv vi læger ved ikke længere, hvad der foregår,« siger Klaus Ruhnau.

Lis Emma Kjærgaard er et eksempel på flere ting.

Datahøst, datalagring, dataudveksling, datafejl.

Data er flertalsformen for datum, og lidt forenklet kan man forklare data som tegn og udtryk, der dækker over værdier, informationer og oplysninger. Data tager ofte afsæt i målinger og resultater og bliver normalt anført som tal eller bogstaver i kolonner og grafer.

Data hjælper os hver dag. Vi bruger data til at forudsige vejret, til at styre trafikken, til at effektivisere vores arbejde, til at lagre viden, til at undgå terror, til at forberede os på naturkatastrofer, til at bekæmpe kriminalitet og – som i Lis Emma Kjærgaards tilfælde - til sundhedsforskning.

Men dataindsamlingen udløser også nye problemer. Hvem ejer hvilke data? Hvor mange data vil vi tillade, at vi indsamler om hinanden? Hvornår skal man give samtykke til, at private data bliver udvekslet? Og hvad nu - som med Lis Emma Kjærgaard - hvis ens data er udvekslet bag om ryggen på en og endda er forkerte?

Ejer vi selv vores data, eller er vores data ved at overtage og eje os?

11. sept. 2001. De knuste tvillingetårne i New York fik myndighedernes lagring af data til at accelerere enormt. Det måtte aldrig ske igen, lød kravet til den amerikanske efterretningstjeneste, samtidig med at verdens befolkning inkorporerede e-mail, SMS og internet i deres hverdag og dermod efterlod et hav af dataspor til gavn for myndighederne.
11. sept. 2001. De knuste tvillingetårne i New York fik myndighedernes lagring af data til at accelerere enormt. Det måtte aldrig ske igen, lød kravet til den amerikanske efterretningstjeneste, samtidig med at verdens befolkning inkorporerede e-mail, SMS og internet i deres hverdag og dermod efterlod et hav af dataspor til gavn for myndighederne.

Data sætter spor over alt

Vi lever midt i dataenes guldalder, som eksperterne udtrykker det. Aldrig før har vi efterladt så mange elektroniske aftryk. Når vi handler, efterlader vores dankort spor. Når vi flyver eller kører på rejsekort, efterlader vi aftryk. Når vi går til lægen, bliver det registreret. Når vi taler i telefon, udløser vi elektroniske spor. Og data bliver gemt.

Især mobil og internet har mangedoblet de elektroniske spor. Vi sætter dataspor, når vi surfer på internettet, når vi hopper på et wifi, når vi sender en sms, når vi tænder en løbeapp, quizzer eller tager et billede med mobilen.

Spørger man dataeksperter til skelsættende episoder for historien om dataindsamling, henviser stort set alle til to centrale episoder. For det første terrorangrebet mod USA i 2001, for det andet de lækkede dokumenter fra whistleblower Edward Snowden om de amerikanske og britiske efterretningstjenesters dataindsamling.

De smadrede tvillingetårne i New York fik myndighedernes lagring til at accelerere til det enorme. Aldrig igen måtte det ske, lød opdraget til den amerikanske efterretningstjeneste, samtidig med at verdens befolkning var i fuld gang med at inkorporere e-mail, SMS og internet i deres hverdag og således efterlade en myriade af elektroniske pletter til gavn for spiontjenesterne.

Snowdens dokumenter bekræftede overvågningskritikernes værste anelser: Alt hvad der kan indsamles af data fra mobil og internet, bliver indsamlet.

I lande som Tyskland og Frankrig har afsløringerne af amerikansk aflytning og overvågning affødt heftig debat. Det fik angiveligt også direkte indflydelse på, at Brasilien købte 36 nye svenske kampfly frem for amerikanske, og aflytning af kansler Angela Merkels mobil udløste diplomatisk armlægning og armvridning på højeste niveau. Amerikanerne selv er i gang med at begrænse efterretningstjenesten National Security Agencys (NSA) datalagring, omend det er højst uklart, hvor stor betydning reformerne reelt får.

I Danmark har datadebatten aldrig fået samme fart. Lige meget hvordan spørgsmålene er blevet formuleret, har regeringen gentaget, at den ikke har kendskab til ulovlig overvågning i Danmark. Det var - i store træk - dén diskussion på Christiansborg, hvilket efterlader en række ubesvarede spørgsmål og usikkerheder i datadebatten. Jurakyndige og it-eksperter er først og fremmest enige om, at reglerne for dataindsamling og opbevaring trænger til at blive fornyet. Men afsættet er usikkert. Vi ved ikke, hvor meget efterretningstjenester, myndigheder, virksomheder eller sociale tjenester logger om os. Vi kender ikke det præcise omfang af, hvor mange af vores personlige data, der bliver udvekslet mellem myndigheder og firmaer. Vi ved ikke, hvor mange oplysninger Danmark udveksler med andre lande - og efter hvilke aftaler.

»Vi står foran en skillevej om den enkelte borgers data,« siger overvågningsforsker Peter Lauritsen, lektor i informationsvidenskab ved Aarhus Universitet.

»Hvilke data må indsamles? Hvem ejer dem? Må man tjene penge på dem? Debatten om data i Danmark har været præget af, at de meget overvågningskritiske - dem, vi kalder sølvpapirshattene - på den ene side har fået næsten frit spil til at fortælle om alt det frygtelige ved dataindsamling, mens regeringen på den anden side konsekvent har lukket debatten ved at gentage samme sætning. Det har medført en meget polariseret debat. Vi savner at diskutere alt det imellem de to modpoler. For det er en svær, men væsentlig debat: Må forældre installere en app på børnenes mobil, så de kan holde øje med dem? Må staten indsamle data om mig og udveksle dem med andre lande, hvis det er for flertallets bedste? Dybest set handler debatten om, hvilket samfund vi ønsker. Om stat over for individ,« siger Peter Lauritsen.

I 2013 blev der ifølge Teleindustrien foretaget omtrent 3.500.000.000.000 (der står 3,5 billioner) registreringer om danskernes brug af mobil og internet hos teleselskaberne - en firedobling i forhold til året forinden. Hver dansker bliver således registreret 625.000 gange om året. Alene hos teleselskaberne.

Samtidig har vi omfavnet tjenester som Google, Yahoo, Facebook, Twitter, Instagram, iTunes, Linkedin, som alle indsamler i dølgsmål og lagrer i hobetal. Vi er vilde med tjenesterne. Men set fra et andet perspektiv: Børn, som vokser op i dag, har ikke udsigt til et privatliv.

Interessen for dine personlige data er massiv. Skat vil gerne vide, om du snyder. Forsikringsselskaber og banker vil gerne vide, om du er en profitabel kunde. Supermarkederne vil have dig. Og øge dit forbrug. Sundhedssektoren vil gerne - som i Lis Emma Kjærgaards tilfælde - kende dit behandlingsforløb. Medicinalindustrien vi gerne øge sit salg. Medierne er i gang med at kortlægge kunderne. Genvejen er data.

Jo mere man ved om dig, jo nemmere er du at indkapsle. Sociale tjenester på internettet er i fuld gang med at kortlægge befolkningerne, og der er enorme summer på spil. Facebooks markedsværdi ligger på omtrent 793 milliarder kroner, Googles på knap 1.9 billioner kroner.

Det er kun i mindre grad, fordi Facebook er et smart sted at møde gamle klassekammerater, og fordi Google er en effektiv søgemaskine. Facebook og Google har arme direkte ud til forbrugerne. Og de kender dig. Dine interesser, dine venner, dine rejser, dine behov.

Og tjenesterne ved ikke bare alt om dig, nogle gange mere end du selv gør, datafangsten er en vare. Handlen er i gang.

Data udløser millioner

Analytikere i USA har for avisen Financial Times afsløret, at de 20 mest populære apps til mobiltelefonen videresender oplysninger om brugeren til omtrent 70 virksomheder. Forsikringsselskaber, som har stor gavn af folks sundhedsprofil, tappede f.eks. sundhedsoplysninger fra løbeapps på mobilen.

Ucas - Universities and Colleges Admissions Service - kontrollerer optagelsen til alle britiske universiteter. Ifølge den britiske avis Guardian tjente Ucas i 2013 omkring 116 mio. kroner på at sende målrettede reklamer til studerende og kommende studerende ned til 16 års alderen. Via sin kommercielle arm, Ucas Media, er der direkte hul til flere millioner studerende, og energidrikken Red Bull benyttede den kanal til at sende tre nye produkter til 17.500 udvalgte unge, der skulle fungere som trendsættere.

Virksomheder og annoncører kan anvende data til at ramme målgruppen, helt præcist.

Adskillige gange er det kommet frem, hvad data, der krydses med andre data, er i stand til.

For nogle år siden vandrede en oprevet far ind i Targets lavprisvarehus ved Minneapolis, USA, og forlangte at tale med butikschefen. Med en årlig omsætning på ca. 410 milliarder kroner er Target blandt de største discountkæder i USA, og faderen ville vide, hvorfor dette varehus havde sendt hans teenagedatter reklamer og rabatkuponer til babytøj, tremmeseng og barselstøj.

»Forsøger I at opfordre hende til at blive gravid,« spurgte den indignerede far ifølge den amerikanske avis New York Times, som har dækket forløbet.

Butikschefen bladrede ifølge avisen overrasket i det tilsendte materiale. Nogle dage senere ringede han til faderen for at sige undskyld. I stedet undskyldte faderen. Han havde nu talt med sin datter, og det viste sig, at hun faktisk var gravid. Supermarkedet vidste det bare før familien.

Det var ikke tilfældigt.

Dokumenter fra whistlebloweren Edward Snowden, der havde arbejdet for den amerikanske efterretningstjeneste NSA (billedet), bekræftede overvågningskritikernes værste anelser: Alt, hvad der kan indsamles af data fra mobil og internet, bliver indsamlet.
Dokumenter fra whistlebloweren Edward Snowden, der havde arbejdet for den amerikanske efterretningstjeneste NSA (billedet), bekræftede overvågningskritikernes værste anelser: Alt, hvad der kan indsamles af data fra mobil og internet, bliver indsamlet.

Target havde med grundige analyser af kundernes indkøbsdata forsøgt at rette deres kampagner mod gravide kvinder. Helst tidligt i graviditeten. Kunders indkøbsvaner er mest påvirkelige under opbrud og forandring; en ny uddannelse, et bryllup, når man flytter, skifter job, bliver skilt og over dem alle: Når man bliver forældre. Det vidste Targets statistikere. Kunne varehuset blot få kommende forældre til at købe barsels- og børneudstyr hos Target, ville man relativt nemt kunne få dem til at købe flere varer. Som andre supermarkeder indsamlede Target systematisk data om sine kunder. Man knyttede et kunde-id til hver enkelt, registrerede alle køb med kreditkort, brug af rabatkuponer, svar på spørgeskemaer, henvendelser til kundeservice, tilbud via e-mail og besøg på Targets hjemmeside. Herefter krydsede analytikerne datasættene og målrettede deres annoncer efter resultatet. Når en kunde købte badetøj i april, fik kunden automatisk tilbud om solcreme i juli. Men Targets matematikere regnede videre. Med en finmasket analyse identificerede tal-akrobaterne 25 produkter, som indikerede graviditet: pludselig overgang til shampoo uden parfume, mere vat, mere kalcium, mere magnesium og zink. Alene ud fra kundernes data kunne Target ramme dagen for fødslen relativt præcist. Derfor kendte Target graviditeten på en teenagepige fra Minneapolis før familien selv.

»Du kan udlede langt mere af datasæt, end de fleste tror,« siger Jakob Illeborg Pagter, forsknings- og innovationschef ved Alexandra Instituttet, som leverer it-løsninger til offentlige og private virksomheder.

»Der er mange gode ting ved data, men den almene dansker forstår ikke konsekvenserne af den enorme dataindsamling, der finder sted lige nu. Alt, hvad du foretager dig på internettet, kan du komme til at stå til regnskab for om mange år. Vi ligger inde med data, så man stort set kan placere, hvor hver enkelt har været på hvilket tidspunkt. Vi indsamler enorme mængder data, og indirekte handler alle de oplysninger om os selv,« siger Jakob Illeborg Pagter.

Nogle har måske oplevet, at når de har søgt efter »sko« på Google, dukker der kort tid efter reklamer og tilbud på sko op i browseren. Eller på Facebook-siden.

Data sladrer

Servicen Google Flu Trends giver også et kig ind i, hvad data kan. Alene ud fra folks søgninger i Google kan Google forudsige, hvor den næste influenzaepidemi rammer. Når tilstrækkeligt mange i det samme område har søgt på ”feber influenza”, ”ondt i halsen” og ”influenza læge”, registrerer Google et influenzaudbrud. Ved at knytte søgninger til ip-adresser kan Google anslå placeringen og sammenholde med søgninger i andre dele af verden, så man kan se, hvilken vej en epidemi bevæger sig. Googles analyser går betydeligt hurtigere end sundhedsmyndighedernes, som først skal have rapporteringer fra læger og sygehuse. En undersøgelse har indikeret, at Google er i stand til at forudse en influenzaepidemi 10 dage før myndighederne. Google ved, at du bliver syg, før du oplever de første symptomer.

Den engelske nationalbank anvender også Google-søgninger til at forudsige konjunkturer og forbrugerforventning. Folk søger langt mere efter biler, rejser, hårde hvidevarer og minkpelse, når der er optimisme i samfundet.

»Vi får svarene hurtigere end myndighederne, og vores svar er ufiltrerede, fordi brugernes søgninger meget sjældent lyver, som man ser det i f.eks. meningsmålinger,« siger Martin Ruby, politisk ansvarlig for Google Danmark.

Servicen Google Flu Trends giver dig kig ind i, hvad data kan. Alene ud fra folks søgninger i Google kan Google forudsige, hvor den næste influenzaepidemi rammer. Når tilstrækkeligt mange i det samme område har søgt på »feber influenza«, »ondt i halsen« og »influenza læge«, registrerer Google et influenza udbrud.
Servicen Google Flu Trends giver dig kig ind i, hvad data kan. Alene ud fra folks søgninger i Google kan Google forudsige, hvor den næste influenzaepidemi rammer. Når tilstrækkeligt mange i det samme område har søgt på »feber influenza«, »ondt i halsen« og »influenza læge«, registrerer Google et influenza udbrud.

Om kort tid lancerer Google sine nye briller.

Martin Ruby har prøvet at cykle med Google-brillerne på. For ham var det en tankevækkende oplevelse at cykle, mens han havde en videosamtale, hvor han kunne se, hvad en kollega lavede på kontoret, samtidig med at han kunne kalde et kort med vejviser op på brillernes skærm. Brillerne kan også sms’e, tage billeder, gå på nettet, hente nyhedsfeeds og spille spil.

I Europa lagrer Google sine data om befolkningerne i datacentre i Finland, Irland og Belgien.

»Datamængderne vokser helt sindssygt, fordi vi hele tiden øger forbruget af teknologi. Der bliver uploadet omtrent 100 timers video på Youtube hvert minut. Brillerne vil lægge yderligere data til. Vi er lige nu i gang med at udbygge vores datacentre, kan jeg godt røbe,« siger Martin Ruby.

I den første generation af Google-brillerne er det ikke indbygget, men dataeksperter har forklaret, at brillerne vil betyde, at man kan træde ind på et diskotek eller restaurant, scanne alle de tilstedeværende og kalde oplysninger ned i brillen om hver enkelt.

Data kan forme hele byer

»Og jeg tror, at brug af intelligente sensorer, som vi kan styre fra mobilen, nærmest vil betyde en revolution. Vi kan komme til at bygge hele byer og designe transportsystemer efter folks data. Data fortæller, hvor folk bevæger sig hen, og hvor de vil bo,« forudser Martin Ruby.

Hos Facebook og Google ser handlen med brugeren således ud: Du får gratis adgang til dine gamle klassekammerater, du får gratis adgang til verdens mest brugte søgemaskine. Til gengæld betaler vi med hvert klik og hver oplysning om os selv. Brugeren er produktet.

Martin Ruby understreger, at Google ikke sælger folks oplysninger til nogen, men alene lader annoncører betale for reklamer, som Googles avancerede formler målretter de helt rigtige.

»Vi kortlægger ikke alle mennesker. Vi opbevarer deres data for dem. På vores datacentre.«Anerkender du ikke, at Google i store dele af verden har tilstrækkeligt med personlige data til at kortlægge den enkeltes interesser, netværk, færden, lyster, drømme, alt?

Martin Ruby tygger lidt på spørgsmålet.

»Om vi har kapaciteten,« spørger han og svarer lidt efter selv:

»Jo. Vi opbevarer rigtig mange menneskers data. Teknisk set kan det vel godt lade sig gøre.«

Det er enkelte gange sket, at dataindehavere frivilligt har lagt private data ud. Typisk er dataene blevet anonymiseret, og så har argumentet været, at de alligevel ikke kunne spores tilbage til den enkelte person.

Historien efterlader et andet indtryk.

Data finder dig

I 1990erne offentliggjorde den amerikanske forsikringsgigant Massachusetts Group Insurance Commission anonyme data på alle statsansattes hospitalsbesøg. Målet var at bidrage til medicinalforskningen. Massachusetts daværende guvernør lovede, at patienternes oplysninger forblev fortrolige.

Guvernøren fik lov at smage sine egne data.

En kvik datalog fra Massachusetts Institute of Technology indhentede offentlige data fra en vælgerliste og krydsede dem med hospitalsjournalerne. Kun seks personer i Cambridge havde samme fødselsdag, kun tre var mænd og kun én havde samme postnummer. Guvernøren selv var fundet. Datalogen sendte alle guvernørens sygejournaler til guvernøren. Du tror, at du er anonym; det er du ikke.

Mønstret gentog sig, da den amerikanske internetudbyder AOL i 2006 frigav massive mængder af søgninger og forespørgsler på AOLs søgemaskine. Hvad optog egentlig folk? AOL fjernede alle spor på bruger-id og computeres ip-adresser. Men AOL efterlod et unikt, men anonymt nummer på hver bruger, så forskere kunne få indsigt i hver brugers fulde søgemønster.

Kort tid efter ringede avisen New York Times på døren hos bruger nummer 4417749 i Georgia. Hun havde blandt andet søgt på »ømme fingre«, »60 single mænd« og »hunde, som tisser på alt«. New York Times havde alene ud fra søgemønstret - efternavnet »Arnold« og staten »Georgia« gik f.eks. igen - fundet frem til 62-årige Thelma Arnold, som blev konfronteret med flere hundrede af sine egne søgninger over tre måneder. AOL erkendte, at det var en fejl at frigive de oprindeligt anonyme søgninger og sendte en personlig undskyldning til Thelma Arnold.

AOLs offentliggjorte søgninger udløste også en helt anden debat. Kan søgemønstre være så inkriminerende og problematiske, at nogen - internetudbydere eller staten - præventivt bør skride ind? Talrige havde søgt systematisk efter måder at begå selvmord: »How to kill oneself by natural gas«.

En blogger udløste heftig debat, da bloggeren hævdede at have identificeret søgemønstret for bruger nummer 17556639:

17556639 how to kill your wife

17556639 how to kill your wife

17556639 wife killer

17556639 how to kill a wife

17556639 poop

17556639 dead people

17556639 pictures of dead people

17556639 killed people

17556639 dead pictures

17556639 dead pictures

17556639 dead pictures

17556639 murder photo

17556639 steak and cheese

17556639 photo of death

17556639 photo of death

17556639 death

17556639 dead people photos

17556639 photo of dead people

17556639 www.murderdpeople.com

17556639 decapatated photos

17556639 decapatated photos

17556639 car crashes3

17556639 car crashes3

17556639 car crash photo

Debatten om krydsede datasæt rejste sig igen, da amerikanske filmtjeneste Netflix i 2006 frigav 100.480.507 ratings til film for at forbedre tjenestens menu over anbefalede film til den enkelte bruger. Netflix udskrev en konkurrence for at forbedre tjenestens algoritme for anbefalinger.

Men undervejs udstillede to statistikere fra The University of Texas, Austin, konkurrencens sårbarhed. Arvind Narayanan og Vitaly Shmatikov demonstrerede over en 15 sider rapport spækket med matematiske modeller og sofistikerede formler, at blot et mindre udpluk af en brugers ratings var tilstrækkeligt til at identificere alle brugerens ratings. Som om det ikke var nok, gik de to statistikere videre.

Den amerikanske whistleblower Edward Snowden taler i april til en høring om masseovervågning i Europarådet i Strasbourg via et videolink fra Moskva
Den amerikanske whistleblower Edward Snowden taler i april til en høring om masseovervågning i Europarådet i Strasbourg via et videolink fra Moskva

Data kan krydses

De kunne også parre de fulde datasæt fra Netflix med datasæt fra den åbne database over film, Internet Movie Database (IMDb), hvor brugerens identitet er kendt.

Ved at krydse det anonyme datasæt fra Netflix med IMDbs åbne datasæt kunne forskerne udlede identiteten på brugerne hos Netflix. Og som om det ikke var nok.

Ved at tegne et mønster over, hvilke ratings og stjerner brugerne havde tildelt film med politiske og religiøse undertoner, eksempelvis »Fahrenheit 9/11« og »Jesus of Nazareth«, kunne man ikke bare identificere brugerne ud fra deres anonyme ratings, men ligefrem tegne et billede af den enkelte brugers politiske og religiøse ståsted. Igen: Anonyme data kan spores; krydsede datasæt bringer os meget tæt på personerne bag.

Netflix lovede oprindeligt en efterfølger til den første konkurrence. Efter stor ballade og trusler om sagsanlæg over krænkede persondata, bremsede Netflix konkurrencen.

Ud over at statistikere, matematikere og hackere kan spore dine personlige data, sker der indimellem også fejl og indbrud.

Beskyttede privatfølsomme data viser sig at være knapt så beskyttede. I februar i år brød datatyve ind i den multinationale bank Barclays og hentede oplysninger om 27.000 bankkunder. Hver fil fyldte cirka 20 sider og indeholdt oplysninger om den enkelte kundes indkomst, opsparing, lån, sundhedsoplysninger, forsikringsoplysninger og oplysninger fra pas. Nogle af filerne rummede såkaldte psykometriske test - en måling af mentale egenskaber - som bankkunderne havde gennemgået til en kortlægning af deres investeringsprofil. Især pga. detaljegraden blev de stjålne oplysninger vurderet til at være flere millioner værd på det sorte marked, bl.a. fordi man ud fra personernes private data måske kunne friste kunderne til at foretage tvivlsomme investeringer.

I november 2013 var turen kommet til softwareproducenten Adobe.

Omtrent tre millioner brugeres konti blev hacket, erkendte Adobe. Senere viste det sig, at mere end 130 millioner brugere kunne være påvirket. Adobe havde ganske vist krypteret alle brugernes adgangskode - altså oversat koden så andre ikke kan læse den - men det multinationale computerselskab havde begået alvorlige fejl. Når brugere valgte samme adgangskode, fik de samme krypteringskode. Samtidig var hjælpespørgsmålene til at huske koder - eksempelvis »talrække« om koden »123456« - ikke krypteret. Computernørder og it-kyndige optalte hurtigt ens krypteringerkoder og brugte hjælpespørgsmålene til at identificere koden.

De mest benyttede koder til Adobe var:

1.911.938 brugere havde anvendt adgangskoden »123456«,

446.162 brugere anvendte koden »123456789«,

345.834 brugere anvendte koden »password«,

211.659 brugere anvendte koden »adobe123«,

201.580 brugere anvendte koden »12345678«,

130.832 brugere anvendte koden »qwerty« (kig ned i øverste bogstavrække på dit tastatur),

124.253 brugere anvendte koden »1234567«,

113.884 brugere anvendte koden »111111«,

Når bruger og kode var kædet sammen, kunne hackere derefter forsøge med samme adgangskode på andre af brugerens konti, f.eks. Facebook og mails. Hullet ind til Adobe i efteråret blev en påmindelse om, at de brugere, som benytter samme adgangskode flere steder - på sociale medier, e-mails, hos Skat, hos banken - er særligt sårbare.

Herhjemme har vi også oplevet flere fejlkonklusioner i data.

Data i den utætte container

Datatilsynet henvendte sig i marts til en webshop, der forhandler sexudstyr. Et hul i sikkerheden betød, at der var fri adgang til navne og adresser på 4.000 af sexshoppens kunder. Og for få uger siden blev den ellers næsten to år gamle sikkerhedsbrist Heartbleed eksponeret verden over. En alvorlig hukommelsesfejl gjorde det muligt for hackere at bryde ind i servere og dermed muligt at stjæle adgangskoder.

»Det er det, vi kalder den utætte container,« siger overvågningsforsker Peter Lauritsen fra Aarhus Universitet.

»Vi tror, at vi lægger vores oplysninger et sikkert sted, og så slipper de alligevel ud. Eller også slår folk ud pga. deres data, selv om de ikke har gjort noget forkert. Vi kan udlede utroligt meget af data, men det ligger indbygget i datas natur, at de engang imellem vil fejllæses.«

Jesper Lund, næstformand i IT-Politisk Forening, der kæmper for øgede borgerrettigheder, fremhæver, at virksomheder og staten har store interesser i at registrere videst muligt, enten af kommercielle årsager eller for at kontrollere borgere.
»Hvis nogen vil misbruge dine data i dag, kan de gøre det. Vi ser igen og igen store lækager, hvor store mængder data forsvinder. Samtidig er grænsen for, hvornår vi vil bruge folks data, ved at skride. Når dataene først ligger der, bliver fristelsen for stor. Først indsamlede vi data alene for imødegå terror. Så måtte man også bruge dem ved grov kriminalitet. Næste skridt er, at vi bruger hinandens data præventivt,« siger Jesper Lund.

Personligt gør Jesper Lund meget for at beskytte sine data. Han fremhæver, at han f.eks. på det åbne sociale medie Twitter følger politikere fra alle Folketingets partier for at kamuflere, hvor han placerer sit eget kryds.

»Men hvis man systematisk gennemgik min Twitter-konto og analyserede, hvordan jeg har reagerede på andres indlæg, vil man kunne placere mig politisk. Alene ud fra min Twitter-profil,« siger Jesper Lund.

Danmark har trods Muhammed-krise og krigsdeltagelse i Irak og Afghanistan undgået gennemførte terroranslag i nyere tid. Direkte adspurgt, om dataindsamlingen ikke er det værd, svarer Jesper Lund:

»Det er et falsk dilemma. Ingen har noget imod målrettet overvågning mod mistænkte. Problemet er masseovervågningen, eksempelvis indsamlingen af vores egne teledata og NSAs overvågning. Der er ingen dokumenteret sammenhæng mellem masseovervågning og afværgede terrorangreb.«

Siden Edward Snowden i foråret 2013 lækkede dybt fortrolige dokumenter til journalisterne Laura Poitras og Glenn Greenwald om systematisk overvågning, har de såkaldte metadata suget stor opmærksomhed. Metadata betegner et datasæts overordnede data: Hvem ringede til hvem hvornår og i hvor lang tid. Men ikke indholdet af samtalen. Hvem skrev en e- mail til hvem hvornår. Men ikke indholdet af mailen.

Metadata kan afsløre dig

I juni 2013 afslørede den britiske avis The Guardian, at den amerikanske efterretningstjeneste National Security Agency (NSA) loggede millioner af telefonopkald mellem amerikanere.

Præsident Barack Obama og den amerikanske efterretningstjeneste har gentagne gange betonet, at der kun bliver lagret metadata. I kan være helt rolige, lød underlægningsmusikken.

»Ingen lytter til jeres telefonsamtaler,« beroligede Obama sommeren 2013.

»Efterretningstjenesten kigger på telefonnumre og varigheden af et opkald. De kigger ikke på indhold,« fastholdt Obama.

Siden har adskillige it-kyndige forsøgt at demonstrere, hvor meget man faktisk kan udlede om personer alene med afsæt i deres metadata. Kun ud fra metadata på telefonopkald fandt forskere på Stanford University i marts i år frem til identiteten på en hampdyrker, adskillige sklerosepatienter og en pige, der havde aborteret. 546 frivillige havde overladt metadata på deres opkald til forskerne, som identificerede flere personer. En af casene foretog f.eks. opkald til flere neurologigrupper, et specialapotek og en rådgivningslinje for folk, der får tilbagefald pga. sklerose.

Billede af Googles servere fra 2012.
Billede af Googles servere fra 2012.

Herhjemme kan myndighederne, herunder Politiets Efterretningstjeneste, bede om vores metadata fra teleselskaberne. Metadata over, hvem der har ringet til hvem hvornår og hvorfra, hvem der har sendt en SMS til hvem hvornår og hvorfra - og de meget omdiskuterede sessionslogs om adfærd på internettet – ligger efter logningsbekendtgørelsen lagret i omtrent et år.

Det lyder uskyldigt, at myndighederne blot indsamler og lagrer disse overordnede data og ikke indholdet. Men overvej, hvor meget man faktisk kan udlede. Eksempelvis:

Først foretager du et opkald til en hospitalsafdeling, hvor man tester for hiv. Dernæst et opkald til din praktiserende læge. Derefter til Sygeforsikringen danmark. Og derefter til dine forældre.

Eller hvis du foretager et opkald til Livslinien, som rådgiver om forebyggelse af selvmord, mens du står på en bro.

Eller hvis du først modtager et opkald fra din arbejdsgiver. Dernæst ringer til din fagforening, dernæst en advokat og din kone. Og nogle dage senere kontakter jobbanken. Æv.

Eller hvis du inden for en kort periode ringer til din søster, en brudekjolebutik, en præst, en bryllupsplanlægger og Skovshoved Hotel. Tillykke.

Andre har forsøgt at kortlægge sig selv ud fra andre overordnede datasæt. Den tyske politiker Malte Spitz fik teleselskabet Deutsche Telekom til at udlevere et halvt års teledata om ham fra 2009, og avisen Die Zeit kortlagde hans færden ud fra disse data. En journalist på dagbladet Information har analyseret sin færd ud fra egne teledata, og i begyndelsen af i år lod redaktøren for online teknologisitet Ars Technica alle sine logins på nettet spore, så man kunne placere ham fysisk over 11 dage. Midlertidig konklusion: Dine data finder dig og afslører dig.

Cookies - data, som holder øje med vores adfærd, mønster og handlinger på internettet - betyder allerede i dag, at din computer er målrettet dig. Vi får ikke de samme reklamer på Facebook. Vi får ikke engang de samme søgeresultater i Google ved samme søgning.

Butikker vil snart kunne scanne os, så snart vi træder ind i butikken, og i samme sekund via ansigtsgenkendelsesprogrammer kunne trække data ned om, hvem vi er, så vi får målrettet betjening. Og dataophobningen udfordrer allerede.

Data udfordrer danskerne

I efteråret 2013 kom Statens Serum Institut til at udlevere 84.000 patientoplysninger til den private forskningsvirksomhed CCBR i Ballerup. Flere modtagere fik at vide, at de havde en hjertesygdom, selv om de ikke havde.

Sundhedsoplysninger fra den 63-årige forfatter Leif Davidsen blev udleveret til analysefirmaet Norstat. »Jeg er faktisk mere rystet over, at det brud på læge-patient-fortroligheden kan finde sted end den nok så megen medieopmærksomhed omkring amerikanske NSA«. Foto: Liselotte Sabroe
Sundhedsoplysninger fra den 63-årige forfatter Leif Davidsen blev udleveret til analysefirmaet Norstat. »Jeg er faktisk mere rystet over, at det brud på læge-patient-fortroligheden kan finde sted end den nok så megen medieopmærksomhed omkring amerikanske NSA«. Foto: Liselotte Sabroe

For få uger siden indrykkede den 63-årige forfatter Leif Davidsen, ham med den »Den Russiske Sangerinde«, et læserbrev i Politiken. Leif Davidsen havde været en tur på lungeklinikken på Hvidovre Hospital efter vedvarende hoste. Der var intet galt, og kort efter blev Leif Davidsen udskrevet. Efterfølgende blev han kontaktet af analysebureauet og dataindsamler Norstat, som ville vide, hvordan Leif Davidsen havde oplevet forløbet på hospitalet. Leif Davidsen skrev:

»Jeg er faktisk mere rystet over, at det brud på læge-patient-fortroligheden kan finde sted end den nok så megen medieopmærksomhed omkring amerikanske NSA, og jeg vil gerne have en forklaring på, hvordan det er kommet så vidt, at politikerne har tilladt, at noget af det mest sårbare og fortrolige, der findes i denne verden, nemlig tillidsforholdet til ens læge i den grad er eroderet, så en fuldstændig tilfældig studine har viden om, at jeg har konsulteret en læge, og hvilken afdeling jeg har været på.«

Norstat fremhæver i dag overfor til Berlingske, at alle ansatte har tavshedspligt.

Data fra Google til myndigheder

Forsknings- og innovationschef Jakob Illeborg Pagter fra Alexandra Instituttet fremhæver, at danskerne bør diskutere, hvor mange data vi vil opsamle om hinanden.

»Men allerførst er det nødvendigt, at nogen demonstrerer, hvad der findes af data. Professionelt har jeg ingen holdning til, om vi skal lande det ene eller det andet sted, eller hvordan vi som samfund vil regulere det. Men hvis danskerne skal mene noget om data, må det ske på et sagligt grundlag, og så er trin ét at vise, hvor mange data der findes, trin to at vise, hvad der kan udledes af data,« siger Jakob Illeborg Pagter.

Et begyndende opgør med Danmarks omfattende registrering kan komme fra EU. I begyndelsen af april i år erklærede EU-domstolen det såkaldte logningsdirektiv for ugyldigt. Justitsministeriet undersøger nu, hvilken betydning afgørelsen kan få for de danske logningsregler, dem, der udløser 3,5 billioner registreringer om året.

Selv i Google er man interesseret i mere debat om dataudveksling. I Google finder der en noget mindre omtalt dataudveksling sted. I andet halvår af 2013 blev Google verden over 27.477 gange anmodet om at udlevere borgeres oplysninger til offentlige myndigheder. Oplysningerne omfattede op mod 42.000 personer. Det er mere end en fordobling af anmodninger siden 2009. I 64 pct. af tilfældene efterkom Google ønsket for de seks måneder. Anmodningerne handler om alt fra efterretningstjenester, der forfølger kriminelle, til personer, der ikke bryder sig om en bestemt video på nettet.

»Mange myndigheder er i fuld gang med at bruge og misbruge borgernes data. Google mener, at debatten er tiltrængt,« siger Martin Ruby, politisk ansvarlig for Google Danmark.

Konfronteret med, at Google selv er blevet symbolet på datakortlægning af verdens befolkning, svarer Martin Ruby:

»Vi roder ikke rundt i folks data. Vi opbevarer data. Vi mener faktisk, at det er problematisk, at myndighedernes efterspørgsel på borgernes data stiger så kraftigt.«

Data føder digital dobbeltgænger

Overvågningsforsker Peter Lauritsen fra Aarhus Universitet henviser til, at vi er ved at få splittet vores identitet i to. En digital dobbeltgænger og os selv. Den digitale dobbeltgænger består af alle de data, der findes om os. I kommunen, banken, staten, Apple, Google, supermarkederne, teleselskaberne.

»Vores digitale dobbeltgængere får større og større betydning. Det bliver hele tiden vigtigere, hvilken profil dine data tegner af dig. For nogle betyder den digitale dobbeltgænger måske allerede mest. Hvordan ser jeg ud på Facebook? Har din digitale dobbeltgænger demonstreret stor købekraft, vil du få tilbud, som andre ikke gør. Omvendt kan prisen på dine køb blive hævet, fordi virksomhederne ved, at du er betalingsstærk. Det venter os en meget svært gennemskuelig virkelighed. Din digitale dobbeltgænger har direkte indflydelse på, om du får ja til lånet i banken, ja til den sociale ydelse af kommunen og måske endda din behandling i sundhedssektoren,« siger Peter Lauritsen.

Han indskyder:

»Problemet er, når din digitale dobbeltgænger ligger langt fra dig selv; når den er forkert. Så vil det blive meget svært at få den ændret.«

Det lykkedes for 69-årige Lis Emma Kjærgaard.

Hende, der bor i samme andelsejendom som sine to børn, tre børnebørn og oldebarn, og som fejlagtigt fik at vide i en skrivelse, at hun havde tarmkræft. Lis Emma Kjærgaard forsøgte først selv at få den fejlagtige diagnose slettet fra sine journaler, men fik at vide via det kontaktnummer, der var anført i skrivelsen om tarmkræft, at det ikke var muligt. Hendes privatpraktiserende læge, Klaus Ruhnau, skred ind og forlangte, at det skete. Og det gjorde det så.

»Men jeg ved faktisk ikke, om hendes kræftdiagnose ligger i en anden database. Jeg er meget bekymret over den dataindsamling, der sker. Hverken mine patienter eller jeg som læge ved, hvor disse sundhedsdata ligger, hvem der kan kigge med, og om de overhovedet er rigtige,« siger Klaus Ruhnau.

Lis Emma Kjærgaard: Efter undersøgelser for tarmkræft, som viste, at der ikke var noget, godkendte hun, at hendes læge måtte få oplysningerne fra hospitalet. Det førte til et spørgeskema, fra andet eksternt firma. Fotograferet i sit hjem, d. 24 april 2014
Lis Emma Kjærgaard: Efter undersøgelser for tarmkræft, som viste, at der ikke var noget, godkendte hun, at hendes læge måtte få oplysningerne fra hospitalet. Det førte til et spørgeskema, fra andet eksternt firma. Fotograferet i sit hjem, d. 24 april 2014

Brevet til Lis Emma Kjærgaard var sendt fra Forskningsenheden for Almen Praksis, Aarhus Universitet, med bl.a. Sundhedsstyrelsen i brevhovedet. Forskningsleder, professor Peter Vedsted fra Forskningsenheden for Almen Praksis oplyser, at enheden trækker sine data, som i realiteten er cpr-numre, i Landspatientregistret fra Statens Serum Institut.

»Vi stoler på den registrering, vi får. Men vi ved, at en lille andel - vi ved ikke hvor stor - får en kræftdiagnose i hospitalernes system uden at have det. Jeg ved ikke hvorfor,« siger Peter Vedsted.

Han kalder det »dybt ulykkeligt«, når disse fejlbreve i sjældne tilfælde rammer danskerne.

»Det skaber utryghed og bekymring. Vi gør alt for undgå det. Vi tjekker på forhånd, om folk er døde, og tager ikke uspecifikke kræftdiagnoser med i undersøgelserne. Men vi er nødt til at gennemføre den forskning, fordi vi i den gode sags tjeneste har brug den viden, og så kan de fejl ikke undgås,« forklarer professoren.

Lis Emma Kjærgaard lever fredeligt videre, derude på Amager. Hun fremhæver, at hun ikke gik i panik over brevet, fordi to undersøgelser lige havde afdækket, at hun var rask. Men hun synes, at det er »for galt«, at der kan ske sådan nogle fejl. Hun har aldrig fået nogen forklaring på, hvad der skete.

»Det virker, som om de bare gætter,« siger Lis Emma Kjærgaard.

Og tilføjer:

»I øvrigt gik jeg ud fra, at oplysninger om mit helbred – mit helbred - var dybt fortrolige.«

I lande som Tyskland og Frankrig har afsløringerne af amerikansk aflytning og overvågning affødt heftig debat. I Danmark har datadebatten aldrig fået samme fart. Lige meget hvordan, spørgsmålene er blevet formuleret, har regeringen gentaget, at den ikke har kendskab til ulovlig overvågning i Danmark.
I lande som Tyskland og Frankrig har afsløringerne af amerikansk aflytning og overvågning affødt heftig debat. I Danmark har datadebatten aldrig fået samme fart. Lige meget hvordan, spørgsmålene er blevet formuleret, har regeringen gentaget, at den ikke har kendskab til ulovlig overvågning i Danmark.

Vi kan se, at du har installeret en adblocker, så vi ikke kan vise dig annoncer.

Det er vi kede af, fordi indtægter fra annoncer er en helt afgørende årsag til, at vi dagligt kan tilbyde dig journalistik af høj kvalitet.

For få adgang til indhold på Berlingske.dk skal du tillade visning af annoncer på Berlingske.dk. Se hvordan du gør her..

Tak for din forståelse.

Hov! Hvor blev min artikel af..!?

Du er træt af reklamer. Vi ved det godt! Men de betaler for den artikel, du sidder og læser. Vi vil derfor sætte stor pris på, at du tilføjer Berlingske.dk til din adblocker's "whiteliste".

Tak for din forståelse.