Artificial intelligence

Den nya AI-tekniken baseras på maskininlärning som behöver enorma mängder data för att tränas upp. En stor del av denna data kommer från nätet, och kan innehålla personuppgifter.

Vad är AI för något och hur fungerar tekniken?

Artificial intelligence

Vad är AI för något och hur fungerar tekniken? Är datorn verkligen intelligent på riktigt? Här får du lära dig grunderna om artificiell intelligens.

Den nya AI-tekniken baseras på maskininlärning som behöver enorma mängder data för att tränas upp. En stor del av denna data kommer från nätet, och kan innehålla personuppgifter.

Det populära verktyget ChatGPT är ett annat exempel, det bygger på en språkmodell som tränats på befintliga texter för att kunna generera egen text som liknar det en människa skulle kunna skriva.

Gemensamt för AI är att det behövs enorma mängder data för att träna upp och förbättra dem. Denna data måste komma någonstans ifrån, men det är i många fall inte tydligt var AI-företagen har fått tag på sin träningsdata.

– Det är en av utmaningarna med AI-modellerna, att vi inte vet varifrån all data kommer. Stora mängder kommer från internet – man kan tänka sig det mesta som finns online. Men det är svårt att specificera mer än så.

AI måste matas med data

Precis som Spotify och sociala medier behöver AI-system också matas med data kontinuerligt för att fortsätta utvecklas och bli bättre. I Spotify anpassas algoritmerna utifrån den musik du spelar och gillar, för att på så vis ge bättre rekommendationer. Sociala medier som Instagram och Facebook fungerar på liknande sätt – data om vilka inlägg och bilder du klickar på används för att träna algoritmerna vidare.

AI-modeller fungerar likadant – när du använder AI-verktyg som Midjourney och ChatGPT bidrar du med data som används för att träna systemen vidare. Också här saknas insyn i många av de större AI-företagen och hur de använder din data för att vidareutveckla sina system.

– Det är högst troligt så att den data som matas in av de som använder tjänsten också används för att träna systemet vidare.

AI och GDPR

GDPR-lagen ger också europeiska medborgare rätt att veta vad ens personuppgifter används till och vilka personuppgifter som samlats in. Detta har visat sig ha stor betydelse för hur träningen av AI-modeller går till, där det ofta är svårt att avgöra vilken data som används till vad.

För att hantera kraven på integritet och följa lagen finns det olika försök att göra data anonym, alltså ta bort alla kopplingar till personer som kan finnas. Den här processen kallas anonymisering.

Vad är anonymiserad data?

För att personuppgifter ska anses vara anonymiserade krävs det att enskilda individer inte längre kan identifieras utifrån uppgifterna. Flera olika uppgifter i en samling data ska heller inte kunna kombineras för att identifiera en person. Det krävs också att anonymiseringen är oåterkallelig, det vill säga att det inte ska gå att återskapa någon personlig information.

Det finns flera olika metoder för att anonymisera data. De två vanligaste kallas randomisering och generalisering. Vid randomisering förändrar man personuppgifter till något annat, till exempel ändrar namn, personnummer och adress. På så vis kan man inte längre göra en koppling mellan informationen och en särskild person. Vid generalisering gör man personuppgifterna mindre detaljerade – till exempel istället för att skriva en persons ålder kan man skriva ett intervall, som 18–25.

AI är redan vardag

AI används inom allt från sjukvården till reklam, och allt fler myndigheter, företag och organisationer har börjat titta på hur AI kan effektivisera arbetet.

Vad är pseudonymisering?

En mildare variant av anonymisering kallas pseudonymisering. Det är data där all personlig information har dolts och ersatts med en kod, till exempel ett tal, slumpade bokstäver eller något liknande. Det går att identifiera en person utifrån denna data bara om man har tillgång till kompletterande information om vad koderna betyder.

För att data ska anses vara pseudonymiserad krävs att den kompletterande informationen lagras separat och på ett tillräckligt säkert sätt. Men det går alltså att identifiera personer med hjälp av koderna. Därför omfattas pseudonymiserade personuppgifter av GDPR. Anonymiserade uppgifter däremot ses inte längre som personuppgifter, och omfattas inte längre av GDPR.

Syntetiska data för träning

För att träna AI-modeller har man också börjat använda så kallad syntetisk data. Denna data är genererad, ofta utifrån några exempel av verklig data. Ett exempel på syntetisk data är exempelvis fotografier på en människa skapad av en AI.

Är du nyfiken på AI men vet inte riktigt var och hur du ska börja? Du är inte ensam. I den här guiden får du tipsen du behöver för att komma igång.

Syntetiska data kan vara mycket användbart för att träna upp AI-modeller om man har otillräcklig data. Ett praktiskt exempel är när man skapar styrsystem för självkörande bilar. Då vill man träna systemet för att agera korrekt vid en krock, men det är omöjligt att få tag på tillräckligt mycket videoinspelningar om verkliga krockar. Det man kan göra då är att låta en dator skapa ett stort antal simuleringar av krockar, baserade på ett antal verkliga.

Exempel på syntetisk data. Ingen av dessa personer finns i verkligheten utan är skapade med AI-programmet Midjourney.

Men syntetiska data kan också vara användbart som ett sätt att korrigera för träningsdata som är vinklad eller ofullständig. Genom att lägga till syntetiska data kan man skapa ett urval som är mer representativt för en hel befolkning, exempelvis. Slutligen kan syntetiska data vara användbart ur ett integritetsperspektiv – det finns ju ingen riktig person i denna data som kan identifieras. På så vis kan syntetiska data vara ett bra alternativ till att anonymisera data. P

Målsättningen är att du tar känslig data och tränar en modell på den känsliga datan. Därefter genererar du data som ser likadan ut, men som inte kan kopplas till specifika individer. Och sen tränar du AI-systemet på den genererade datan.

Olika typer av data

Personliga data – data som innehåller personlig information.
Anonym data – data som inte innehåller personlig information.
Anonymiserad data – data där personlig information tagits bort så att den inte längre går att koppla till dig som person.
Pseudonymiserad data – data där personlig information ersatts med en kod. Bara den som kan avläsa koderna kan koppla datan till dig som person.
Syntetiska data – konstgjord data som skapats för att likna annan, verklig, data.

Svårt att garantera anonymitet

Trots de många olika metoderna för att ta fram data som inte går att koppla till specifika personer finns det stora utmaningar. Ett problem är att det handlar om sådana stora datamängder att det är svårt att överblicka all information. Då går det inte heller att försäkra sig om att det inte går att koppla ihop olika data för att koppla det till en person.

Ett exempel är hur data från videotjänsten Netflix kunde avanonymiseras i en studie från 2007 . Netflix publicerade vid ett tillfälle hur 500 000 av deras kunder hade rankat olika filmer. Denna data hade anonymiserats genom att ta bort personliga detaljer och ersatt dem med slumpmässiga nummer.

Netflix publicerade filmbetyg

Forskare på ett universitet i Texas kunde ändå koppla en del av informationen till särskilda personer genom att jämföra den med tillgängliga information på filmdatabasen IMDb. Där kan användare också ge betyg på filmer och den informationen är publik.

Vad forskarna gjorde var att jämföra den data som Netflix hade anonymiserat med motsvarande filmbetyg på IMDb som postats vid samma klockslag. På så vis kunde de identifiera ett antal personer som vid samma tillfälle gett betyg på samma filmer hos både Netflix och IMDb.

Netflix hade i sig inte gjort något fel i hanteringen av sin data. Men exemplet visar ändå hur svårt det är att säkerställa att data fortsätter vara anonym när det kombineras med annan data.

Detta problem blir ännu svårare när det kommer till AI. Dels handlar det om ännu större datamängder och dels är modellerna så komplexa och svåra att överblicka. Också detta kan leda till att data som man tror är anonymiserad ändå kan avanonymiseras, och alltså kopplas till enskilda personer.

Det är helt enkelt svårt att garantera att data är helt anonym och samtidigt fortfarande användbar för att träna upp och förbättra AI-modeller. Kritiker har menat att EU:s lagstiftade integritetsskydd är ett stort hinder för att framställa tillräckligt bra AI-system i Europa. Förespråkare för GDPR och liknande integritetsskydd menar istället att det är den bästa garantin för att skydda medborgares personliga integritet, även om det gör det svårare att skapa effektiva AI-system.

Vill du veta mera?