Google breidt AI-tool TensorFlow uit met privacymodule

TensorFlow, Googles tool voor het bouwen van machinelearning-applicaties, is uitgebreid met een extra module genaamd ‘TensorFlow Privacy’. De uitbreiding stelt ontwikkelaars in staat om met de statistische techniek ‘differentiële privacy’ gegevens van gebruikers te beschermen.

Differentiële privacy is vrij complex, maar het betekent eigenlijks niet meer dan dat AI-modellen, die getraind zijn op gebruikersgegevens, persoonlijk identificeerbare informatie niet kunnen coderen. Het is een veelgebruikte manier. Zo introduceerde Apple het eerder voor zijn eigen AI-services in iOS 10 en gebruikt Google het onder meer al voor de AI-service ‘Smart Repply’ van Gmail.

“Als we niet zoiets als differentiële privacy krijgen in TensorFlow weten we gewoon dat het voor teams binnen en buiten Google niet zo gemakkelijk zal zijn om er gebruik van te maken. Dus voor ons is het belangrijk om het in TensorFlow te krijgen, het opensource te maken en te beginnen met het creëren van een community”, zegt Carey Radebaugh, product manager bij Google.

TensorFlow is een van de meest populaire tools voor het bouwen van machinelearning-applicaties. Ontwikkelaars over de hele wereld gebruiken de tool om AI-programma’s te maken zoals algoritmen voor tekst, geluid en beeldherkenning.

Smart Reply

Door in te zoomen op bijvoorbeeld de Smart Reply AI-functie van Gmail, wordt het belang van differentiële privacy duidelijk. Smart Reply vertrouwt voor het maken van voorgestelde antwoorden op data die is verzameld van meer dan een miljard Gmail-gebruikers. Gegevens uit e-mails die uiteraard persoonlijke informatie bevatten. Als Smart Reply woord-voor-woord een antwoord suggereert dat een  andere Gmail-gebruiker ooit schreef, kan dat rampzalige gevolgen hebben.

Differentiële privacy sluit die mogelijkheid met ‘wiskundige zekerheid’ uit, aldus Úlfar Erlingsson, onderzoeker bij Google op het gebied van gegevensprivacy, in een gesprek met The Verge. De techniek verwijdert volgens hem identificeerbare uitbijters uit datasets, zonder de totale betekenis van die gegevens te veranderen. Hij beweert dat de uitkomst onafhankelijk is van iemands data, maar nog steeds een positief resultaat oplevert.

Nadelen

Toch kleven er volgens Erlingsson nadelen aan het gebruik van differentiële privacy. “Door uitbijters te maskeren, kan het soms relevante of interessante gegevens verwijderen. Vooral in gevarieerde datasets, zoals die met taal. Differentiële privacy betekent letterlijk dat het onmogelijk is voor het systeem om over iets te leren dat maar één keer voorkomt in de dataset. Daardoor ontstaat er een bepaalde spanning. Moet je meer data van een bepaald type gaan verzamelen? Hoe relevant of nuttig zijn die unieke eigenschappen in de dataset?”

Google hoopt dat door TensorFlow Privacy vrij te geven meer AI-ontwikkelaars deze techniek gaan gebruiken en deze problemen uiteindelijk kunnen worden verbeterd. Het bedrijf gelooft dat door het vrijgeven van nieuwe opensource tools, de pool van beschikbaar talent groter wordt. Bovendien is de mogelijkheid om differentiële privacy met vier à vijf regels code aan een AI-model toe te voegen volgens Erlingsson op zichzelf al een grote stap vooruit.

Gerelateerd: Slimme AI verborg data van makers om vals te spelen bij zijn taken