Wat is differenti?le privacy?
Differenti?le privacy is een wiskundig raamwerk voor het bepalen van een kwantificeerbaar en aanpasbaar niveau van privacybescherming. Het doel van differenti?le privacy is om de ethische, reputatie- en financi?le risico’s te verminderen van het delen of gebruiken van gegevens die gevoelige of persoonlijk identificeerbare informatie (PII) bevatten voor statistische analyse, gegevensanalyse en machinaal leren (ML).
In wezen kwantificeert differenti?le privacy hoe moeilijk het voor iemand zou zijn om een geaggregeerde data-instantie te herleiden tot een specifiek individu.
Het raamwerk brengt de behoefte aan bruikbaarheid van gegevens in evenwicht met de behoefte aan gegevensprivacy en zorgt ervoor dat nuttige informatie uit grote datasets kan worden gehaald zonder iemands privacy in gevaar te brengen.
Techopedia legt uit
Hoewel traditionele methoden voor het anonimiseren van gegevens nog steeds een beschermingslaag kunnen bieden en als afschrikmiddel kunnen dienen voor cyberaanvallen op laag niveau, zijn ze niet robuust genoeg om de risico’s te beperken die gepaard gaan met koppelingsaanvallen waarbij aanvullende informatie wordt gebruikt om individuen opnieuw te identificeren.
Gedifferentieerde privacy beperkt het risico door ervoor te zorgen dat statistische en algoritmische resultaten niet worden be?nvloed door de gegevens van een individuele persoon in een dataset.
Meestal wordt hiervoor een gecontroleerde hoeveelheid willekeurige ruis toegevoegd aan de gegevens of de analyseresultaten. In deze context is ruis een opzettelijke verandering in gegevens of zoekresultaten die de aan- of afwezigheid van gegevens van een specifiek individu in een dataset maskeert.
Wat doet differenti?le privacy?
Het raamwerk voor differenti?le privacy biedt eigenaren en houders van gegevens een gestructureerde manier om aanvaardbare risico’s in te schatten en te beheersen, terwijl ervoor wordt gezorgd dat geaggregeerde gegevens hun nut behouden voor analyses en beslissingen op het gebied van machinaal leren.
De wiskundige benadering van het raamwerk heeft vier belangrijke voordelen ten opzichte van eerdere privacy technieken:
- Het gaat ervan uit dat alle informatie identificerende informatie is. Dit is een significante verschuiving ten opzichte van traditionele benaderingen die nodig zijn om bepaalde gegevensvelden te identificeren en te beschermen.
- Het gebruikt een privacy parameter om de vraag “Hoeveel privacy is genoeg?” te beantwoorden. De parameter stelt organisaties in staat om een kwantificeerbaar niveau van privacy te garanderen en het verlies van privacy over meerdere query’s te beheren.
- Het is bestand tegen koppeling aanvallen waarmee tegenstanders individuen opnieuw kunnen identificeren door geanonimiseerde gegevens te correleren met andere beschikbare gegevens.
- In het geval van een datalek kan de kwantificeerbare willekeurige ruis die door differenti?le privacy wordt ge?ntroduceerd, mogelijk helpen om de gegevenshouder te beschermen tegen juridische en ethische gevolgen van de inbreuk.
Hoe werkt differenti?le privacy?
Differenti?le privacy maakt het statistisch onwaarschijnlijk voor een waarnemer om te bepalen of gegevens van een specifiek individu zijn meegenomen in een berekening. Het zorgt ervoor dat de aan- of afwezigheid van een enkel gegevenspunt geen significante invloed heeft op de uitkomst van statistische analyses, gegevens analyses of zoekopdrachten.
De meest basale techniek bestaat uit het toevoegen van gecontroleerde hoeveelheden willekeurige ruis aan de gegevens of de resultaten van een query. De ruis kan op verschillende manieren worden toegevoegd, afhankelijk van het specifieke differenti?le privacy algoritme dat is gekozen.
Het Laplace-mechanisme is een van de populairste algoritmen om differenti?le privacy te implementeren en willekeurige ruis toe te voegen. Het ruisniveau in dit mechanisme wordt bepaald door twee dingen: de gekozen privacyparameter en de gevoeligheid van de query of gegevensbewerking die wordt uitgevoerd.
Privacyparameter
De privacy parameter, die meestal wordt weergegeven door de Griekse letter epsilon (ε), kwantificeert het aanvaardbare niveau van privacyverlies voor elke query of wiskundige bewerking. Deze parameter be?nvloedt de hoeveelheid ruis die moet worden toegevoegd om privacy te garanderen, en het gebruik van ε door elke query draagt bij aan het totale privacyverliesbudget voor de dataset.
Het privacyverlies budget is de totale toegestane limiet van privacyverlies over meerdere query’s. Elke query verbruikt een deel van dit budget op basis van de ε waarde.
De keuze van ε wordt bepaald door de houder van de gegevens en houdt een afweging in tussen privacy en nut van de gegevens. Te veel ruis kan het nut van de gegevens verminderen, terwijl te weinig ruis de eigenaar of houder van de gegevens kan blootstellen aan financi?le risico’s en reputatieschade.
Gevoeligheid
Gevoeligheid meet de maximale hoeveelheid die een query resultaat zou veranderen als een enkel record in de dataset zou worden opgenomen of uitgesloten.
De verandering wordt berekend door het grootste verschil in uitvoer te bepalen voor alle mogelijke paren van aangrenzende datasets.
In gevallen van hoge gevoeligheid, waar een enkele record de uitkomst aanzienlijk kan veranderen, is een grotere hoeveelheid ruis nodig om de invloed van een individuele record te verminderen en de privacy te behouden.
Term | Beschrijving | Rol in differenti?le privacy |
Privacy parameter (ε) | Kwantificeert het aanvaardbare niveau van privacyverlies (budget voor privacyverlies). | Bepaalt de hoeveelheid ruis die moet worden toegevoegd om een gewenst privacyniveau te garanderen. |
Gevoeligheid | Meet de maximale verandering in de uitvoer van een query als de gegevens van één individu worden toegevoegd of verwijderd. | Be?nvloedt de omvang van de ruis die nodig is om privacy te garanderen. De schaal bepaalt de statistische spreiding van de geluidswaarden. |
Hoe differenti?le privacy implementeren?
Differenti?le privacy kan lokaal of globaal worden ge?mplementeerd. Lokale differenti?le privacy (LDP) vereist dat de eigenaar van de gegevens ruis toevoegt aan elke gegevensinstantie voordat hij zijn gegevens deelt. Deze aanpak garandeert privacy op het punt van verzameling.
Globale differenti?le privacy (GDP) voegt daarentegen ruis toe aan de uitvoer van query’s op de gegevens. Bij deze aanpak, die ook wel centrale differenti?le privacy wordt genoemd, blijven de oorspronkelijke gegevens onaangeroerd.
De keuze tussen LDP en GDP hangt vaak af van de specifieke privacy vereisten, de mate van vertrouwen in de entiteit die met de gegevens omgaat en de behoefte aan nauwkeurigheid van de gegevens.
Wat is de rol van differenti?le privacy bij machinaal leren?
Differenti?le privacy stelt machine learning algoritmen in staat om patronen te identificeren en te leren van gegevens zonder de specifieke details van individuele gegevenspunten te compromitteren.
In theorie betekent dit dat wanneer een differentieel privaat model voor machinaal leren wordt getraind, het moeilijk (zo niet onmogelijk) wordt voor aanvallers om het model om te bouwen en te proberen persoonlijke informatie te vinden in de trainingsgegevens.
Dit is belangrijk omdat een toenemend aantal wetten en regels op het gebied van gegevensprivacy organisaties verplichten om ervoor te zorgen dat persoonlijke gegevens niet zonder toestemming worden misbruikt of openbaar gemaakt. Gedifferentieerde privacy helpt organisaties gevoelige gegevens te gebruiken voor analytische en voorspellende doeleinden en toch te blijven voldoen aan de wettelijke mandaten.
Voorbeelden van bedrijven en marktsegmenten die differenti?le privacy gebruiken
Grote techbedrijven zoals Apple, Google en Microsoft gebruiken differenti?le privacy om gegevens van eindgebruikers te beschermen wanneer ze informatie verzamelen voor productverbetering en gepersonaliseerde diensten.
Overheidsinstellingen gebruiken differenti?le privacy ook om de privacy van mensen te beschermen wanneer ze statistische gegevens publiceren. Het U.S. Census Bureau is bijvoorbeeld begonnen met het gebruik van differenti?le privacy om gevoelige informatie in volkstellingsgegevens te beschermen.
Andere voorbeelden van gebruik van differenti?le privacy zijn:
- Onderzoeksinstellingen: Academische onderzoekers en instellingen gebruiken differenti?le privacy om gevoelige datasets te analyseren op gebieden zoals gezondheidszorg, sociale wetenschappen en economie met behoud van de vertrouwelijkheid van individuele deelnemers.
- Sector gezondheidszorg: Ziekenhuizen en gezondheidsonderzoek organisaties passen differenti?le privacy toe om medische gegevens te delen en te analyseren, de privacy van pati?nten te waarborgen en te voldoen aan regelgeving zoals de HIPAA Privacy Rule.
- Financi?le instellingen: Banken en financi?le bedrijven gebruiken differenti?le privacy voor het analyseren van transactiegegevens en kredietrisico’s van klanten zonder individuele klantgegevens te onthullen.
- Sociale mediaplatforms: Sommige sociale mediabedrijven zoals Facebook en Snapchat gebruiken differenti?le privacy om gebruikersgegevens te analyseren op trends en inzichten terwijl de privacy van individuele gebruikers behouden blijft.
- Bedrijven voor data-analyse en marktonderzoek: Deze bedrijven gebruiken differenti?le privacy om consumentengedrag en markttrends te analyseren zonder de privacy van de individuen in hun datasets in gevaar te brengen.