Sintetičke mreže mogu povećati dostupnost nekih podataka, a da pritom i dalje štite privatnu ili institucionalnu privatnost.
"Moj glavni interes je razviti metodologiju koja bi omogućila šire dijeljenje povjerljivih podataka na način koji bi mogao pomoći u znanstvenim otkrićima", izjavila je Aleksandra Slavković, profesorica statistike i prodekan za diplomski studij, Eberly College of Science, Penn State. "Cilj je dijeljenje povjerljivih podataka s minimalnim mjerljivim rizikom za otkrivanje osjetljivih informacija i osiguravanjem statističke točnosti i integriteta."
Slavković je pronašao rješenja za ovaj problem privatnosti podataka putem interdisciplinarnih suradnji, posebno s računalnim i društvenim znanstvenicima. Njezina istraživanja usredotočena su na različite podatke, uključujući mrežne podatke koji obuhvaćaju informacije o odnosu između entiteta kao što su pojedinci ili institucije. Ona je izvijestila o svojim pristupima pružanju sintetičkih mreža koje zadovoljavaju pojam diferencirane privatnosti danas (16. veljače) tijekom godišnjeg sastanka Američkog udruženja za napredak znanosti u Washingtonu, DC.
Diferencirana privatnost pruža matematički dokazivu garanciju o razini gubitka privatnosti za pojedince.
Znanstvenici žele pristup podacima koje su drugi prikupili za svoja istraživanja, ali takav pristup također može ugroziti osobnu privatnost, čak i nakon uklanjanja takozvanih osobnih podataka.
"Veliki broj pomoćnih podataka glavni je krivac", kazao je Slavković. "S metodološkim i tehnološkim napretkom u prikupljanju podataka i povezivanju podataka, lakšem pristupu različitim izvorima podataka koji se mogu povezati sa skupom podataka i zahtjevima agencija za financiranje za razmjenu podataka, rizici za privatnost podataka se povećavaju. rješenja za upravljanje gubitkom privatnosti ključna su za omogućavanje dobrog znanstvenog otkrića. "
Na primjer, javno dostupne informacije iz ispitivanja lijeka na HIV lijeku ukazuju na to tko je bio u tretiranoj skupini i tko je bio u kontrolnoj skupini. Skupina za tretman sadržavala bi samo osobe kojima je dijagnosticiran HIV i iako su vlasnici podataka zadržali osobne podatke iz tog skupa podataka, neke informacije o identitetu bi ostale. Budući da je toliko informacija danas dostupno na internetu u društvenim medijima iu drugim skupovima podataka, moguće je povezati točke i identificirati osobe, potencijalno otkrivajući njihov HIV status.
"Tehnike povezivanja dva skupa podataka, na primjer, evidencija birača i podaci o zdravstvenom osiguranju, uvelike su se poboljšale", kazao je Slavković. "U jednom od najranijih nalaza, Latanya Sweeny (sada na Harvardu) pokazala je da povezivanjem ove vrste podataka možete identificirati 87 posto ljudi iz popisa SAD-a iz 1990. na temelju njihovog datuma rođenja, roda i 5-znamenkasti U novije vrijeme, istraživači su koristili tweets i pridružene Twitter metapodatke kako bi pokazali da mogu identificirati korisnike s 96,7-postotnom točnošću. "
Slavković primjećuje da nisu samo ljudi ili ustanove čiji su podaci sadržani u bazama podataka, već i da ljudi izvan baze podataka također mogu patiti od narušavanja privatnosti, izravno ili udruživanjem. Povezanost informacija u skupu podataka i informacije o društvenim medijima mogu dovesti do ozbiljne povrede privatnosti - nešto poput HIV statusa ili seksualne orijentacije moglo bi imati ozbiljne posljedice ako se otkriju.
Iako je privatnost važna, skupovi prikupljenih podataka čine bitan izvor informacija za istraživače. Trenutno, u nekim slučajevima kada su podaci iznimno osjetljivi, istraživači moraju fizički otići u spremišta podataka kako bi proveli istraživanje, čineći istraživanje teže i skuplje.
Slavković je zainteresiran za mrežne podatke. Informacije koje pokazuju povezanost ljudi ili institucija - čvorova - i veza između čvorova. Njezin pristup je stvaranje neznatno izmijenjenih, zrcaljenih mrežnih skupova podataka s nekoliko pomaknutih čvorova, pomicanjem veza ili promjenom rubova.
"Cilj je stvoriti nove mreže koje zadovoljavaju rigorozne diferencijalne zahtjeve privatnosti i istodobno uhvatiti većinu statističkih značajki iz izvorne mreže", rekao je Slavković.
Ovi sintetički podaci mogu biti dovoljni za neke istraživače da zadovolje svoje istraživačke potrebe. Za druge, dovoljno je testirati njihove pristupe i hipoteze prije nego što moraju otići na mjesto za pohranu podataka. Istraživači su mogli testirati kod, napraviti istraživačko istraživanje i možda osnovnu analizu dok čekaju dozvolu za korištenje izvornih podataka na svom mjestu spremišta.
"Ne možemo zadovoljiti zahtjeve za sve statističke analize s istom vrstom izmijenjenih podataka", rekao je Slavković. "Neki ljudi će trebati izvorne podatke, ali drugi će možda ići daleko od sintetičkih podataka kao što su sintetičke mreže."
