Anonymizace slibuje neviditelnost, ale nabízí pouze papírovou masku – snadno ji strhnou tytéž systémy, které je údajně chrání.
Známé rčení je v tuto chvíli příhodné: „Mějte se na pozoru před technologií, která přináší dary.“ Když sběrači dat mluví o anonymizaci, zřídka mají na mysli skutečnou ochranu.
Tento termín zní klinicky a jednoznačně. V praxi často slouží spíše jako právní krytí než jako skutečné bezpečnostní opatření. Signalizuje uživatelům, že se nemají čeho obávat – a systém nadále funguje přesně tak, jak má.
Anonymizace je považována za koncový bod. Jakmile jsou data označena jako anonymní, proces kontroly končí. Regulační orgány poukazují na anonymizaci jako na úspěch. Platformy ji vnímají jako důkaz odpovědnosti.
Společnosti vyvíjející nástroje pro opětovnou identifikaci si mezitím nedělají iluze o jejich trvanlivosti.
Startupy jsou zakládány s výslovným cílem prolomit ochranu, kterou údajně poskytují zákony na ochranu osobních údajů.
Tito aktéři nejednají tajně. Neskrývají své schopnosti. Někteří otevřeně propagují propojení jmen, adres a pracovních pozic s údaji, které byly údajně anonymizovány.
Kdykoli se objeví nový skandál v oblasti ochrany osobních údajů, slouží anonymizované zpracování dat jako obrana. Tento termín se používá k uklidnění veřejnosti, tisku a politiků.
Slib zní: Jakmile jsou osobní identifikátory odstraněny, hrozba je neutralizována. Zdravotní záznamy, finanční transakce a historie prohlížení však nejsou neutrální data – jsou hluboce osobní. Anonymizace je zástupným prvkem pro bezpečnost, nikoli její realitou.
Firmy a instituce popisují anonymizovaná data jako nedohledatelná – a to jak přímo, tak nepřímo.
Od průměrného uživatele se očekává, že to bez otázek akceptuje. Otázky ohledně postupu, jeho robustnosti nebo definice opětovné identifikace vznikají jen zřídka.
Technicky vzato anonymizace existuje. Existují skutečné metody, techniky a protokoly pro odstraňování identifikátorů.
Důkazy však ukazují, že i správně anonymizované datové záznamy lze dohledat, porovnat a propojit s jinými záznamy – dokud se dotyčná osoba opět nestane viditelnou.
Výzkumníci tvrdí, že stejná data považovaná za bezpečná lze znovu identifikovat pomocí veřejně dostupných datových sad a jednoduchých korelačních nástrojů. To se nepovažuje za exotickou schopnost – ve velkém měřítku se používá již dlouhou dobu.
Anonymizace má za cíl eliminovat osobní údaje.
Tato koncepce je založena na předpokladu, že data – jakmile jsou zbavena identifikátorů – lze bezpečně sdílet nebo prodávat. Tato logika je základem pro ospravedlnění sběru dat jak komerčními, tak i vládními subjekty.
Reidentifikace tento základ zpochybňuje. Díky přístupu k veřejným datům a komerčně dostupným identifikátorům lze mnoho původně anonymizovaných datových sad znovu přiřadit jednotlivcům.
Aktivitu na internetu, zdravotní záznamy, cestovní historii a finanční profily lze triangulovat – bez hackerských útoků nebo znalostí zasvěcených osob.
V roce 2019 – kdy se obecné nařízení EU o ochraně osobních údajů (GDPR) stalo známým pro své striktní znění – výzkumníci z Imperial College London a Université Catholique de Louvain testovali, zda jeho anonymizační standardy obstojí. Jejich závěr: Neobstály.
Pomocí datové sady kompatibilní s GDPR byli schopni znovu identifikovat 99,98 % jednotlivců kombinací pouhých 15 demografických atributů. Tyto atributy nebyly individuálně citlivé – nebezpečí pramenilo z křížového odkazování. Iluze anonymity se roztříštila pod tíhou kontextu.
Ve stejném roce další případ zpochybnil praxi anonymizace: Britská národní zdravotní služba předala biometrické skeny očí společnosti Google DeepMind – údajně pro výzkumné účely.
Data byla označena jako anonymizovaná a sdílena bez výslovného souhlasu pacientů – jako by samotné označení zaručovalo bezpečnost.
Během přípravy GDPR se úředníci EU vyhýbali termínu „reidentifikace“ a místo toho zavedli „pseudonymizaci“ – volbu slov, která jim umožnila uznat svá omezení, aniž by připouštěli příliš mnoho. Tato terminologie vytvořila prostor pro volnost, ale neřešila hlavní problém.
Kalifornský zákon CCPA zvolil podobný přístup. Mnoho ustanovení vycházelo z GDPR, včetně definic anonymizace a deidentifikace. Stejné znění však neřeší stejnou slabinu. Pokud je definice chybná, je chybný i zákon.
Zákon byl přijat, pojmy kodifikovány, uplynuly roky – změnilo se něco?
V Kansasu nabízí startup možnou odpověď.
Reidentifikační byznys
Společnost Stealth Data LLC , založená v Kansasu v roce 2020, se prezentuje jako společnost zabývající se datovou analytikou.
Místní média uvádějí, že nabízí nástroje, které dokáží identifikovat až 50 % tzv. anonymní návštěvnosti webových stránek – včetně jmen, telefonních čísel, e-mailů, fyzických adres, pracovních pozic, zaměstnavatelů, úrovně příjmů, věkových skupin a profilů na sociálních sítích.
Společnost tvrdí, že dokáže vytvářet kompletní profily návštěvníků ze signálů a vzorců chování prohlížeče. Stejná relace prohlížení, kterou platformy deklarují jako anonymní, může být použita k extrakci vysoce specifických osobních údajů.
Tohle není hack – je to legální obchodní model.
Společnost otevřeně popisuje své schopnosti. Shromažďuje data prostřednictvím běžných webových interakcí a výsledky prodává klientům, kteří hledají informace o návštěvnosti webových stránek a chování uživatelů.
Kansas tento model nezakázal. Ani ostatní státy. Infrastruktura pro reidentifikaci existuje – a nikdo se ji vážně nesnaží zastavit.
Zákony na ochranu osobních údajů nadále propagují anonymizovaná data jako ochranný nástroj, zatímco datové společnosti současně vyvíjejí systémy, které anonymizaci obracejí.
Obě reality existují – ale v zásadách ochrany osobních údajů je zmíněna pouze jedna.
V roce 2000 koupila Latanya Sweeneyová v Cambridge v Massachusetts za dvacet dolarů dvě diskety obsahující záznamy o registraci voličů. Obsahovaly jména, adresy, PSČ, data narození a pohlaví.
Na základě těchto informací položila otázku: Kolik Američanů lze jednoznačně identifikovat podle PSČ, data narození a pohlaví?
Výsledek: 87 % , přibližně 216 milionů lidí .
Federální a státní úřady zveřejnily lékařská data bez jmen a telefonních čísel a označily je za anonymní.
Sweeney ukázal, že anonymita mizí, když se tato tři pole spojí. Poštovní směrovací číslo zredukovalo počet na několik tisíc, pohlaví ještě více a datum narození na jednu osobu.
V některých oblastech s poštovními směrovacími číslami stačily k identifikaci pouze demografické informace. Seznamy voličů v kombinaci s veřejně dostupnými údaji mohly propojit zdravotní informace s konkrétními osobami.
Regulační orgány a velké technologické společnosti považovaly anonymitu za odstranění zjevných identifikátorů. Jakmile byla jména odstraněna, datová sada byla považována za bezpečnou – předpoklad, který se zhroutil po propojení veřejných registrů.
Kvaziidentifikátory neboli nepřímé charakteristiky se ukázaly být přesnější, než se dříve myslelo. Fungovaly jako spolehlivé markery. Sweeney je použil k demonstraci toho, jak snadno lze identitu rekonstruovat.
Data z PSČ identifikovala většinu Američanů. Informace podle okresů zahrnovaly menší, ale významné skupiny. Kombinované datové soubory eliminovaly jakoukoli anonymitu.
Porovnání datových záznamů
Sweeney sloučil data z registrace voličů a z nemocnic ze stejného města. Data z nemocnic zahrnovala diagnózy, PSČ, pohlaví a datum narození. Seznamy voličů obsahovaly jména a stejné charakteristiky.
Porovnání data narození, pohlaví a PSČ odhalilo přímou souvislost mezi identitou a diagnózou. Data měla být anonymní, ale sloužila jako identifikátory.
Materiál pocházel z oficiálních zdrojů a byl legálně dostupný ke koupi.
V roce 2000 shromažďovalo 44 států USA data z nemocnic. Mnohé z nich je sdílely s výzkumníky, konzultanty a společnostmi.
Rada pro kontrolu nákladů na zdravotní péči v Illinois požadovala kompletní data narození, pětimístné PSČ a pohlaví – stejná pole byla později zveřejněna v souhrnné podobě. Tyto kombinace byly v mnoha oblastech dostatečné pro identifikaci.
Agentura pro výzkum a kvalitu zdravotní péče (AHRQ) shromáždila podobná data prostřednictvím státní databáze lůžkových pacientů.
Některé státy odstranily přesná data narození, jiné ponechaly měsíc a rok. Datové sady obsahovaly data přijetí, diagnózy a informace o nemocnicích. Standardy kódování se značně lišily.
Před zveřejněním nebylo provedeno žádné systematické ověřování anonymity.
Zobecněný princip rozštěpné díry popisuje, co se stane, když počet možných kombinací atributů překročí populaci – pak některé kombinace patří pouze jedné osobě.
Sweeney vypočítal, jak se velikost populace a hloubka atributů vzájemně ovlivňují. Ve většině oblastí s PSČ v USA bylo v každé věkové skupině příliš málo lidí, aby byla zajištěna anonymita.
V jedné oblasti s více než 112 000 obyvateli bylo stále možné určit totožnost jednotlivců. V jiné oblasti s přibližně 5 400 obyvateli bylo tolik lidí soustředěno v jedné věkové skupině, že jasnost byla pravidlem.
Anonymizace jako statistická vlastnost dat selhala – nikoli kvůli zneužití.
Nemocnice a vládní agentury předpokládaly, že jejich data nebudou propojena s jinými zdroji. Veřejné datové sady tento předpoklad vyvrátily. Kombinace jednoduchých demografických dat zviditelnila identity.
Odstranění jmen a telefonních čísel nenabízelo žádnou skutečnou ochranu, když stejnou funkci plnila i jiná pole. Sweeneyho výsledky ukázaly, že se to dalo předvídat.
Závazky v oblasti veřejné bezpečnosti byly založeny na neověřených předpokladech o tom, jak by mohla být data použita.
Sweeneyho práce je stará 25 let – a vzorce přetrvávají. Zdravotní, lokační a spotřebitelské údaje jsou i nadále šířeny s minimálním dohledem a vágními zárukami soukromí.