Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. WeltenzyklopÀdie
  2. K-anonymisation
K-anonymisation 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.

La k-anonymisation, ou parfois k-anonymité, est une propriété possédée par certaines données anonymisées. Le terme k-anonymisation (k-anonymity en anglais) a été introduit pour la premiÚre fois par Pierangela Samarati et Latanya Sweeney dans un article publié en 1998[1], bien que le concept remonte à un article de 1986 de Tore Dalenius[2].

La k-anonymisation est une tentative pour rĂ©soudre le problĂšme suivant : « Soient des donnĂ©es spĂ©cifiques Ă  des personnes physiques et structurĂ©es sous forme de champs, produire une publication des donnĂ©es avec des garanties scientifiques que les individus qui sont sujets des donnĂ©es ne puissent pas ĂȘtre rĂ©-identifiĂ©s tout en gardant en pratique l'utilitĂ© des donnĂ©es[3],[4],[5]. Â» Une diffusion de donnĂ©es est dite k-anonyme si les informations publiĂ©es relatives Ă  chaque personne ne peuvent pas ĂȘtre distinguĂ©es d'au moins k − 1 {\displaystyle k-1} {\displaystyle k-1} personnes dont les informations sont Ă©galement publiĂ©es. Malheureusement, les garanties fournies par le k-anonymat sont ambitieuses et non mathĂ©matiques.

Méthodes

[modifier | modifier le code]

Pour traiter un ensemble de donnĂ©es au moyen de la k-anonymisation afin de pouvoir les publier tout en protĂ©geant la vie privĂ©e, un scientifique des donnĂ©es doit d'abord examiner l'ensemble de donnĂ©es et dĂ©cider si chaque attribut (colonne) est un « identifiant Â», un « non-identifiant Â», ou un « quasi-identifiant Â». Les identifiants tels que les noms sont supprimĂ©s, les valeurs non identifiantes sont conservĂ©es et les quasi-identifiants seront traitĂ©s de sorte que chaque combinaison distincte de quasi-identifiants dĂ©signe au moins « k Â» enregistrements.

Voici une base de donnĂ©es non anonymisĂ©e des dossiers de patients d'un hĂŽpital fictif. La colonne « Nom Â» est un identifiant, « Ă‚ge, sexe, Ă©tat du domicile Â» et « Religion Â» sont des quasi-identifiants, et « Maladie Â» est une valeur sensible non identifiante.

Patients traités dans l'étude le 30 avril
Nom Âge Genre Hauteur Poids État du domicile Religion Maladie
Ramcha 30 Femme 165 cm 72 kg Tamil Nadu Hindou Cancer
Yadu 24 Femme 162 cm 70 kg Kerala Hindou Infection virale
Salima 28 Femme 170 cm 68 kg Tamil Nadu Musulman Tuberculose
Sunny 27 Homme 170 cm 75 kg Karnataka Parsi Pas de maladie
Jeanne 24 Femme 165 cm 71 kg Kerala ChrĂ©tien LiĂ© au cƓur
Bahuksana 23 Homme 160 cm 69 kg Karnataka Bouddhiste Tuberculose
Rambha 19 Homme 167 cm 85 kg Kerala Hindou Cancer
Kishor 29 Homme 180 cm 81 kg Karnataka Hindou LiĂ© au cƓur
Johnson 17 Homme 175 cm 79 kg Kerala ChrĂ©tien LiĂ© au cƓur
John 19 Homme 169 cm 82 kg Kerala Chrétien Infection virale

Ces donnĂ©es contiennent 6 attributs et 10 enregistrements. Il existe deux mĂ©thodes courantes pour atteindre le « k-anonymat Â» pour une certaine valeur de « k Â».

  • Suppression : Dans cette mĂ©thode, certaines valeurs des attributs sont remplacĂ©es par un astĂ©risque '*'. Dans le tableau anonymisĂ© ci-dessous, nous avons remplacĂ© toutes les valeurs de l'attribut « Nom Â» et toutes les valeurs de l'attribut « Religion Â» par un « '*' Â».
  • GĂ©nĂ©ralisation : Dans cette mĂ©thode, les valeurs individuelles des attributs sont remplacĂ©es par une catĂ©gorie plus large. Par exemple, la valeur « 19 Â» de l'attribut « Age Â» peut ĂȘtre remplacĂ©e par « â‰€ 20 Â», la valeur « 23 Â» par « 20 < Age ≀ 30 Â», etc.

Voici la base de donnĂ©es anonymisĂ©e :

Patients traités dans l'étude le 30 avril
Nom Âge Genre Hauteur Poids État de domicile Religion Maladie
* 20 < Âge ≀ 30 Femme 165 cm 72 kg Tamil Nadu * Cancer
* 20 < Âge ≀ 30 Femme 162 cm 70 kg Kerala * Infection virale
* 20 < Âge ≀ 30 Femme 170 cm 68 kg Tamil Nadu * Tuberculose
* 20 < Âge ≀ 30 Homme 170 cm 75 kg Karnataka * Pas de maladie
* 20 < Âge ≀ 30 Femme 165 cm 71 kg Kerala * LiĂ© au cƓur
* 20 < Âge ≀ 30 Homme 160 cm 69 kg Karnataka * Tuberculose
* Âge ≀ 20 Homme 167 cm 85 kg Kerala * Cancer
* 20 < Âge ≀ 30 Homme 180 cm 81 kg Karnataka * LiĂ© au cƓur
* Âge ≀ 20 Homme 175 cm 79 kg Kerala * LiĂ© au cƓur
* Âge ≀ 20 Homme 169 cm 82 kg Kerala * Infection virale

Ces donnĂ©es sont 2-anonymes en ce qui concerne les attributs « Ă‚ge Â», « Sexe Â» et « Ă‰tat du domicile Â» : il y a toujours au moins 2 lignes contenant exactement toute combinaison de valeurs de ces attributs figurant dans le tableau. Les attributs disponibles pour un consommateur sont appelĂ©s quasi-identifiants. Chaque tuple de quasi-identifiant apparaĂźt dans au moins « k Â» enregistrements pour un ensemble de donnĂ©es k-anonymes[6].

Critiques

[modifier | modifier le code]

Cet exemple montre un Ă©chec de la k-anonymisation : d'autres enregistrements peuvent ĂȘtre reliĂ©s aux variables prĂ©tendĂ»ment non identifiantes. Par exemple, si l'on peut obtenir dans le cadre de l'Ă©tude l'agenda de la personne qui prenait des signes vitaux et qu'on apprend ainsi que Kishor Ă©tait Ă  l'hĂŽpital le 30 avril et qu'il mesure 180 cm, on pourrait relier cette information Ă  la base de donnĂ©es prĂ©tendĂ»ment anonymisĂ©e (qui a peut-ĂȘtre Ă©tĂ© publiĂ©e sur Internet) et en dĂ©duire que Kishor souffre d'une maladie cardiaque. Si l'on est au courant de la visite de Kishor Ă  l'hĂŽpital le 30 avril, on pourrait le dĂ©duire en sachant simplement que Kishor mesure 180 cm, qu'il pĂšse environ 80 Ă  82 kg et qu'il vient du Karnataka.

Ce problĂšme se trouve au cƓur de la k-anonymisation : on ne peut pas dĂ©terminer mathĂ©matiquement et sans ambiguĂŻtĂ© si un attribut est un identifiant, un quasi-identifiant ou une valeur sensible non identifiante. En fait, toutes les valeurs sont potentiellement identifiantes, en fonction de leur prĂ©pondĂ©rance dans la population et des informations supplĂ©mentaires dont dispose le consommateur des donnĂ©es. D'autres mĂ©canismes de confidentialitĂ© tels que la confidentialitĂ© diffĂ©rentielle ne partagent pas ce problĂšme.

Meyerson et Williams (2004) ont dĂ©montrĂ© qu'optimiser la k-anonymisation est un problĂšme NP-difficile, mais les mĂ©thodes heuristiques telles que k-Optimize, fournies par Bayardo et Agrawal (2005) donnent souvent des rĂ©sultats efficaces[7],[8] Kenig et Tassa ont prĂ©sentĂ© un algorithme d'approximation pratique qui permet de rĂ©soudre le problĂšme de « k Â»-anonymisation avec une garantie d'approximation de l'ordre de log ⁥ k {\displaystyle \log k} {\displaystyle \log k}[9].

Attaques

[modifier | modifier le code]

Bien que la k-anonymisation soit une approche relativement simple Ă  mettre en Ɠuvre pour anonymiser un ensemble de donnĂ©es avant sa publication, il est vulnĂ©rable Ă  de nombreuses attaques. Lorsqu'un agresseur dispose par ailleurs de certaines informations, ces attaques deviennent encore plus efficaces. Elles comprennent :

  • « Attaque d'homogĂ©nĂ©itĂ© Â» : cette attaque exploite le cas oĂč toutes les valeurs d'une donnĂ©e sensible sont identiques dans un ensemble de « k Â» enregistrements. Dans ce cas, mĂȘme si les donnĂ©es ont Ă©tĂ© « k Â»-anonymisĂ©es, la valeur sensible peut ĂȘtre prĂ©dite avec prĂ©cision pour l'ensemble de « k Â» enregistrements.
  • « Attaque basĂ©e sur des informations complĂ©mentaires Â» : cette attaque exploite une association entre un ou plusieurs attributs de quasi-identifiant avec l'attribut sensible afin de rĂ©duire l'ensemble des valeurs possibles pour l'attribut sensible. Par exemple, Machanavajjhala, Kifer, Gehrke et Venkitasubramaniam (2007) ont montrĂ© que le fait de savoir que les crises cardiaques surviennent Ă  un rythme rĂ©duit chez les patients japonais pouvait ĂȘtre utilisĂ© pour rĂ©duire la plage de valeurs d'un attribut sensible de la maladie d'un patient.
  • « Attaque par dĂ©classement Â» : Cette attaque, introduite en 2022 par Aloni Cohen, tire parti de la façon dont les algorithmes d'anonymisation agrĂšgent les attributs dans diffĂ©rents enregistrements. Étant donnĂ© que l'agrĂ©gation est dĂ©terministe, il est possible, dans de nombreux cas, de reconstituer l'image des donnĂ©es d'origine qui auraient dĂ» ĂȘtre protĂ©gĂ©es. Cette attaque est facilitĂ©e si l'agresseur dispose d'informations complĂ©mentaires, mais elles ne sont pas indispensables[10].

Comme la k-anonymisation n'implique aucune randomisation, les attaquants peuvent faire des inférences fiables et incontestables sur des données susceptibles de nuire aux individus. Par exemple, si l'on sait que John, 19 ans, originaire du Kerala, figure dans la base de données ci-dessus, on peut dire avec certitude qu'il a soit un cancer, soit une maladie cardiaque, soit une infection virale. La k-anonymisation est une mauvaise méthode pour anonymiser des jeux de données de grande dimension[11].

On a Ă©galement dĂ©montrĂ© que la « k Â»-anonymisation peut fausser les rĂ©sultats d'un ensemble de donnĂ©es s'il supprime et gĂ©nĂ©ralise de maniĂšre disproportionnĂ©e des points de donnĂ©es prĂ©sentant des caractĂ©ristiques non reprĂ©sentatives[12]. On peut cependant modifier les algorithmes de suppression et de gĂ©nĂ©ralisation qu'utilise la k-anonymisation afin qu'ils ne prĂ©sentent pas ce biais[13].

Articles connexes

[modifier | modifier le code]
  • ConfidentialitĂ© diffĂ©rentielle

Notes et références

[modifier | modifier le code]
  1. ↑ (en) Samarati et Sweeney, « Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression Â» [PDF], Harvard Data Privacy Lab, 1998 (consultĂ© le 12 avril 2017).
  2. ↑ (en) Tore Dalenius, « Finding a Needle In a Haystack Â», Journal of Official Statistics, vol. 2, no 3,‎ 1986, p. 326-336 (lire en ligne [PDF]).
  3. ↑ (en) Samarati, « Protecting Respondents' Identities in Microdata Release Â», IEEE Transactions on Knowledge and Data Engineering, vol. 13, no 6,‎ novembre 2001, p. 1010–1027 (DOI 10.1109/69.971193, lire en ligne [PDF]).
  4. ↑ (en) Sweeney, « Database Security: k-anonymity Â» (consultĂ© le 19 janvier 2014)
  5. ↑ (en) Sweeney, « k-anonymity: a model for protecting privacy Â», International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10, no 5,‎ 2002, p. 557–570 (DOI 10.1142/S0218488502001648, lire en ligne).
  6. ↑ (en) Narayanan et Shmatikov, « Robust De-anonymization of Large Sparse Datasets Â» [PDF].
  7. ↑ (en) Roberto J. Bayardo et Rakesh Agrawal, « Data Privacy through Optimal k-anonymization Â», ICDE '05 Proceedings of the 21st International Conference on Data Engineering,‎ 2005, Data de-identification reconciles the demand for release of data for research purposes and the demand for privacy from individuals. This paper proposes and evaluates an optimization algorithm for the powerful de-identification procedure known as k-anonymization. A k-anonymized dataset has the property that each record is indistinguishable from at least k - 1 others. Even simple restrictions of optimized k-anonymity are NP-hard, leading to significant computational challenges. We present a new approach to exploring the space of possible anonymizations that tames the combinatorics of the problem, and develop data-management strategies to reduce reliance on expensive operations such as sorting. Through experiments on real census data, we show the resulting algorithm can find optimal k-anonymizations under two representative cost measures and a wide range of k. We also show that the algorithm can produce good anonymizations in circumstances where the input data or input parameters preclude finding an optimal solution in reasonable time. Finally, we use the algorithm to explore the effects of different coding approaches and problem variations on anonymization quality and performance. To our knowledge, this is the first result demonstrating optimal k-anonymization of a nontrivial dataset under a general model of the problem. (ISBN 978-0-7695-2285-2, ISSN 1084-4627, DOI 10.1109/ICDE.2005.42, S2CID 17044848, lire en ligne).
  8. ↑ (en) Adam Meyerson et Ryan Williams, « On the Complexity of Optimal K-Anonymity Â», PODS '04 Proceedings of the Twenty-Third ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, New York, NY, ACM,‎ 2004, p. 223–228 (ISBN 978-1581138580, DOI 10.1145/1055558.1055591, S2CID 6798963, lire en ligne [PDF])
  9. ↑ (en) Kenig et Tassa, « A practical approximation algorithm for optimal k-anonymity Â», Data Mining and Knowledge Discovery, vol. 25,‎ 2012, p. 134–168 (DOI 10.1007/s10618-011-0235-9, S2CID 14158546).
  10. ↑ (en) « Attacks on Deidentificaiton's Data, Aloni Cohen, USENIX Security 2022, Distinguished Paper Award Winner Â».
  11. ↑ Charu C. Aggarwal « On k-Anonymity and the Curse of Dimensionality Â» (2005)
    — « (ibid.) Â», dans VLDB '05 – Proceedings of the 31st International Conference on Very large Data Bases, Trondheim, Norway (ISBN 1-59593-154-6)
    .
  12. ↑ (en) Angiuli, Joe Blitzstein et Jim Waldo, « How to De-Identify Your Data Â», ACM Queue, ACM.
  13. ↑ (en) Angiuli et Jim Waldo, « Statistical Tradeoffs between Generalization and Suppression in the De-Identification of Large-Scale Data Sets Â», IEEE Computer Society Intl Conference on Computers, Software, and Applications,‎ juin 2016, p. 589–593 (ISBN 978-1-4673-8845-0, DOI 10.1109/COMPSAC.2016.198, S2CID 17716908).
  • icĂŽne dĂ©corative Portail de la sĂ©curitĂ© de l’information
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=K-anonymisation&oldid=227731078 Â».
CatĂ©gories :
  • Vie privĂ©e
  • Anonymat
CatĂ©gorie cachĂ©e :
  • Portail:SĂ©curitĂ© de l'information/Articles liĂ©s

  • indonesia
  • Polski
  • Ű§Ù„Ű±ÙŠŰ©
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • Ù…Ű”Ű±
  • Nederlands
  • æœŹèȘž
  • PortuguĂȘs
  • Sinugboanong Binisaya
  • Svenska
  • ĐŁĐșŃ€Đ°Ń—ĐœŃĐșа
  • Tiáșżng Việt
  • Winaray
  • äž­æ–‡
  • РуссĐșĐž
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id