1. Konceptet med datamaskering
Datamaskering er også kendt som datamaskering. Det er en teknisk metode til at konvertere, ændre eller dække følsomme data såsom mobiltelefonnummer, bankkortnummer og andre oplysninger, når vi har fastsat maskeringsregler og -politikker. Denne teknik bruges primært til at forhindre, at følsomme data bruges direkte i upålidelige miljøer.
Princip for datamaskering: Datamaskering bør bevare de oprindelige dataegenskaber, forretningsregler og datarelevans for at sikre, at efterfølgende udvikling, test og dataanalyse ikke påvirkes af maskering. Datakonsistens og validitet sikres før og efter maskering.
2. Klassificering af datamaskering
Datamaskering kan opdeles i statisk datamaskering (SDM) og dynamisk datamaskering (DDM).
Statisk datamaskering (SDM)Statisk datamaskering kræver etablering af en ny ikke-produktionsmiljødatabase til isolering fra produktionsmiljøet. Følsomme data udtrækkes fra produktionsdatabasen og gemmes derefter i ikke-produktionsdatabasen. På denne måde isoleres de desensibiliserede data fra produktionsmiljøet, hvilket opfylder forretningsbehov og sikrer produktionsdataenes sikkerhed.
Dynamisk datamaskering (DDM)Det bruges generelt i produktionsmiljøet til at desensibilisere følsomme data i realtid. Nogle gange kræves forskellige niveauer af maskering for at læse de samme følsomme data i forskellige situationer. For eksempel kan forskellige roller og tilladelser implementere forskellige maskeringsordninger.
Applikation til datarapportering og maskering af dataprodukter
Sådanne scenarier omfatter primært interne dataovervågningsprodukter eller billboards, eksterne servicedataprodukter og rapporter baseret på dataanalyse, såsom forretningsrapporter og projektgennemgang.
3. Datamaskeringsløsning
Almindelige datamaskeringsordninger omfatter: ugyldiggørelse, tilfældig værdi, dataerstatning, symmetrisk kryptering, gennemsnitsværdi, forskydning og afrunding osv.
UgyldiggørelseUgyldiggørelse refererer til kryptering, afkortning eller skjulning af følsomme data. Denne ordning erstatter normalt reelle data med specialsymboler (f.eks. *). Handlingen er enkel, men brugerne kan ikke kende formatet på de originale data, hvilket kan påvirke efterfølgende dataapplikationer.
Tilfældig værdiDen tilfældige værdi refererer til den tilfældige erstatning af følsomme data (tal erstatter cifre, bogstaver erstatter bogstaver, og tegn erstatter tegn). Denne maskeringsmetode vil i et vist omfang sikre formatet af følsomme data og lette den efterfølgende dataanvendelse. Maskeringsordbøger kan være nødvendige for nogle betydningsfulde ord, såsom navne på personer og steder.
DataudskiftningDataerstatning svarer til maskering af nul- og tilfældige værdier, bortset fra at maskeringsdataene erstattes med en specifik værdi i stedet for at bruge specialtegn eller tilfældige værdier.
Symmetrisk krypteringSymmetrisk kryptering er en særlig reversibel maskeringsmetode. Den krypterer følsomme data via krypteringsnøgler og algoritmer. Krypteringstekstformatet er i overensstemmelse med de originale data i logiske regler.
GennemsnitGennemsnitsskemaet bruges ofte i statistiske scenarier. For numeriske data beregner vi først deres middelværdi og fordeler derefter de desensibiliserede værdier tilfældigt omkring middelværdien, hvorved summen af dataene holdes konstant.
Forskydning og afrundingDenne metode ændrer de digitale data ved tilfældig forskydning. Offset-afrundingen sikrer den omtrentlige ægthed af området, samtidig med at datasikkerheden opretholdes, hvilket er tættere på de reelle data end de tidligere ordninger, og har stor betydning i scenariet med big data-analyse.
Den anbefalede modelML-NPB-5660" til datamaskering
4. Almindeligt anvendte datamaskeringsteknikker
(1). Statistiske teknikker
Dataprøvetagning og dataaggregering
- Dataudtagning: Analyse og evaluering af det oprindelige datasæt ved at udvælge en repræsentativ delmængde af datasættet er en vigtig metode til at forbedre effektiviteten af afidentifikationsteknikker.
- Dataaggregering: Som en samling af statistiske teknikker (såsom summering, optælling, gennemsnitsberegning, maksimum og minimum) anvendt på attributter i mikrodata, er resultatet repræsentativt for alle poster i det oprindelige datasæt.
(2). Kryptografi
Kryptografi er en almindelig metode til at desensibilisere eller forbedre effektiviteten af desensibilisering. Forskellige typer krypteringsalgoritmer kan opnå forskellige desensibiliseringseffekter.
- Deterministisk kryptering: En ikke-tilfældig symmetrisk kryptering. Den behandler normalt ID-data og kan dekryptere og gendanne krypteringsteksten til det oprindelige ID, når det er nødvendigt, men nøglen skal beskyttes korrekt.
- Irreversibel kryptering: Hashfunktionen bruges til at behandle data, hvilket normalt bruges til ID-data. Den kan ikke dekrypteres direkte, og kortlægningsforholdet skal gemmes. Derudover kan der på grund af hashfunktionens funktion forekomme datakollisioner.
- Homomorf kryptering: Den homomorfe krypteringsalgoritme bruges. Dens karakteristiske er, at resultatet af krypteringsoperationen er det samme som resultatet af klartekstoperationen efter dekryptering. Derfor bruges den almindeligvis til at behandle numeriske felter, men den bruges ikke i vid udstrækning af ydeevneårsager.
(3). Systemteknologi
Undertrykkelsesteknologien sletter eller beskytter dataelementer, der ikke opfylder privatlivsbeskyttelsen, men offentliggør dem ikke.
- Maskering: Det refererer til den mest almindelige desensibiliseringsmetode til at maskere attributværdier, såsom modstanderens nummer, ID-kort markeret med en asterisk, eller adressen afkortet.
- Lokal undertrykkelse: refererer til processen med at slette specifikke attributværdier (kolonner), fjerne unødvendige datafelter;
- Undertrykkelse af poster: henviser til processen med at slette specifikke poster (rækker), sletning af unødvendige dataposter.
(4). Pseudonymteknologi
Pseudomanning er en afidentifikationsteknik, der bruger et pseudonym til at erstatte en direkte identifikator (eller anden følsom identifikator). Pseudonymteknikker skaber unikke identifikatorer for hver enkelt informationssubjekt i stedet for direkte eller følsomme identifikatorer.
- Den kan generere tilfældige værdier uafhængigt, der svarer til det originale ID, gemme mappingtabellen og strengt kontrollere adgangen til mappingtabellen.
- Du kan også bruge kryptering til at producere pseudonymer, men du skal gemme dekrypteringsnøglen korrekt;
Denne teknologi anvendes i vid udstrækning i tilfælde af et stort antal uafhængige databrugere, såsom OpenID i åben platform-scenariet, hvor forskellige udviklere indhenter forskellige OpenID'er til den samme bruger.
(5). Generaliseringsteknikker
Generaliseringsteknik refererer til en afidentifikationsteknik, der reducerer granulariteten af udvalgte attributter i et datasæt og giver en mere generel og abstrakt beskrivelse af dataene. Generaliseringsteknologi er nem at implementere og kan beskytte ægtheden af data på postniveau. Den bruges almindeligvis i dataprodukter eller datarapporter.
- Afrunding: involverer valg af en afrundingsbase for den valgte attribut, såsom opadgående eller nedadgående retsmedicin, hvilket giver resultaterne 100, 500, 1K og 10K
- Top- og bundkodningsteknikker: Erstat værdier over (eller under) tærsklen med en tærskel, der repræsenterer top- (eller bund-) niveauet, hvilket giver resultatet "over X" eller "under X".
(6). Randomiseringsteknikker
Som en slags afidentifikationsteknik refererer randomiseringsteknologi til at ændre værdien af en attribut gennem randomisering, således at værdien efter randomisering er forskellig fra den oprindelige reelle værdi. Denne proces reducerer en angribers mulighed for at udlede en attributværdi fra andre attributværdier i den samme datapost, men påvirker ægtheden af de resulterende data, hvilket er almindeligt med produktionstestdata.
Opslagstidspunkt: 27. september 2022