1. Konceptet med datamaskering
Datamaskering er også kendt som datamaskering. Det er en teknisk metode til at konvertere, ændre eller dække følsomme data som mobiltelefonnummer, bankkortnummer og andre oplysninger, når vi har givet maskeringsregler og politikker. Denne teknik bruges primært til at forhindre, at følsomme data bruges direkte i upålidelige miljøer.
Datamaskeringsprincip: Datamaskering bør bevare de originale datakarakteristika, forretningsregler og datarelevans for at sikre, at den efterfølgende udvikling, test og dataanalyse ikke vil blive påvirket af maskering. Sikre datakonsistens og validitet før og efter maskering.
2. Klassificering af datamaskering
Datamaskering kan opdeles i statisk datamaskering (SDM) og dynamisk datamaskering (DDM).
Statisk datamaskering (SDM): Statisk datamaskering kræver etablering af en ny ikke-produktionsmiljødatabase til isolering fra produktionsmiljøet. Følsomme data udtrækkes fra produktionsdatabasen og gemmes derefter i ikke-produktionsdatabasen. På denne måde isoleres de desensibiliserede data fra produktionsmiljøet, hvilket opfylder forretningsbehov og sikrer sikkerheden af produktionsdata.
Dynamic Data Masking (DDM): Det bruges generelt i produktionsmiljøet til at desensibilisere følsomme data i realtid. Nogle gange kræves der forskellige maskeringsniveauer for at læse de samme følsomme data i forskellige situationer. For eksempel kan forskellige roller og tilladelser implementere forskellige maskeringsskemaer.
Datarapportering og maskeringsapplikation for dataprodukter
Sådanne scenarier omfatter primært interne dataovervågningsprodukter eller billboard, eksterne servicedataprodukter og rapporter baseret på dataanalyse, såsom forretningsrapporter og projektgennemgang.
3. Datamaskeringsløsning
Almindelige datamaskeringsskemaer omfatter: ugyldighed, tilfældig værdi, dataerstatning, symmetrisk kryptering, gennemsnitsværdi, offset og afrunding osv.
Ugyldiggørelse: Ugyldiggørelse refererer til kryptering, trunkering eller skjulning af følsomme data. Denne ordning erstatter normalt rigtige data med specielle symboler (såsom *). Betjeningen er enkel, men brugerne kan ikke kende formatet på de originale data, hvilket kan påvirke efterfølgende dataapplikationer.
Tilfældig værdi: Den tilfældige værdi henviser til den tilfældige udskiftning af følsomme data (tal erstatter cifre, bogstaver erstatter bogstaver, og tegn erstatter tegn). Denne maskeringsmetode vil sikre formatet af følsomme data i et vist omfang og lette efterfølgende dataanvendelse. Maskeringsordbøger kan være nødvendige for nogle meningsfulde ord, såsom navne på personer og steder.
Udskiftning af data: Dataerstatning ligner maskeringen af null- og tilfældige værdier, bortset fra at i stedet for at bruge specialtegn eller tilfældige værdier, erstattes maskeringsdataene med en bestemt værdi.
Symmetrisk kryptering: Symmetrisk kryptering er en speciel reversibel maskeringsmetode. Den krypterer følsomme data gennem krypteringsnøgler og algoritmer. Chiffertekstformatet er i overensstemmelse med de originale data i logiske regler.
Gennemsnit: Gennemsnitsskemaet bruges ofte i statistiske scenarier. For numeriske data beregner vi først deres middelværdi og fordeler derefter de desensibiliserede værdier tilfældigt rundt om middelværdien, hvorved summen af dataene holdes konstant.
Offset og afrunding: Denne metode ændrer de digitale data ved tilfældig skift. Offset-afrundingen sikrer den omtrentlige ægthed af rækkevidden, samtidig med at datasikkerheden opretholdes, som er tættere på de reelle data end de tidligere skemaer og har stor betydning i scenariet med big data-analyse.
Den anbefalede model"ML-NPB-5660" for datamaskering
4. Almindeligt anvendte datamaskeringsteknikker
(1). Statistiske teknikker
Datasampling og dataaggregering
- Datasampling: Analysen og evalueringen af det originale datasæt ved at vælge en repræsentativ delmængde af datasættet er en vigtig metode til at forbedre effektiviteten af afidentifikationsteknikker.
- Dataaggregering: Som en samling af statistiske teknikker (såsom summering, optælling, gennemsnit, maksimum og minimum) anvendt på attributter i mikrodata, er resultatet repræsentativt for alle poster i det originale datasæt.
(2). Kryptografi
Kryptografi er en almindelig metode til at desensibilisere eller forbedre effektiviteten af desensibilisering. Forskellige typer krypteringsalgoritmer kan opnå forskellige desensibiliseringseffekter.
- Deterministisk kryptering: En ikke-tilfældig symmetrisk kryptering. Det behandler normalt ID-data og kan dekryptere og gendanne chifferteksten til det originale ID, når det er nødvendigt, men nøglen skal beskyttes ordentligt.
- Irreversibel kryptering: Hash-funktionen bruges til at behandle data, som normalt bruges til ID-data. Det kan ikke dekrypteres direkte, og kortlægningsforholdet skal gemmes. På grund af funktionen af hash-funktionen kan der desuden forekomme datakollision.
- Homomorf kryptering: Den chiffertekst homomorfe algoritme bruges. Dets karakteristika er, at resultatet af chiffertekstoperation er det samme som ved almindelig tekstoperation efter dekryptering. Derfor bruges det almindeligvis til at behandle numeriske felter, men det er ikke meget brugt af ydeevnemæssige årsager.
(3). Systemteknologi
Undertrykkelsesteknologien sletter eller afskærmer dataelementer, der ikke opfylder privatlivsbeskyttelsen, men udgiver dem ikke.
- Maskering: det henviser til den mest almindelige desensibiliseringsmetode til at maskere attributværdien, såsom modstanderens nummer, ID-kort er markeret med en stjerne, eller adressen er afkortet.
- Lokal undertrykkelse: refererer til processen med at slette specifikke attributværdier (kolonner), fjernelse af ikke-essentielle datafelter;
- Record undertrykkelse: refererer til processen med sletning af specifikke poster (rækker), sletning af ikke-essentielle dataposter.
(4). Pseudonym teknologi
Pseudomanning er en afidentifikationsteknik, der bruger et pseudonym til at erstatte en direkte identifikator (eller anden følsom identifikator). Pseudonymteknikker skaber unikke identifikatorer for hvert enkelt informationsobjekt i stedet for direkte eller følsomme identifikatorer.
- Det kan generere tilfældige værdier uafhængigt for at svare til det originale ID, gemme kortlægningstabellen og strengt kontrollere adgangen til kortlægningstabellen.
- Du kan også bruge kryptering til at producere pseudonymer, men skal opbevare dekrypteringsnøglen korrekt;
Denne teknologi er meget udbredt i tilfælde af et stort antal uafhængige databrugere, såsom OpenID i det åbne platform-scenarie, hvor forskellige udviklere får forskellige Openids til den samme bruger.
(5). Generaliseringsteknikker
Generaliseringsteknik refererer til en afidentifikationsteknik, der reducerer granulariteten af udvalgte attributter i et datasæt og giver en mere generel og abstrakt beskrivelse af dataene. Generaliseringsteknologi er nem at implementere og kan beskytte ægtheden af data på rekordniveau. Det bruges almindeligvis i dataprodukter eller datarapporter.
- Afrunding: Indebærer valg af en afrundingsbase for den valgte attribut, såsom op- eller nedadgående efterforskning, hvilket giver resultater 100, 500, 1K og 10K
- Top- og bundkodningsteknikker: Erstat værdier over (eller under) tærsklen med en tærskel, der repræsenterer det øverste (eller nederste) niveau, hvilket giver resultatet "over X" eller "under X"
(6). Randomiseringsteknikker
Som en slags afidentifikationsteknik refererer randomiseringsteknologi til at ændre værdien af en attribut gennem randomisering, så værdien efter randomisering er forskellig fra den oprindelige reelle værdi. Denne proces reducerer en angribers evne til at udlede en attributværdi fra andre attributværdier i den samme datapost, men påvirker ægtheden af de resulterende data, hvilket er almindeligt med produktionstestdata.
Indlægstid: 27. september 2022