1.. Begrebet datamaskering
Datamaskering er også kendt som datamaskering. Det er en teknisk metode til at konvertere, ændre eller dække følsomme data såsom mobiltelefonnummer, bankkortnummer og anden information, når vi har givet maskeringsregler og politikker. Denne teknik bruges primært til at forhindre, at følsomme data bruges direkte i upålidelige miljøer.
Datamaskeringsprincip: Datamaskering skal opretholde de originale datakarakteristika, forretningsregler og datarelevans for at sikre, at den efterfølgende udvikling, test og dataanalyse ikke vil blive påvirket af maskering. Sørg for datakonsistens og gyldighed før og efter maskering.
2. Data Masking Classification
Datamaskering kan opdeles i statisk datamaskering (SDM) og dynamisk datamaskering (DDM).
Statisk datamaskering (SDM): Statisk datamaskering kræver etablering af en ny ikke-produktionsmiljødatabase til isolering fra produktionsmiljøet. Følsomme data ekstraheres fra produktionsdatabasen og gemmes derefter i ikke-produktionsdatabasen. På denne måde er de desensibiliserede data isoleret fra produktionsmiljøet, der imødekommer forretningsbehov og sikrer sikkerheden for produktionsdata.
Dynamic Data Masking (DDM): Det bruges generelt i produktionsmiljøet til at desensibilisere følsomme data i realtid. Nogle gange kræves forskellige niveauer af maskering for at læse de samme følsomme data i forskellige situationer. For eksempel kan forskellige roller og tilladelser implementere forskellige maskeringsordninger.
Data rapportering og dataprodukter Masking Application
Sådanne scenarier inkluderer hovedsageligt interne dataovervågningsprodukter eller billboard, eksterne servicedataprodukter og rapporter baseret på dataanalyse, såsom forretningsrapporter og projektgennemgang.
3. Data Masking Solution
Almindelige datamaskeringsordninger inkluderer: ugyldighed, tilfældig værdi, udskiftning af data, symmetrisk kryptering, gennemsnitsværdi, offset og afrunding osv.
Ugyldighed: Ugyldigation henviser til kryptering, trunkering eller skjul af følsomme data. Denne ordning erstatter normalt reelle data med specielle symboler (såsom *). Operationen er enkel, men brugerne kan ikke kende formatet for de originale data, som kan påvirke efterfølgende dataapplikationer.
Tilfældig værdi: Den tilfældige værdi henviser til tilfældig udskiftning af følsomme data (tal erstatter cifre, bogstaver erstatter bogstaver og tegn erstatter tegn). Denne maskeringsmetode vil sikre formatet af følsomme data i en vis grad og lette efterfølgende dataapplikation. Masking -ordbøger kan være nødvendig for nogle meningsfulde ord, såsom navne på mennesker og steder.
Dataudskiftning: Dataudskiftning ligner maskeringen af nul og tilfældige værdier, bortset fra at i stedet for at bruge specialtegn eller tilfældige værdier, erstattes maskeringsdata med en bestemt værdi.
Symmetrisk kryptering: Symmetrisk kryptering er en speciel reversibel maskeringsmetode. Det krypterer følsomme data gennem krypteringstaster og algoritmer. Ciffertext -formatet er i overensstemmelse med de originale data i logiske regler.
Gennemsnit: Det gennemsnitlige skema bruges ofte i statistiske scenarier. For numeriske data beregner vi først deres middelværdi og distribuerer derefter tilfældigt de desensibiliserede værdier omkring middelværdien, hvilket holder summen af datakonstanten.
Forskydning og afrunding: Denne metode ændrer de digitale data ved tilfældig skift. Offset -afrundingen sikrer den omtrentlige ægthed af intervallet, samtidig med at dataene opretholder sikkerheden for dataene, som er tættere på de reelle data end de tidligere ordninger, og har stor betydning i scenariet med big data -analyse.
Anbefalmodellen "ML-NPB-5660"Til datamaskering
4. Almindeligt anvendte datamaskeringsteknikker
(1). Statistiske teknikker
Dataprøvetagning og datagagring
- Dataprøvetagning: Analysen og evalueringen af det originale datasæt ved at vælge en repræsentativ undergruppe af datasættet er en vigtig metode til at forbedre effektiviteten af de-identifikationsteknikker.
- Dataaggregation: Som en samling af statistiske teknikker (såsom summering, tælling, gennemsnit, maksimum og minimum) anvendt til attributter i mikrodata, er resultatet repræsentativt for alle poster i det originale datasæt.
(2). Kryptografi
Kryptografi er en almindelig metode til at desensibilisere eller forbedre effektiviteten af desensibilisering. Forskellige typer krypteringsalgoritmer kan opnå forskellige desensibiliseringseffekter.
- Deterministisk kryptering: En ikke-tilfældig symmetrisk kryptering. Det behandler normalt ID -data og kan dekryptere og gendanne chifferteksten til det originale ID, når det er nødvendigt, men nøglen skal beskyttes korrekt.
- Irreversibel kryptering: HASH -funktionen bruges til at behandle data, som normalt bruges til ID -data. Det kan ikke dekrypteres direkte, og kortlægningsforholdet skal gemmes. På grund af funktionen ved hash -funktionen kan der desuden forekomme datakollision.
- Homomorfe kryptering: Ciffertext -homomorfe algoritme bruges. Dets kendetegn er, at resultatet af chiffertekst -drift er det samme som af PlaintExt -drift efter dekryptering. Derfor bruges det ofte til at behandle numeriske felter, men det bruges ikke i vid udstrækning af præstationsårsager.
(3). Systemteknologi
Undertrykkelsesteknologien sletter eller Shields dataelementer, der ikke opfylder beskyttelsen af privatlivets fred, men ikke offentliggør dem.
- Maskering: Det henviser til den mest almindelige desensibiliseringsmetode til at maskere attributværdien, såsom modstandernummeret, ID -kort er markeret med en stjerne, eller adressen er afkortet.
- Lokal undertrykkelse: henviser til processen med at slette specifikke attributværdier (kolonner), fjerne ikke-væsentlige datafelter;
- Registreringsundertrykkelse: Henviser til processen med at slette specifikke poster (rækker), sletning af ikke-væsentlige dataregistre.
(4). Pseudonymteknologi
Pseudomanning er en de-identifikationsteknik, der bruger et pseudonym til at erstatte en direkte identifikator (eller anden følsom identifikator). Pseudonymteknikker skaber unikke identifikatorer for hvert enkelt informationsemne i stedet for direkte eller følsomme identifikatorer.
- Det kan generere tilfældige værdier uafhængigt at svare til det originale ID, gemme kortlægningstabellen og strengt kontrollere adgangen til kortlægningstabellen.
- Du kan også bruge kryptering til at fremstille pseudonymer, men har brug for at holde dekrypteringsnøglen korrekt;
Denne teknologi er vidt brugt i tilfælde af et stort antal uafhængige databrugere, såsom OpenID i det åbne platformscenarie, hvor forskellige udviklere får forskellige OpenID'er for den samme bruger.
(5). Generaliseringsteknikker
Generaliseringsteknik henviser til en de-identifikationsteknik, der reducerer granulariteten af udvalgte attributter i et datasæt og giver en mere generel og abstrakt beskrivelse af dataene. Generaliseringsteknologi er let at implementere og kan beskytte ægtheden af data på postniveau. Det bruges ofte i dataprodukter eller datarapporter.
- afrunding: involverer at vælge en afrundingsbase til den valgte attribut, såsom opad eller nedadgående retsmedicin, hvilket giver resultater 100, 500, 1K og 10K
- Top- og bundkodningsteknikker: Udskift værdier ovenfor (eller nedenfor) Tærsklen med en tærskel, der repræsenterer det øverste (eller bund) niveau, hvilket giver et resultat af "over X" eller "under X"
(6). Randomiseringsteknikker
Som en slags de-identifikationsteknik henviser randomiseringsteknologi til at ændre værdien af en attribut gennem randomisering, så værdien efter randomisering er forskellig fra den oprindelige reelle værdi. Denne proces reducerer en angriberens evne til at udlede en attributværdi fra andre attributværdier i den samme dataregistrering, men påvirker ægtheden af de resulterende data, hvilket er almindeligt med produktionstestdata.
Posttid: SEP-27-2022