Hvad er datamaskeringsteknologien og -løsningen i Network Packet Broker?

1. Konceptet med datamaskering

Datamaskering er også kendt som datamaskering. Det er en teknisk metode til at konvertere, ændre eller dække følsomme data såsom mobiltelefonnummer, bankkortnummer og andre oplysninger, når vi har fastsat maskeringsregler og -politikker. Denne teknik bruges primært til at forhindre, at følsomme data bruges direkte i upålidelige miljøer.

Princip for datamaskering: Datamaskering bør bevare de oprindelige dataegenskaber, forretningsregler og datarelevans for at sikre, at efterfølgende udvikling, test og dataanalyse ikke påvirkes af maskering. Datakonsistens og validitet sikres før og efter maskering.

2. Klassificering af datamaskering

Datamaskering kan opdeles i statisk datamaskering (SDM) og dynamisk datamaskering (DDM).

Statisk datamaskering (SDM)Statisk datamaskering kræver etablering af en ny ikke-produktionsmiljødatabase til isolering fra produktionsmiljøet. Følsomme data udtrækkes fra produktionsdatabasen og gemmes derefter i ikke-produktionsdatabasen. På denne måde isoleres de desensibiliserede data fra produktionsmiljøet, hvilket opfylder forretningsbehov og sikrer produktionsdataenes sikkerhed.

SDM

Dynamisk datamaskering (DDM)Det bruges generelt i produktionsmiljøet til at desensibilisere følsomme data i realtid. Nogle gange kræves forskellige niveauer af maskering for at læse de samme følsomme data i forskellige situationer. For eksempel kan forskellige roller og tilladelser implementere forskellige maskeringsordninger.

DDM

Applikation til datarapportering og maskering af dataprodukter

Sådanne scenarier omfatter primært interne dataovervågningsprodukter eller billboards, eksterne servicedataprodukter og rapporter baseret på dataanalyse, såsom forretningsrapporter og projektgennemgang.

Maskering af datarapporteringsprodukter

3. Datamaskeringsløsning

Almindelige datamaskeringsordninger omfatter: ugyldiggørelse, tilfældig værdi, dataerstatning, symmetrisk kryptering, gennemsnitsværdi, forskydning og afrunding osv.

UgyldiggørelseUgyldiggørelse refererer til kryptering, afkortning eller skjulning af følsomme data. Denne ordning erstatter normalt reelle data med specialsymboler (f.eks. *). Handlingen er enkel, men brugerne kan ikke kende formatet på de originale data, hvilket kan påvirke efterfølgende dataapplikationer.

Tilfældig værdiDen tilfældige værdi refererer til den tilfældige erstatning af følsomme data (tal erstatter cifre, bogstaver erstatter bogstaver, og tegn erstatter tegn). Denne maskeringsmetode vil i et vist omfang sikre formatet af følsomme data og lette den efterfølgende dataanvendelse. Maskeringsordbøger kan være nødvendige for nogle betydningsfulde ord, såsom navne på personer og steder.

DataudskiftningDataerstatning svarer til maskering af nul- og tilfældige værdier, bortset fra at maskeringsdataene erstattes med en specifik værdi i stedet for at bruge specialtegn eller tilfældige værdier.

Symmetrisk krypteringSymmetrisk kryptering er en særlig reversibel maskeringsmetode. Den krypterer følsomme data via krypteringsnøgler og algoritmer. Krypteringstekstformatet er i overensstemmelse med de originale data i logiske regler.

GennemsnitGennemsnitsskemaet bruges ofte i statistiske scenarier. For numeriske data beregner vi først deres middelværdi og fordeler derefter de desensibiliserede værdier tilfældigt omkring middelværdien, hvorved summen af ​​dataene holdes konstant.

Forskydning og afrundingDenne metode ændrer de digitale data ved tilfældig forskydning. Offset-afrundingen sikrer den omtrentlige ægthed af området, samtidig med at datasikkerheden opretholdes, hvilket er tættere på de reelle data end de tidligere ordninger, og har stor betydning i scenariet med big data-analyse.

ML-NPB-5660-数据脱敏

Den anbefalede modelML-NPB-5660" til datamaskering

4. Almindeligt anvendte datamaskeringsteknikker

(1). Statistiske teknikker

Dataprøvetagning og dataaggregering

- Dataudtagning: Analyse og evaluering af det oprindelige datasæt ved at udvælge en repræsentativ delmængde af datasættet er en vigtig metode til at forbedre effektiviteten af ​​afidentifikationsteknikker.

- Dataaggregering: Som en samling af statistiske teknikker (såsom summering, optælling, gennemsnitsberegning, maksimum og minimum) anvendt på attributter i mikrodata, er resultatet repræsentativt for alle poster i det oprindelige datasæt.

(2). Kryptografi

Kryptografi er en almindelig metode til at desensibilisere eller forbedre effektiviteten af ​​desensibilisering. Forskellige typer krypteringsalgoritmer kan opnå forskellige desensibiliseringseffekter.

- Deterministisk kryptering: En ikke-tilfældig symmetrisk kryptering. Den behandler normalt ID-data og kan dekryptere og gendanne krypteringsteksten til det oprindelige ID, når det er nødvendigt, men nøglen skal beskyttes korrekt.

- Irreversibel kryptering: Hashfunktionen bruges til at behandle data, hvilket normalt bruges til ID-data. Den kan ikke dekrypteres direkte, og kortlægningsforholdet skal gemmes. Derudover kan der på grund af hashfunktionens funktion forekomme datakollisioner.

- Homomorf kryptering: Den homomorfe krypteringsalgoritme bruges. Dens karakteristiske er, at resultatet af krypteringsoperationen er det samme som resultatet af klartekstoperationen efter dekryptering. Derfor bruges den almindeligvis til at behandle numeriske felter, men den bruges ikke i vid udstrækning af ydeevneårsager.

(3). Systemteknologi

Undertrykkelsesteknologien sletter eller beskytter dataelementer, der ikke opfylder privatlivsbeskyttelsen, men offentliggør dem ikke.

- Maskering: Det refererer til den mest almindelige desensibiliseringsmetode til at maskere attributværdier, såsom modstanderens nummer, ID-kort markeret med en asterisk, eller adressen afkortet.

- Lokal undertrykkelse: refererer til processen med at slette specifikke attributværdier (kolonner), fjerne unødvendige datafelter;

- Undertrykkelse af poster: henviser til processen med at slette specifikke poster (rækker), sletning af unødvendige dataposter.

(4). Pseudonymteknologi

Pseudomanning er en afidentifikationsteknik, der bruger et pseudonym til at erstatte en direkte identifikator (eller anden følsom identifikator). Pseudonymteknikker skaber unikke identifikatorer for hver enkelt informationssubjekt i stedet for direkte eller følsomme identifikatorer.

- Den kan generere tilfældige værdier uafhængigt, der svarer til det originale ID, gemme mappingtabellen og strengt kontrollere adgangen til mappingtabellen.

- Du kan også bruge kryptering til at producere pseudonymer, men du skal gemme dekrypteringsnøglen korrekt;

Denne teknologi anvendes i vid udstrækning i tilfælde af et stort antal uafhængige databrugere, såsom OpenID i åben platform-scenariet, hvor forskellige udviklere indhenter forskellige OpenID'er til den samme bruger.

(5). Generaliseringsteknikker

Generaliseringsteknik refererer til en afidentifikationsteknik, der reducerer granulariteten af ​​udvalgte attributter i et datasæt og giver en mere generel og abstrakt beskrivelse af dataene. Generaliseringsteknologi er nem at implementere og kan beskytte ægtheden af ​​data på postniveau. Den bruges almindeligvis i dataprodukter eller datarapporter.

- Afrunding: involverer valg af en afrundingsbase for den valgte attribut, såsom opadgående eller nedadgående retsmedicin, hvilket giver resultaterne 100, 500, 1K og 10K

- Top- og bundkodningsteknikker: Erstat værdier over (eller under) tærsklen med en tærskel, der repræsenterer top- (eller bund-) niveauet, hvilket giver resultatet "over X" eller "under X".

(6). Randomiseringsteknikker

Som en slags afidentifikationsteknik refererer randomiseringsteknologi til at ændre værdien af ​​en attribut gennem randomisering, således at værdien efter randomisering er forskellig fra den oprindelige reelle værdi. Denne proces reducerer en angribers mulighed for at udlede en attributværdi fra andre attributværdier i den samme datapost, men påvirker ægtheden af ​​de resulterende data, hvilket er almindeligt med produktionstestdata.


Opslagstidspunkt: 27. september 2022