1. Տվյալների դիմակավորման հայեցակարգը
Տվյալների դիմակավորումը հայտնի է նաև որպես տվյալների դիմակավորում: Դա տեխնիկական մեթոդ է՝ փոխակերպելու, փոփոխելու կամ ծածկելու այնպիսի զգայուն տվյալներ, ինչպիսիք են բջջային հեռախոսահամարը, բանկային քարտի համարը և այլ տեղեկություններ, երբ մենք տվել ենք քողարկման կանոններ և քաղաքականություն: Այս տեխնիկան հիմնականում օգտագործվում է կանխելու զգայուն տվյալների ուղղակի օգտագործումը անվստահելի միջավայրերում:
Տվյալների քողարկման սկզբունքը. Տվյալների քողարկումը պետք է պահպանի սկզբնական տվյալների բնութագրերը, բիզնես կանոնները և տվյալների համապատասխանությունը, որպեսզի ապահովի, որ հետագա մշակումը, փորձարկումը և տվյալների վերլուծությունը չեն ազդի դիմակավորման վրա: Ապահովել տվյալների հետևողականությունը և վավերականությունը դիմակավորումից առաջ և հետո:
2. Տվյալների քողարկման դասակարգում
Տվյալների դիմակավորումը կարելի է բաժանել ստատիկ տվյալների դիմակավորման (SDM) և դինամիկ տվյալների դիմակավորման (DDM):
Ստատիկ տվյալների դիմակավորում (SDM)Ստատիկ տվյալների դիմակավորումը պահանջում է նոր ոչ արտադրական միջավայրի տվյալների բազայի ստեղծում՝ արտադրական միջավայրից մեկուսացման համար: Զգայուն տվյալները հանվում են արտադրական տվյալների բազայից և այնուհետև պահվում են ոչ արտադրական տվյալների բազայում: Այսպիսով, ապազգայունացված տվյալները մեկուսացվում են արտադրական միջավայրից, որը բավարարում է բիզնեսի կարիքները և ապահովում արտադրական տվյալների անվտանգությունը։
Դինամիկ տվյալների քողարկում (DDM)Այն սովորաբար օգտագործվում է արտադրական միջավայրում՝ իրական ժամանակում զգայուն տվյալների ապազգայունացման համար: Երբեմն, տարբեր իրավիճակներում նույն զգայուն տվյալները կարդալու համար պահանջվում են դիմակավորման տարբեր մակարդակներ: Օրինակ, տարբեր դերեր և թույլտվություններ կարող են իրականացնել դիմակավորման տարբեր սխեմաներ:
Տվյալների հաշվետվությունների և տվյալների արտադրանքի քողարկման հավելված
Նման սցենարները հիմնականում ներառում են տվյալների ներքին մոնիտորինգի ապրանքներ կամ գովազդային վահանակներ, արտաքին ծառայությունների տվյալների արտադրանքներ և տվյալների վերլուծության վրա հիմնված հաշվետվություններ, ինչպիսիք են բիզնես հաշվետվությունները և նախագծերի վերանայումը:
3. Տվյալների դիմակավորման լուծում
Տվյալների դիմակավորման ընդհանուր սխեմաները ներառում են՝ անվավերացում, պատահական արժեք, տվյալների փոխարինում, սիմետրիկ գաղտնագրում, միջին արժեք, օֆսեթ և կլորացում և այլն:
ԱնվավերությունԱնվավերությունը վերաբերում է զգայուն տվյալների գաղտնագրմանը, կրճատմանը կամ թաքցմանը: Այս սխեման սովորաբար փոխարինում է իրական տվյալները հատուկ նշաններով (օրինակ՝ *): Գործողությունը պարզ է, բայց օգտվողները չեն կարող իմանալ սկզբնական տվյալների ձևաչափը, ինչը կարող է ազդել տվյալների հետագա հավելվածների վրա:
Պատահական արժեքՊատահական արժեքը վերաբերում է զգայուն տվյալների պատահական փոխարինմանը (թվերը փոխարինում են թվանշաններին, տառերը՝ տառերին, իսկ նիշերը՝ նիշերին): Քողարկման այս մեթոդը որոշակիորեն կապահովի զգայուն տվյալների ձևաչափը և կհեշտացնի տվյալների հետագա կիրառումը: Քողարկող բառարաններ կարող են անհրաժեշտ լինել որոշ իմաստալից բառերի, օրինակ՝ մարդկանց և վայրերի անունների համար:
Տվյալների փոխարինումՏվյալների փոխարինումը նման է զրոյական և պատահական արժեքների քողարկմանը, բացառությամբ, որ հատուկ նիշեր կամ պատահական արժեքներ օգտագործելու փոխարեն դիմակավոր տվյալները փոխարինվում են որոշակի արժեքով:
Սիմետրիկ գաղտնագրումՍիմետրիկ գաղտնագրումը հատուկ շրջելի դիմակավորման մեթոդ է: Այն գաղտնագրում է զգայուն տվյալները գաղտնագրման բանալիների և ալգորիթմների միջոցով: Գաղտնագրված տեքստի ձևաչափը համապատասխանում է տրամաբանական կանոնների սկզբնական տվյալներին:
ՄիջինՄիջին սխեման հաճախ օգտագործվում է վիճակագրական սցենարներում: Թվային տվյալների համար մենք նախ հաշվարկում ենք դրանց միջինը, այնուհետև պատահականորեն բաշխում ենք անզգայուն արժեքները միջինի շուրջ՝ այդպիսով պահպանելով տվյալների գումարը հաստատուն:
Օֆսեթ և կլորացումԱյս մեթոդը փոխում է թվային տվյալները պատահական հերթափոխով: Օֆսեթ կլորացումը ապահովում է միջակայքի մոտավոր իսկությունը՝ միաժամանակ պահպանելով տվյալների անվտանգությունը, որն ավելի մոտ է իրական տվյալներին, քան նախորդ սխեմաները, և մեծ նշանակություն ունի մեծ տվյալների վերլուծության սցենարում:
Առաջարկվող մոդելը»ML-NPB-5660«Տվյալների դիմակավորման համար
4. Սովորաբար օգտագործվող տվյալների քողարկման տեխնիկա
(1). Վիճակագրական տեխնիկա
Տվյալների նմուշառում և տվյալների համախմբում
- Տվյալների նմուշառում. սկզբնական տվյալների հավաքածուի վերլուծությունը և գնահատումը` ընտրելով տվյալների հավաքածուի ներկայացուցչական ենթաբազմությունը, կարևոր մեթոդ է նույնականացման ապանույնականացման մեթոդների արդյունավետությունը բարելավելու համար:
- Տվյալների համախմբում. Որպես միկրոտվյալների ատրիբուտների նկատմամբ կիրառվող վիճակագրական տեխնիկայի հավաքածու (օրինակ՝ գումարում, հաշվում, միջինացում, առավելագույն և նվազագույն), արդյունքը ներկայացնում է սկզբնական տվյալների հավաքածուի բոլոր գրառումները:
(2). Գաղտնագրություն
Կրիպտոգրաֆիան անզգայունացման կամ անզգայացման արդյունավետությունը բարձրացնելու տարածված մեթոդ է: Տարբեր տեսակի գաղտնագրման ալգորիթմները կարող են հասնել տարբեր ապազգայունացման էֆեկտների:
- Դետերմինիստական գաղտնագրում. ոչ պատահական սիմետրիկ գաղտնագրում: Այն սովորաբար մշակում է ID-ի տվյալները և անհրաժեշտության դեպքում կարող է վերծանել և վերականգնել ծածկագրված տեքստը սկզբնական ID-ին, սակայն բանալին պետք է պատշաճ կերպով պաշտպանված լինի:
- Անդառնալի գաղտնագրում. Հեշ ֆունկցիան օգտագործվում է տվյալների մշակման համար, որը սովորաբար օգտագործվում է ID տվյալների համար: Այն չի կարող ուղղակիորեն վերծանվել, և քարտեզագրման հարաբերությունները պետք է պահպանվեն: Բացի այդ, հեշ ֆունկցիայի հատկության պատճառով տվյալների բախում կարող է տեղի ունենալ:
- Հոմոմորֆ գաղտնագրում. Օգտագործվում է գաղտնագրված հոմոմորֆ ալգորիթմը: Դրա առանձնահատկությունն այն է, որ գաղտնագրման գործողության արդյունքը նույնն է, ինչ վերծանումից հետո պարզ տեքստի գործողության արդյունքը: Հետևաբար, այն սովորաբար օգտագործվում է թվային դաշտերը մշակելու համար, բայց այն լայնորեն չի օգտագործվում կատարողականի պատճառով:
(3). Համակարգի տեխնոլոգիա
Ճնշման տեխնոլոգիան ջնջում կամ պաշտպանում է տվյալների տարրերը, որոնք չեն համապատասխանում գաղտնիության պաշտպանությանը, բայց դրանք չեն հրապարակում:
- Քողարկում. այն վերաբերում է ատրիբուտի արժեքը քողարկելու ամենատարածված ապազգայունացման մեթոդին, օրինակ՝ հակառակորդի համարը, ID քարտը նշվում է աստղանիշով կամ հասցեն կտրված է:
- Տեղական զսպում. վերաբերում է հատուկ հատկանիշի արժեքների (սյունակների) ջնջման գործընթացին, ոչ էական տվյալների դաշտերը հեռացնելու գործընթացին.
- Գրառումների կասեցում. վերաբերում է կոնկրետ գրառումների (տողերի) ջնջման գործընթացին, ոչ էական տվյալների գրառումները ջնջելու գործընթացին:
(4). կեղծանուն Տեխնոլոգիա
Կեղծամերծումը ապանույնականացման տեխնիկա է, որն օգտագործում է կեղծանուն՝ ուղղակի նույնացուցիչին (կամ այլ զգայուն նույնացուցիչին) փոխարինելու համար: Կեղծանունների տեխնիկան ստեղծում է եզակի նույնացուցիչներ յուրաքանչյուր առանձին տեղեկատվական սուբյեկտի համար՝ ուղղակի կամ զգայուն նույնացուցիչների փոխարեն:
- Այն կարող է ինքնուրույն առաջացնել պատահական արժեքներ՝ բնօրինակ ID-ին համապատասխանելու համար, պահպանել քարտեզագրման աղյուսակը և խստորեն վերահսկել քարտեզագրման աղյուսակի հասանելիությունը:
- Դուք կարող եք նաև օգտագործել կոդավորումը կեղծանուններ արտադրելու համար, սակայն անհրաժեշտ է պատշաճ կերպով պահել ապակոդավորման բանալին.
Այս տեխնոլոգիան լայնորեն կիրառվում է մեծ թվով անկախ տվյալների օգտագործողների դեպքում, ինչպիսին է OpenID-ը բաց հարթակի սցենարում, որտեղ տարբեր ծրագրավորողներ ստանում են տարբեր Openid-ներ նույն օգտագործողի համար:
(5). Ընդհանրացման տեխնիկա
Ընդհանրացման տեխնիկան վերաբերում է ապանույնականացման տեխնիկային, որը նվազեցնում է ընտրված ատրիբուտների հստակությունը տվյալների հավաքածուում և ապահովում է տվյալների ավելի ընդհանուր և վերացական նկարագրություն: Ընդհանրացման տեխնոլոգիան հեշտ է իրականացնել և կարող է պաշտպանել ռեկորդային մակարդակի տվյալների իսկությունը: Այն սովորաբար օգտագործվում է տվյալների արտադրանքներում կամ տվյալների հաշվետվություններում:
- Կլորացում. ներառում է ընտրված հատկանիշի համար կլորացման հիմքի ընտրություն, ինչպիսին է դատաբժշկական փորձաքննությունը դեպի վեր կամ վար, որը տալիս է 100, 500, 1K և 10K արդյունքներ:
- Վերևի և ներքևի կոդավորման տեխնիկա. Փոխարինեք շեմից վեր (կամ ցածր) արժեքները վերին (կամ ներքևի) մակարդակը ներկայացնող շեմով, որը տալիս է «X-ից վեր» կամ «X-ից ցածր» արդյունքը:
(6). Պատահականացման տեխնիկա
Որպես ապանույնականացման տեխնիկա, պատահականացման տեխնոլոգիան վերաբերում է պատահականության միջոցով հատկանիշի արժեքի փոփոխմանը, որպեսզի պատահականացումից հետո արժեքը տարբերվի սկզբնական իրական արժեքից: Այս գործընթացը նվազեցնում է հարձակվողի կարողությունը նույն տվյալների գրառման մեջ այլ ատրիբուտների արժեքներից բխելու հատկանիշը, բայց ազդում է ստացված տվյալների իսկության վրա, ինչը սովորական է արտադրության թեստի տվյալների հետ:
Հրապարակման ժամանակը՝ Sep-27-2022