1. Տվյալների քողարկման հայեցակարգը
Տվյալների քողարկումը հայտնի է նաև որպես տվյալների քողարկում: Այն տեխնիկական մեթոդ է զգայուն տվյալները, ինչպիսիք են բջջային հեռախոսահամարը, բանկային քարտի համարը և այլ տեղեկություններ, փոխակերպելու, փոփոխելու կամ ծածկելու համար, երբ մենք տվել ենք քողարկման կանոններ և քաղաքականություն: Այս տեխնիկան հիմնականում օգտագործվում է զգայուն տվյալների անմիջական օգտագործումը անվստահելի միջավայրերում կանխելու համար:
Տվյալների դիմակավորման սկզբունքը. Տվյալների դիմակավորումը պետք է պահպանի տվյալների սկզբնական բնութագրերը, գործարար կանոնները և տվյալների արդիականությունը՝ ապահովելու համար, որ հետագա մշակումը, փորձարկումը և տվյալների վերլուծությունը չազդվեն դիմակավորումից: Ապահովեք տվյալների հետևողականությունը և վավերականությունը դիմակավորումից առաջ և հետո:
2. Տվյալների դիմակավորման դասակարգում
Տվյալների դիմակավորումը կարելի է բաժանել ստատիկ տվյալների դիմակավորման (SDM) և դինամիկ տվյալների դիմակավորման (DDM):
Ստատիկ տվյալների քողարկում (SDM)Ստատիկ տվյալների քողարկումը պահանջում է ստեղծել նոր ոչ արտադրական միջավայրի տվյալների բազա՝ արտադրական միջավայրից մեկուսացնելու համար։ Զգայուն տվյալները դուրս են բերվում արտադրական տվյալների բազայից, այնուհետև պահվում են ոչ արտադրական տվյալների բազայում։ Այս կերպ, զգայունությունից զերծ տվյալները մեկուսացվում են արտադրական միջավայրից, ինչը բավարարում է բիզնեսի կարիքները և ապահովում արտադրական տվյալների անվտանգությունը։
Դինամիկ տվյալների քողարկում (DDM)Այն սովորաբար օգտագործվում է արտադրական միջավայրում՝ իրական ժամանակում զգայուն տվյալները անզգայունացնելու համար: Երբեմն նույն զգայուն տվյալները տարբեր իրավիճակներում կարդալու համար անհրաժեշտ են քողարկման տարբեր մակարդակներ: Օրինակ, տարբեր դերերը և թույլտվությունները կարող են իրականացնել տարբեր քողարկման սխեմաներ:
Տվյալների հաշվետվությունների և տվյալների արտադրանքի քողարկման կիրառություն
Նման սցենարները հիմնականում ներառում են ներքին տվյալների մոնիթորինգի արտադրանք կամ գովազդային վահանակ, արտաքին ծառայությունների տվյալների արտադրանք և տվյալների վերլուծության վրա հիմնված հաշվետվություններ, ինչպիսիք են բիզնես հաշվետվությունները և նախագծի վերանայումը։
3. Տվյալների քողարկման լուծում
Տվյալների քողարկման տարածված սխեմաներն են՝ անվավերացում, պատահական արժեք, տվյալների փոխարինում, սիմետրիկ կոդավորում, միջին արժեք, շեղում և կլորացում և այլն։
Անվավեր ճանաչումԱնվավերացումը վերաբերում է զգայուն տվյալների կոդավորմանը, կրճատմանը կամ թաքցնելուն: Այս սխեման սովորաբար իրական տվյալները փոխարինում է հատուկ նշաններով (օրինակ՝ *): Գործողությունը պարզ է, բայց օգտատերերը չեն կարող իմանալ սկզբնական տվյալների ձևաչափը, ինչը կարող է ազդել հետագա տվյալների կիրառման վրա:
Պատահական արժեքՊատահական արժեքը վերաբերում է զգայուն տվյալների պատահական փոխարինմանը (թվերը փոխարինում են թվանշաններին, տառերը՝ տառերին, իսկ նիշերը՝ նիշերին): Այս դիմակավորման մեթոդը որոշակի չափով կապահովի զգայուն տվյալների ձևաչափը և կնպաստի տվյալների հետագա կիրառմանը: Քողարկող բառարանները կարող են անհրաժեշտ լինել որոշ իմաստալից բառերի համար, ինչպիսիք են մարդկանց և վայրերի անունները:
Տվյալների փոխարինումՏվյալների փոխարինումը նման է զրոյական և պատահական արժեքների քողարկմանը, բացառությամբ այն բանի, որ հատուկ նիշերի կամ պատահական արժեքների փոխարեն քողարկող տվյալները փոխարինվում են որոշակի արժեքով։
Սիմետրիկ կոդավորումՍիմետրիկ կոդավորումը հատուկ շրջելի դիմակավորման մեթոդ է: Այն կոդավորում է զգայուն տվյալները կոդավորման բանալիների և ալգորիթմների միջոցով: Գաղտնագրված տեքստի ձևաչափը համապատասխանում է տրամաբանական կանոններում նշված սկզբնական տվյալներին:
ՄիջինՄիջինացված սխեման հաճախ օգտագործվում է վիճակագրական սցենարներում: Թվային տվյալների համար մենք նախ հաշվարկում ենք դրանց միջին արժեքը, ապա պատահականորեն բաշխում ենք ապազգայունացված արժեքները միջինի շուրջ՝ այդպիսով պահպանելով տվյալների գումարը հաստատուն:
Տեղաշարժ և կլորացումԱյս մեթոդը փոխում է թվային տվյալները պատահական տեղաշարժով։ Օֆսեթային կլորացումը ապահովում է տիրույթի մոտավոր իսկությունը՝ միաժամանակ պահպանելով տվյալների անվտանգությունը, որն ավելի մոտ է իրական տվյալներին, քան նախորդ սխեմաները, և մեծ նշանակություն ունի մեծ տվյալների վերլուծության սցենարում։
Առաջարկվող մոդելը»ՄԼ-ՆՊԲ-5660«Տվյալների քողարկման համար»
4. Տվյալների քողարկման հաճախ օգտագործվող տեխնիկաներ
(1). Վիճակագրական մեթոդներ
Տվյալների նմուշառում և տվյալների ամփոփում
- Տվյալների նմուշառում. Տվյալների ներկայացուցչական ենթաբազմություն ընտրելով՝ սկզբնական տվյալների բազմության վերլուծությունը և գնահատումը կարևոր մեթոդ է անանունացման տեխնիկաների արդյունավետությունը բարելավելու համար։
- Տվյալների ագրեգացում. Որպես միկրոտվյալների ատրիբուտների վրա կիրառվող վիճակագրական մեթոդների հավաքածու (օրինակ՝ գումարում, հաշվարկ, միջինացում, առավելագույն և նվազագույն արժեքներ), արդյունքը ներկայացնում է սկզբնական տվյալների հավաքածուի բոլոր գրառումները։
(2). Կրիպտոգրաֆիա
Կրիպտոգրաֆիան դեզենսիտիզացիայի նվազեցման կամ արդյունավետությունը բարձրացնելու տարածված մեթոդ է: Տարբեր տեսակի կոդավորման ալգորիթմներ կարող են հասնել տարբեր դեզենսիտիզացիայի ազդեցությունների:
- Դետերմինիստական կոդավորում. Ոչ պատահական սիմետրիկ կոդավորում: Այն սովորաբար մշակում է նույնականացման տվյալներ և անհրաժեշտության դեպքում կարող է վերծանել ու վերականգնել գաղտնագրված տեքստը սկզբնական նույնականացմանը, սակայն բանալին պետք է պատշաճ կերպով պաշտպանված լինի:
- Անդարձելի կոդավորում. Հեշ ֆունկցիան օգտագործվում է տվյալների մշակման համար, որը սովորաբար օգտագործվում է նույնականացման տվյալների համար: Այն չի կարող ուղղակիորեն վերծանվել, և համապատասխանեցման հարաբերությունը պետք է պահպանվի: Բացի այդ, հեշ ֆունկցիայի առանձնահատկության պատճառով կարող է տեղի ունենալ տվյալների բախում:
- Հոմոմորֆ կոդավորում. Օգտագործվում է գաղտնագրված տեքստի հոմոմորֆ ալգորիթմը։ Դրա առանձնահատկությունն այն է, որ գաղտնագրված տեքստի գործողության արդյունքը նույնն է, ինչ վերծանումից հետո պարզ տեքստի գործողության արդյունքը։ Հետևաբար, այն սովորաբար օգտագործվում է թվային դաշտեր մշակելու համար, բայց լայնորեն չի օգտագործվում արդյունավետության նկատառումներից ելնելով։
(3). Համակարգային տեխնոլոգիա
Ճնշման տեխնոլոգիան ջնջում կամ պաշտպանում է այն տվյալները, որոնք չեն համապատասխանում գաղտնիության պաշտպանության պահանջներին, բայց չի հրապարակում դրանք։
- Քողարկում. դա վերաբերում է ամենատարածված դեսենսիտիզացիայի մեթոդին՝ ատրիբուտի արժեքը քողարկելու համար, ինչպիսիք են՝ հակառակորդի համարը, անձնագրի աստղանիշով նշված լինելը կամ հասցեի կրճատվելը։
- Տեղային ճնշում. վերաբերում է որոշակի ատրիբուտային արժեքների (սյուների) ջնջման գործընթացին, ոչ էական տվյալների դաշտերի հեռացմանը։
- Գրառումների ճնշում. վերաբերում է որոշակի գրառումների (տողերի) ջնջման, ոչ էական տվյալների գրառումների ջնջման գործընթացին։
(4). Կեղծանունների տեխնոլոգիա
Կեղծանվանումը անանունացման տեխնիկա է, որն օգտագործում է կեղծանուն՝ ուղղակի նույնականացուցիչը (կամ այլ զգայուն նույնականացուցիչը) փոխարինելու համար: Կեղծանվան տեխնիկան ստեղծում է եզակի նույնականացուցիչներ յուրաքանչյուր առանձին տեղեկատվության սուբյեկտի համար՝ ուղղակի կամ զգայուն նույնականացուցիչների փոխարեն:
- Այն կարող է անկախ կերպով պատահական արժեքներ ստեղծել՝ համապատասխանելու սկզբնական ID-ին, պահպանելու քարտեզագրման աղյուսակը և խստորեն վերահսկելու քարտեզագրման աղյուսակին մուտքը:
- Կարող եք նաև օգտագործել կոդավորումը կեղծանուններ ստեղծելու համար, բայց անհրաժեշտ է պատշաճ կերպով պահպանել վերծանման բանալին։
Այս տեխնոլոգիան լայնորեն կիրառվում է մեծ թվով անկախ տվյալների օգտատերերի դեպքում, ինչպիսին է OpenID-ն բաց հարթակի սցենարում, որտեղ տարբեր մշակողներ նույն օգտատիրոջ համար ստանում են տարբեր Openid-ներ։
(5). Ընդհանրացման տեխնիկաներ
Ընդհանրացման տեխնիկան վերաբերում է ապիդենտիկացման տեխնիկային, որը նվազեցնում է տվյալների բազմության մեջ ընտրված ատրիբուտների մանրամասնությունը և ապահովում է տվյալների ավելի ընդհանուր և վերացական նկարագրություն: Ընդհանրացման տեխնոլոգիան հեշտ է ներդնել և կարող է պաշտպանել գրառման մակարդակի տվյալների իսկությունը: Այն լայնորեն օգտագործվում է տվյալների արտադրանքներում կամ տվյալների հաշվետվություններում:
- Կլորացում. ներառում է ընտրված ատրիբուտի համար կլորացման հիմքի ընտրություն, օրինակ՝ վերև կամ ներքև ուղղված դատաբժշկական փորձաքննություն, որը տալիս է 100, 500, 1K և 10K արդյունքներ։
- Վերին և ստորին կոդավորման տեխնիկաներ. շեմից բարձր (կամ ցածր) արժեքները փոխարինեք վերին (կամ ստորին) մակարդակը ներկայացնող շեմով, ստանալով «X-ից բարձր» կամ «X-ից ցածր» արդյունք։
(6). Պատահականության մեթոդներ
Որպես ապիդենտիկացման տեխնիկայի տեսակ, պատահականացման տեխնոլոգիան վերաբերում է ատրիբուտի արժեքի փոփոխմանը պատահականացման միջոցով, որպեսզի պատահականացումից հետո արժեքը տարբերվի սկզբնական իրական արժեքից: Այս գործընթացը նվազեցնում է հարձակվողի կարողությունը նույն տվյալների գրառման մեջ գտնվող այլ ատրիբուտային արժեքներից ատրիբուտի արժեքը ստանալու, բայց ազդում է արդյունքում ստացված տվյալների իսկության վրա, ինչը բնորոշ է արտադրական թեստային տվյալներին:
Հրապարակման ժամանակը. Սեպտեմբերի 27-2022