demo系統資料脫敏

資料產品,需要對外做演示或者寫操作手冊的時候,就必須要資料脫敏。要不然你的核心商業機密,特別容易洩露,我們看看主要的脫敏方式。

demo系統資料脫敏

資料脫敏是指對某些敏感資訊透過脫敏規則進行資料的變形,實現敏感隱私資料的可靠保護。在涉及客戶安全資料或者一些商業性敏感資料的情況下,在不違反系統規則條件下,對真實資料進行改造並提供測試使用,如身份證號、手機號、卡號、客戶號等個人資訊都需要進行資料脫敏。資料安全技術之一,資料庫安全技術主要包括:資料庫漏掃、資料庫加密、資料庫防火牆、資料脫敏、資料庫安全審計系統。

資料庫安全風險包括:拖庫、刷庫、撞庫。

透過資料脫敏產品,可以有效防止企業內部對隱私資料的濫用,防止隱私資料在未經脫敏的情況下從企業流出。滿足企業既要保護隱私資料,同時又保持監管合規,滿足企業合規性。

但無論如何,脫敏需要遵循以下原則:

remain meaningful for application logic(儘可能的為脫敏後的應用,保留脫敏前的有意義資訊)

sufficiently treated to avoid reverse engineer(最大程度上防止駭客進行破解)

二、分類

1。 靜態脫敏

將資料抽取出生產環境脫敏後分發至測試、開發等場景。

脫敏後資料與生產環境相隔離,滿足業務需求的同時保障生產資料庫的安全。

2。 動態脫敏

在查詢語句執行過程中,根據生效條件是否滿足,實現實時的脫敏處理。

一般用在生產環境,訪問敏感資料時實時進行脫敏,因為有時在不同情況下對於同一敏感資料的讀取,需要做不同級別的脫敏處理。

需要注意的是,在抹去資料中的敏感內容同時,也需要保持原有的資料特徵、業務規則和資料關聯性,保證我們在開發、測試以及資料分析類業務不會受到脫敏的影響,使脫敏前後的資料一致性和有效性。

三、方案

1。 替換

隨機值替換,字母變為隨機字母,數字變為隨機數字,文字隨機替換文字的方式來改變敏感資料,這種方案的優點在於可以在一定程度上保留原有資料的格式,往往這種方法使用者不易察覺的。如統一將使用者名稱中的“張”替換為A,這種方法更像“障眼法”,對內部人員可以完全保持資訊完整性,但易破解。

2。 無效化

無效化方案在處理待脫敏的資料時,透過對欄位資料值進行 截斷、加密、隱藏 等方式讓敏感資料脫敏,使其不再具有利用價值。一般採用特殊字元(*等)代替真值,這種隱藏敏感資料的方法簡單,但缺點是使用者無法得知原資料的格式,如果想要獲取完整資訊,要讓使用者授權查詢。如遮蓋手機號的中間四位、身份證號中間部分等。

3。 置亂

對敏感資料列的值進行重新隨機分佈,混淆原有值和其他欄位的聯絡。這種方法不影響原有資料的統計特性,如最大/ 最小/ 方差等均與原資料無異。

4。 均值

平均值方案經常用在統計場景,針對數值型資料,我們先計算它們的均值,然後使脫敏後的值在均值附近隨機分佈,從而保持資料的總和不變。通常用於產品成本表、工資表等場合。

5。 對稱加密

透過給原始資料增加salt值來實現資料的可逆,多用於密碼儲存等場景。對稱加密是一種特殊的可逆脫敏方法,透過加密金鑰和演算法對敏感資料進行加密,密文格式與原始資料在邏輯規則上一致,透過金鑰解密可以恢復原始資料,要注意的就是金鑰的安全性。

6。 偏移

這種方式透過隨機移位改變數字資料,偏移取整在保持了資料的安全性的同時保證了範圍的大致真實性,比之前幾種方案更接近真實資料,在大資料分析場景中意義比較大。

四、 案例

美團一般的業務場景是這樣的,使用者在網站上付款一筆團購單之後,我們會將團購密碼,發到使用者對應的手機號上。這個過程中,從使用者的角度來看團購密碼在未被使用者消費之前,對使用者來說是要保密的,不能被公開的,其次美團使用者的手機號也是要保密的,因為公開之後可能被推送一些垃圾資訊,或者更嚴重的危害。從公司內部資料分析人員來看,他們有時雖然沒有許可權知道使用者團購密碼,但是他們想分析公司傳送的團購密碼數量情況,這是安全允許;再有資料分析人員雖然沒有許可權知道使用者具體的手機號碼,但是他們需要統計美團使用者手機的地區分佈情況,或者運營商分佈差異,進而為更上層的決策提供支援。

根據這樣的需求,我們可以對團購密碼做加密處理保證其唯一性,也保留其原有的資料格式,在保密的同時不影響資料分析的需求。同樣,我們將使用者的手機號碼的前7位,關於運營商和地區位置資訊保留,後四位進行模糊化處理。這樣同樣也達到了保護和不影響統計的需求。

因此從實際出發遵循上面的兩個處理原則,第一階段我們在脫敏工具集中,確定瞭如下4種基本型別的脫敏方案(對應4個udf):

確定實施範圍與步驟

透過上面欄位的梳理和脫敏方案的制定,我們對美團資料倉庫中涉及到得敏感欄位的表進行脫敏處理。在資料倉庫分層理論中,資料脫敏往往發生在上層,最直接的是在對外開放這一層面上。在實際應用中,我們既要參考分層理論,又要從美團現有資料倉庫生產環境的體系出發,主要在資料維度層(dim),以及基礎服務資料層(fact)上實施脫敏。這樣,我們可以在下游相關資料報表以及衍生資料層的開發過程中使用脫敏後的資料,從而避免出現數據安全問題。

確認處理的表和欄位後,我們還要確保相關上下游流程的正常執行, 以及未脫敏的敏感資訊的正常產出與儲存(透過更嚴格的安全稽核來進行訪問)。

以使用者資訊表user為例,脫敏步驟如下:

1.首先生產一份ndm_user未脫敏資料,用於未脫敏資料的正常產出。

2.對下游涉及的所有依賴user生產流程進行修改,來確保脫敏後的正常執行,這裡主要是確認資料格式,以及資料來源的工作。

3.根據對應的脫敏方法對user表中對應的欄位進行脫敏處理。

TAG: 脫敏資料敏感資料使用者加密