[데이터융합포럼 특별기고 3-1] 가명정보의 활용을 위한 준비_1

가명정보, 익명정보, 비식별 정보에 대한 개념과 가명정보 활용의 어려움

2021-01-11     길민권 기자
▲김기태

안전한 데이터 활용 촉진을 위해 실무적 이슈를 논의하는 ‘데이터융합포럼’은 정기적으로 회원들의 ‘데이터 보호와 활용’ 관련 기고문들을 데일리시큐 독자들과 공유해 나갈 계획이다. 이번 기고는 김기태 UPS DATA 대표(4차산업위원회 비식별 조치 관련 자문위원)의 첫번째 글이다.(두 개 기고문으로 나눠서 게재)
<편집자 주>

 

2020년 8월 5일 개인정보보호법과 신용정보의 이용 및 보호에 관한 법률이 시행되었다. 이에 따라 기존의 개인정보 비식별조치 가이드라인에 따라 개인정보를 비식별화해서 활용하던 것을 이제 각 법안에서 허용하고 있는 통계작성, 과학적 연구, 공익적 기록보존의 목적을 위해서는 가명처리(가명화)를 거친 후 가명정보로의 활용이 가능해 졌으며, 한발 더 나아가 익명처리를 한 익명정보의 경우 더 이상 개인정보의 범주에 포함되지 않아 자유로운 활용이 가능해 졌다. 하지만 실제 데이터 활용 현장에서 가명정보와 익명정보의 활용을 쉽게 하기에는 아직 많은 어려움이 있다.


비식별 정보, 가명정보, 익명정보 구분의 모호함

2016년 6월 30일 정부는 “개인정보 비식별조치 가이드라인”을 통해 개인정보를 비식별 처리를 통한 활용의 기반을 만들었으나 이는 많은 논쟁을 야기하였고 실질적으로 데이터의 활용을 확산시키지 못했으며, 이는 가이드라인의 한계, 기술적 한계 등 다양한 원인이 있지만 ‘비식별 정보(De-identified data)’라는 용어의 사용에 대한 문제도 큰 쟁점의 하나였다.

▲개인정보

위 ‘그림 1’은 비식별 정보와 가명정보, 익명정보의 차이를 도식화한 그림이다. 윗부분의 비식별 정보는 너무 넓은 범위의 정보를 하나의 용어로 정의를 함으로 인해 개인정보를 갓 벗어난 비식별정보(A)와 통계정보에 인접한 비식별정보(B)를 동일한 선상에서 정의하였고, 이로 인해 보호의 관점에서 비식별 정보를 보는 사람과 활용의 관점에서 비식별 정보를 보는 사람들 사이에서 많은 논쟁을 유발하였다. 이러한 논쟁은 개인정보보호법 개정으로 가명정보의 정의를 추가함으로 인해 많은 부분 사라지게 되었지만, 여전히 가명정보와 익명정보의 정의에서도 어디까지가 가명정보이고 어디서부터가 익명정보인지에 대한 동일한 논쟁이 발생할 여지는 계속 남아 있게 된다.

2008년 국제표준으로 제정되었으며 2017년 개정판이 발간된 의료정보의 가명처리에 대한 국제표준인 ISO 25237의 개정판에서도 10년 이상 국제표준으로 사용되어 왔음에도 불구하고, 실제 환경에서 가명정보에 대한 재식별 위험을 평가하기는 어려운 경우가 많이 있으며 가명정보의 수준에 대해서는 통계적인 부분으로 정확하게 정의할 수 없다고 이야기 하고 있다. 이는 가명정보의 수준과 재식별 위험을 판단하는 것이 기술적으로 매우 어려운 문제라는 것을 반증한다고 볼 수 있다.

이는 익명정보에 대한 기준에서도 동일하게 나타나게 된다. 개인정보보호법에서의 익명정보의 정의도 실제 데이터에 적용할 때에는 시간, 비용, 기술에 대한 합리적인 고려가 어디까지인지에 대해 명확하게 정의하기는 매우 어려우며, 이를 고려한 익명정보의 처리 수준에 대한 기준 마련도 데이터를 활용하는 다양한 환경과 활용 목적에 따라 달라지는 어려움을 가지게 된다. 이러한 모호함과 처리의 어려움은 실제 데이터의 활용에 걸림돌이 된다.


가명정보 처리 가이드라인의 가명처리의 기준 적용의 어려움

개정 개인정보보호법 시행 이후 개인정보보호위원회가 2020년 9월에 발간한 가명정보 처리 가이드라인은 가명처리의 기준에 대해 다음과 같이 데이터를 이용하는 환경에 대한 고려와 데이터 자체에 대한 고려를 하도록 하고 있다.

1.1. 데이터를 이용하는 환경에 대한 고려

데이터를 이용하는 환경에 대한 고려는 가명정보의 특징을 볼 때 매우 중요합니다. 가명정보는 법적으로 개인정보의 한 분류이며 기술적으로 정보자체의 개인에 대한 식별성이 완전히 제거된 상태가 아니다. 즉, 이를 이용하는 환경에서 보유하고 있는 다양한 정보(다른 정보)와의 연계를 통한 식별가능성이 존재하는 것이기 때문에, 가명정보처리 가이드라인에서는 이에 대해 이용환경의 구분에 따라 다른 정보의 보유여부, 제공받는자의 개인정보보호 수준을 검토하도록 하고 있다.

1.2. 데이터 자체의 위험도에 대한 고려

데이터 자체의 위험도에 대해서는 제공할 데이터의 항목별로 위험도분석을 하도록 하고 있으며, 특히 ‘개인식별정보’와 ‘개인식별가능정보’에 대해 가명처리 방법 및 수준을 결정하는데 이 위험도를 바탕으로 처리하도록 하고 있다.

1.3. 특이정보에 대한 고려

특정 데이터에서 개인을 식별하는 것은 다양한 변수가 존재한다. 특히 식별자가 아니면서 개인의 식별에 영향을 주는 정보인 특이치는 대부분 특이한 값을 가지고 있거나 정보의 주체가 공인이나 너무 알려진 사람이라 나타나는 식별로 널리 알려진 사례를 제외하면 각 분야의 경험이 없는 사람은 특이치를 통한 개인의 식별은 쉽지 않다.

예를 들어 다음과 같은 질병코드는 국내 환자수를 10명 이내로 추정하고 있으며 이런 경우 일반적인 환경에서 개인의 식별이 되지 않는 질병코드가 개인 식별정보로 동작을 하게 된다.

- 질병코드 (ICD Q92.3 : 5번 염색체 원위부 장완의 중복)

- 극희귀질환의 경우 거의 대부분 질병 명이 개인 식별요소로 동작.

(극희귀질환 : 동일한 질병을 가진 사람이 전 국민 중 200명 이하인 질병, 2019년 1월 1일 기준 135개 질환이 등록되어 있음)

하지만 이러한 질병코드나 극희귀질환은 이에 대해 사전 지식이 있는 사람들에게만 식별요소로 동작하며, 동일한 이유로 적정성 검토 시 이러한 특이치에 의한 재식별 위험을 찾아내는 것은 사전 지식 없이는 매우 어렵게 된다.

아무튼 세가지 고려사항을 모두 검토한 후에도 적절한 수준의 가명처리 수준을 정의하는 것은 결코 쉽지 않으며, 가명정보처리 가이드라인에서는 이 어려운 부분을 적정성 검토라는 단계를 통해 전문가가 판단하도록 하고 있다.


안전한 데이터 활용을 위한 해외 거버넌스 사례

앞에서 살펴본 것과 같이 가명처리의 정도와 그에 대한 안전성을 확인하는 것은 결코 쉽지 않다. 우리는 여기서 이러한 위험을 제거하기 위해 어떤 준비를 해야 하는지는 이미 가명정보와 익명정보 등 다양한 정보를 활용하고 있는 해외의 거버넌스를 참고해 보려 한다.

가. 영국 Caldicott 가디언

칼디코트 가디언(Caldicott Guardian)제도란 사람들의 건강 및 간호 정보의 기밀을 보호하고 적절하게 사용되는지 확인하는 중립적인 위치의 책임자를 지정하는 영국의 보건의료서비스기반의 제도이다. 영국의 모든 보건의료서비스(NHS)산하 기관 및 지방 당국은 이러한 칼디코트 가디언을 두도록 요구하고 있다. 칼디코트 가디언은 의료 서비스를 사용하는 사람들에 대한 개인정보의 합법적, 윤리적, 적절성이 유지되도록 하는 건강 또는 사회복지 기관의 선임자로, 정보공유의 복잡한 문제에 대한 리더십과 정보에 대한 지침을 제공할 수 있어야 하고 비식별 처리에 대한 최종 평가를 검토하는 역할을 담당하고 있다. 영국에서는 이러한 칼디코트 가디언의 업무 수행의 지원을 위해 Caldicott Guardian Council을 관리하고 있으며 이들의 업무에 대한 매뉴얼을 제공하고 있다.

나. 미국 데이터 공개 검토 위원회 제도(Disclosure review board)

DRB는 미국의 공공기관의 행정적 기구로 비식별 데이터의 활용이 조직의 정책과 절차적 요건에 부합한다는 것을 보장할 책임과 비식별 데이터의 공개 또는 사용의 이익과 개인 프라이버시 보호의 비교를 위해 설립된 행정적 기구로 DRB의 주요 업무에는 다음과 같은 내용을 포함한다.

- 비식별화된 자료를 공개하기 위한 절차 및 방법론, 결과 검토

- 재식별 확률, 재식별 되는 경우 발생할 프라이버시 침해 및 완화 전략을 포함한 제공과 관련한 위험 파악

- 사용된 프라이버시 보호방법 및 자료 제공에 대한 방법 명시, 재식별 위험(k값, 또는 입실론 값에 대한 개인정보 보호 수준)수준 결정, 이전 발표 자료들에 대한 세부기록 유지

대부분의 조직에서 DRB구성원은 데이터의 비식별에 대한 이해와 데이터 제공의 모든 측면을 고려할 수 있도록 다양한 기술과 전문지식을 포함하도록 하고 있으며, 조직의 상당히 높은 레벨의 관리자가 DRB를 관리하도록 하고 있다.

미국의 MCC(Millennium Challenge Corporation)의 예로 보면 DRB는 전체 10명 정도로 구성되며, 위원장은 정책 평가국 부사장이 맡고 있으며 각 부서의 대표로 구성되어 있다.

(DRB의 역할에 대해서는 NIST의 SP800-188 De-identifying Government Datasets를 참조하면 된다.)

오늘은 가명정보, 익명정보, 비식별 정보에 대한 개념과 가명정보 활용의 어려움, 그리고 이미 이러한 정보를 사용하고 있는 해외의 다양한 제도에 대해 알아보았다. 다음에는 가명정보의 안전한 활용을 위해 기업이나 기관에서 어떤 준비가 필요한지에 대해 알아보겠다. (2편에서 계속)

[글. 김기태 UPS DATA 대표 / 비식별 컨설턴트 / kkt7004@gmail.com]

# ’데이터융합포럼’은 2016년 6월 개인정보 비식별조치 가이드라인 발간에 맞춰 금융회사, 핀테크회사, 금융분야 유관기관 등의 실무자와 해당분야 전문가 중심 ‘비식별 연구반’이라는 이름으로 시작. 가이드라인 해석 및 실무적 해결방안에 대해 주제를 선정해 발제자가 발제하고 토론하는 학습 모임으로 발전. 인공지능(AI)기술로 대표되는 4차산업혁명시대를 맞아 핵심 자원인 안전한 데이터 활용을 촉진하기 위해 실무적 이슈에 대해 논의하는 포럼이다.

★정보보안 대표 미디어 데일리시큐!★