[데이터융합포럼 특별기고-5] ‘가명정보결합’이란 무엇이고…문제는 뭘까?

제도 정비하고 개인정보처리자 등 열린 사고로 데이터 융합에 참여해야

안전한 데이터 활용 촉진을 위해 실무적 이슈를 논의하는 ‘데이터융합포럼’은 정기적으로 회원들의 ‘데이터 보호와 활용’ 관련 기고문들을 데일리시큐 독자들과 공유해 나갈 계획이다. 이번 기고는 고종민 한국신용정보원 데이터 융합지원팀장의 ‘가명정보결합’이란 무엇이고 관련된 문제점들을 고찰해 보는 글이다. <편집자 주>

오랜 기간 고대해 오던 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법)이 드디어 시행되었다. 본고에서는 실제 현장에서 데이터 결합(가명정보 결합, 정보집합물 결합, 데이터 결합을 혼용하여 사용한다. 현행 규정상 법령의 근거나 정보주체의 동의 없이 정보집합물을 결합할 수 있는 경우는 가명처리된 정보집합물을 연구, 통계, 공익적 기록보존 목적으로 결합하는 경우로 한정된다.) 업무를 수행하면서 겪은 경험을 토대로 데이터 3법 중 가명‧익명 정보 처리 및 활용에 대해 최근 이슈가 되고 있는 몇 가지 사안에 대해 간략히 살펴보고자 한다. (*이 기고문의 내용은 저자의 개인적인 견해이며, 소속 기관의 공식적인 견해가 아님을 미리 밝혀둔다.)

1. 경과

2011년9월 개인정보보호법이 시행되면서 우리나라에서 개인정보는 여타 어느 국가보다도 강력하게 보호되도록 제도화 되었다. 산업계에서는 그간 활용 가능성의 여지가 있었던 개인정보가 사실상 법령에 근거하거나 동의하에서만 이용 가능하도록 환경이 바뀐 것이다. 이러한 개인정보의 활용에 대한 제약으로 산업계는 동의와 법령의 제약에서 벗어날 수 있는 수단을 요구하게 되고, 정부도 데이터산업의 발전을 위해서는 개인정보를 활용할 수 있는 수단을 마련할 필요성이 시급함을 인식하여 2016년6월 말 “개인정보 비식별 조치 가이드라인”을 만들어 7월1일부터 시행하게 되었다.

그런데, 이 가이드라인은 비식별 조치, 데이터 결합의 근거와 절차 등에 대한 법령의 구체적인 언급이 없는 상태에서 만들어진 것이다. 물론 그 이전에도 공공기관에서 발행한 “개인정보 비식별화에 대한 적정성 자율평가 안내서”가 있기는 했지만 이 또한 법적 근거를 찾기는 어려웠다.

이에 시민단체는 그 약한 고리를 문제삼아 2017년11월 초에 결합을 의뢰한 기관과 결합 업무를 수행한 전문기관 24개를 고발하기에 이르고, 이 가이드라인에 기반한 비식별 조치 및 결합 진행이 위법 행위가 될 가능성이 있다는 우려로 데이터의 결합 실무는 얼어붙게 되었다. 이 후 검찰의 불기소처분, 시민단체 항고, 고등검찰청 기각, 시민단체 재항고, 대검찰청 기각의 과정을 거치면서 이러한 비식별 조치에 대한 위법성 문제는 해소되었지만, 그와 별개로 관련 내용은 법제화되어가고 있었다.

그 결실이 바로 데이터 3법의 가명처리 부분이라고 보면 될 듯하다. 데이터 3법 시행 다음날인 2021년8월6일 금융위원회와 금감원은 “금융분야 가명‧익명처리 안내서”를 배포하였다. 한편, 업계는 데이터 결합의 폭발적 증가를 기대하고 결합을 수행하는 데이터전문기관은 폭증하는 수요에 어떻게 대응할지 고민을 하면서 수요를 처리하기 위한 시스템 구축 등을 차근차근 준비하고 있었다.

2. 정보집합물의 결합이란 뭘까?

정보집합물 결합절차, 결합률, 활성화 정도 등을 얘기하기 전에 결합이 무엇일까부터 검토해 봐야 할 것이다. 현장에서는 “개인정보 비식별조치 가이드라인”에서부터 결합이라는 단어를 광범위하게 사용하고 있었고, 암묵적으로 어떻게 하는 것이 결합인 지에 대한 희미한 모양의 공감대는 가지고 있었다.

그러나, 각 부처에서 개인정보보호법에 따른 분야별 가명처리 안내서 등을 발간한 현 시점에서도 어디까지를 결합으로 볼 것인지에 대한 명확한 기준을 제시하는 곳은 없다.

그래서, 가장 먼저 사전적 의미을 찾아보았다. 결합이란 “둘 이상의 사물이나 사람이 서로 관계를 맺어 하나가 됨(국립국어원 표준국어대사전)”. 데이터에 그대로 적용하기에는 상당히 모호하다. 가명처리, 결합이라는 개념은 EU GDPR에서도 언급한 개념이기 때문에 영문에서 “combine”에 대한 정의를 어떻게 내리고 있을까 찾아보았다. “2개 혹은 그 이상의 것을 결합한다고 하는 것은 그것들이 함께 존재하거나 하나의 것을 만들기 위해 함께 참여함“(콜린스 영어사전) 정도로 해석된다. 여전히 모호하다.

실제 데이터전문기관(또는 결합전문기관)이 진행하고 있는 정보집합물의 결합은 아래 밴다이어그램의 교집합 부분을 말하는 것이다.

즉, “다” 부분을 추출하여 제공하는 것을 결합된 정보집합물을 제공한다라고 표현한다. 그러면 사전적 의미를 유추하여 가, 나, 다 영역을 모두 결합으로 봐서 결합을 의뢰한 A사에 제공하는 것은 가능할까? 또는 B사에 제공하는 것은 가능할까? 현재는 “다” 정보만 결합된 정보라고 간주하여 결합 의뢰기관에 제공을 하고 있다.

결합을 진행하는 입장에서는 1)특정인의 동일 속성에 대해서 시간순으로 정보를 계속 붙여 내려가는 경우도 결합이 될 수 있고, 2)특정인의 속성 정보들이 추가적으로 늘어나는 경우도 결합이라고 볼 수 있을 것이다. 또한 3)정보주체는 다르더라도 결합된 정보집합물 내에 함께 존재하면 결합으로 볼 수도 있을 것이다. 현재는 정보주체를 기준으로 홍길동씨가 A사, B사에 모두 존재할 경우, 홍길동씨에 관한 정보를 붙여서 제공하는 경우를 결합된 정보라고 말하고 있다. 즉, A사가 가지고 있지 않은 홍길동씨에 대한 정보를 B사가 더 가지고 있으므로 결합된 홍길동 씨에 대한 정보는 홍길동씨의 속성을 보다 더 잘 반영할 개연성이 높아진다.

결합이라는 개념 유추에 따르면 “가”, “나”, “다” 전체를 결합된 정보집합물로 보아도 되지 않을까하는 의문이 남는다. 이 경우 “나” 영역은 A사가 전혀 가지고 있지 않은 영역이기 때문에 정보주체의 정보를 충실히 보완하는 것이 아니라 전혀 새로운 정보주체의 정보를 제3자에게 제공하는 경우이기 때문에 결합된 정보 집합물로서 제공하는 것은 허용하고 있지 않다.

다음과 같은 요구사항도 있을 수 있다. 의뢰한 A사인데 결합된 "다“ 영역과 결합되지 않은 A사 데이터 ”가“ 영역도 제공을 요청하는 경우다. 이 경우는 최초 A사에서 제공한 정보이므로 결합되지 않은 영역의 정보인 ”가“는 A사에게 제공할 수 있는 것으로 보고 있다.

정보집합물 결합을 수행하면 홍길동씨에 대한 서로 다른 회사가 가지고 있는 속성 정보들을 더 많이 확보 할 수 있어 산업적 측면에서 홍길동씨의 정보를 활용할 가능성이 높아지게 된다.

3. 왜 생각만큼 결합을 하고 있지 않을까?

상당히 유용해 보이는 정보집합물 결합이 가능하게 되었으나 실제 결합으로 진행하는 경우는 입법 초기의 기대에는 미치지 못하는 수준이다. 왜 그럴까? 그 이유를 4가지 정도로 추정해 보았다.

첫째, 결합을 완료해서 분석하기까지 시간이 오래 걸린다.

특정 정보처리자가 분석 목적을 설정하고, 결합 대상을 물색하고 데이터를 가명처리한 후 데이터 전문기관에 자료를 전송하여 결합을 한 후 결합된 정보집합물을 다시 받기까지 적어도 1개월 이상은 소요된다. 시시각각 변화하는 사회현상에 적시 대응하기에는 너무 긴 시간이다. 실시간 데이터를 결합하면 그 가치가 배가 되지만, 몇 달만 지나도 해당 데이터의 가치는 현저히 낮아지게 된다.

둘째, 가명결합을 위한 조건과 처리 절차에 대해서 잘 모른다. 정보처리자가 어떻게 가명처리를 해야 하고, 해당 처리자가 가명정보를 다룰 수 있을 정도의 보안‧보호 상태를 유지하고 있는지, 데이터전문기관(또는 결합전문기관)을 어떻게 활용해야 하는지 잘 모른다. 이런 이유로 업무 추진이 원활하지 않은 경우도 있다.

셋째, 어디에 어떤 데이터가 있고, 어떻게 협의를 해야 하는지를 잘 모른다. 핀테크나 스타트업은 데이터에 대한 요구는 높으나 누구와 어떻게 협의를 진행해야 할지 잘 모르는 경우가 많다. 이를 위해서 데이터 바우처나 전문적으로 데이터 큐레이팅을 할 수 있는 기업 등을 이용해서 결합을 수행할 필요가 있다.

넷째, 기업의 중요 자산인 대용량 데이터를 제3자와 결합을 위해 외부로 반출하는 것이 절차상 복잡하다. 대용량 데이터 반출을 위해서는 분명한 성과가 예상되는 목적물이 있어야 하고, 기업의 중요 자산인 데이터를 외부로 반출하기 위해서는 기업 내부의 규정을 준수하면서 밖으로 반출을 하는 것이 여간 번거로운 일이 아니다.

이러한 이유에도 불구하고, 서로 다른 산업 간 데이터 결합은 이전에 접해 보기 어려운 타 산업의 데이터와 결합을 하여 새로운 가능성을 탐색한다는 데 큰 의의가 있다.

4. 정보집합물 결합은 어떻게 할까?

앞서 결합이 활성화되지 않은 2번째 이유로 제기한 가명결합 절차에 대하여 간략히 언급하고자 한다. 결합 절차는 아래와 같다(개인정보보호법에 기한 절차에는 결합키관리기관이 추가로 게재하게 되지만, 기본적인 절차는 유사하다).

현행 정보집합물 결합 절차. '금융분야 가명‧익명처리 안내서' 출처=금융위‧금감원.

가명정보의 결합을 추진하고자 하는 기관은 사전에 결합 대상이 되는 기관과 협의하여 결합을 위한 키 값을 만들어야 한다. 이때 주로 사용하는 정보가 성명, 생년월일, 성별 등을 이용하고 난수를 만드는 알고리즘을 활용하여 ID값을 만들게 된다. 이때 두 기관은 협의하여 동일한 정보주체에 대하여 동일한 값이 나오도록 난수 알고리즘과 사용하는 변수를 동일하게 맞추어야 한다. 테스트 값을 서로 주고 받은 후 동일한 난수 값(ID 값)이 나오는 것을 확인한 후 데이터 전문기관에 가명처리된 정보집합물을 전송한다.

데이터 전문기관은 의뢰기관들로부터 전송받은 정보집합물을 DB화 한 후, 결합 키(ID 값)을 기준으로 결합을 진행하게 된다. 정상적으로 결합이 된다면 통상 모수 대비 20~30% 정도가 결합되는 경우가 많아 보인다. 이 때 결합이 가능함에도 불구하고 생년월일, 이름 중복 등으로 버려지는 값들도 상당하다.

결합을 수행한 전문기관은 결합된 정보를 의뢰기관에 반출하기 전에 결합된 정보가 적절하게 가명처리 되었는지 확인하는 검증을 거치게 된다. 주로 외부 전문가들로 위원회를 구성하고 해당 위원회에서 적정으로 판정한 경우에 한하여 의뢰기관으로 결합된 정보 집합물을 반출하게 된다. 만약 가명처리 정도가 부족하다고 외부 위원들이 판단을 하면 전문기관은 추가적인 가명처리를 수행하게 된다. 이 과정을 모두 통과하게 되면 해당 정보 집합물을 반출하여 의뢰기관에 제공한다.

5. 결합률을 높이는 방법은 없을까?

결합 과정에서 문제가 되는 부분은 결합률이다. 동명이인, 법정 생년월일과 실제 생년월일 차이, 전화번호, 주소 등의 현행화 차이로 인한 데이터 손실을 감안하면 실제 결합과정에서 손실되는 정보는 약 20~30%에 이른다는 경험치(개인정보 비식별 조치 지원 전문기관과 데이터 전문기관 운영 중 의뢰기관 담당자 인터뷰 등으로 획득한 정보)가 있다. 이러한 손실을 막는 방법은 없을까?

데이터 손실 방지를 위한 방법은 3가지 정도를 고려해 볼 수가 있다.

가장 좋은 방법은 주민등록번호를 이용하여 난수 값(ID값)을 만들고, 그 ID값을 이용하여 결합을 진행하는 것이다. 그러나 이는 현행 개인정보보호법에서 주민등록번호 처리의 제한 조항에 위배되므로 허용하지 않는 방법이다.

두번째 방법은 본인확인 기관에서 발급하는 CI(Connecting Information, 연계정보)값을 이용하여 결합을 진행 할 수도 있으나, 이 정보 또한 주민등록번호를 기반으로 만들어졌기 때문에 사용에 제약이 따른다. 본인확인 목적의 CI값 88자리를 그대로 결합업무에 사용하는 것은 규정 위반의 소지가 있으며, 보안의 위험이 없는 범위 내에서 일부를 발췌하여 사용할 수는 있다. 그러나, CI 값을 보유하지 않은 기관도 많아 실질적으로 모든 업종 간의 결합에 발췌한 CI값을 활용하기에는 현실적으로 어려운 부분이 있다.

세번째 방법은 현 제도를 충실히 따르면서 결합률을 높이는 방법이다. 일반적으로 결합 ID값을 만드는 방법은 해시 알고리즘을 이용하고, 사용변수로 생년월일, 성명, 성별, 솔트값(정보유출 방지를 위해 사용하는 난수값) 등을 활용하여 결합용 ID값을 만들게 된다. 이렇게 만들어진 ID값을 이용하여 결합을 수행할 경우 경험치로 20%~30% 내외의 정보 손실이 발생하게 된다. 이러한 손실을 줄이고 조금이라도 결합률을 높이려면, 전화번호나 우편번호 등 정보주체와 관련이 있는 정보를 이용하여 2차 ID값(해시된 난수값)을 만들어서 해당 값으로 2차 결합을 진행하게 되면 발생한 손실(20%~30% 내외) 중 동명이인 등으로 인한 정보손실을 줄일 수 있어 보완적인 방법이 될 수 있다.

6. 맺음말

지금까지 가명정보가 무엇인지, 가명결합은 어떻게 하는지, 활용률이 생각보다 낮은 이유와 결합률을 높이는 방법은 어떤 수단이 있는지 살펴보았다.

데이터 3법 통과로 서로 다른 산업 간의 데이터 결합을 통한 새로운 산업의 출현을 기대하고 있는 시점이다. 아직은 제도 시행 초기라 기대치를 충족할 정도로 활성화 되지는 않은 것으로 보인다. 그러나, 시작 단계라 잘 성장할 수 있도록 제도를 정비하고 개인정보처리자 등이 열린 사고로 데이터 융합에 참여할 경우, 새로운 서비스 개발을 통한 정보주체의 편익을 높이는 데 크게 기여할 것으로 생각한다.

[글. 고종민 한국신용정보원 데이터 융합지원팀장]

# ’데이터융합포럼’은 2016년 6월 개인정보 비식별조치 가이드라인 발간에 맞춰 금융회사, 핀테크회사, 금융분야 유관기관 등의 실무자와 해당분야 전문가 중심 ‘비식별 연구반’이라는 이름으로 시작. 가이드라인 해석 및 실무적 해결방안에 대해 주제를 선정해 발제자가 발제하고 토론하는 학습 모임으로 발전. 인공지능(AI)기술로 대표되는 4차산업혁명시대를 맞아 핵심 자원인 안전한 데이터 활용을 촉진하기 위해 실무적 이슈에 대해 논의하는 포럼이다.

★정보보안 대표 미디어 데일리시큐!★

■ 보안 사건사고 제보 하기

▷ 이메일 : mkgil@dailysecu.com

▷ 제보 내용 : 보안 관련 어떤 내용이든 제보를 기다립니다!

▷ 광고문의 : jywoo@dailysecu.com

★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★