[데이터융합포럼 특별기고-10] AI와 프라이버시
AI 기술, 개인정보 침해에 활용할 수도 있어…대응 방안 수립 필요
안전한 데이터 활용 촉진을 위해 실무적 이슈를 논의하는 ‘데이터융합포럼’은 정기적으로 회원들의 ‘데이터 보호와 활용’ 관련 기고문들을 데일리시큐 독자들과 공유해 나갈 계획이다. 이번 기고는 데이터융합포럼 숭실대학교 최대선님의 ‘AI와 프라이버시’에 대한 내용이다. <편집자 주>
데이터 3법 개정 이후 가명처리, 익명처리를 통한 데이터 활용이 금융권을 중심으로 활발해 지고 있다. 가명⋅익명 처리 후 제공된 데이터는 신용산정 AI 모델이나 고객 맞춤형 상품 추천 AI 모델을 개발하는 학습데이터로 활용된다. 여기서 가명⋅익명 처리의 목적은 데이터 처리자 즉 AI 모델 개발 단계에서 정보 주체의 프라이버시를 보호하는 것이다.
최근 채팅 AI인 이루다 서비스를 통해 개인정보인 주소 등이 유출된 사례가 보도되고 있다. 챗봇 이용자가 특정한 단어를 입력하면 챗봇이 학습에 사용된 개인정보를 출력하는 것이다. 이를 비정형데이터 가명⋅익명 처리 문제로 보는 시각도 있지만, AI 모델 학습 단계의 프라이버시 보호가 아니라, 학습 완료된 AI 모델의 활용단계에서 누구나 서비스에 접근할 수 있는 상태에서 발생하는 문제이기 때문에 별개의 이슈로 다뤄야 한다. 학계에서는 학습 완료된 AI 모델에서 학습데이터에 포함된 개인정보를 추출, 유추하는 AI 모델에 대한 프라이버시 문제가 별개로 다루어져 왔다.
그 외에도 AI 비서나 IoT 센서를 통한 상시 데이터 수집, AI를 이용한 개인정보 유추 등 AI와 관련된 프라이버시 이슈들이 존재한다. 본 고에서는 이렇게 AI와 관련된 4가지 프라이버시 이슈들을 살펴보고 대응 방안 등 시사점을 도출하고자 한다.
◇학습 데이터 프라이버시 보호
AI를 학습시키기 위해서 많은 데이터가 필요하다는 것은 주지의 사실이다. 이 데이터들은 상당 부분이 개인정보이다. AI 모델 개발 주체는 데이터 내용을 직접 볼 수 있으므로 프라이버시 위험이 발생할 수 있다. 따라서, AI 개발이 아닌 다른 목적으로 수집한 데이터를 AI 모델 학습에 사용하거나 AI 모델 개발 주체가 다른 경우, 정보 주체의 동의를 받거나 데이터를 익명 또는 가명처리를 해야만 학습데이터로 사용할 수 있다. 데이터 3법 개정 이후 금융권에서는 개인정보를 가명⋅익명 처리하여 AI 모델 학습에 활발히 사용하고 있다. 필자는 금융권의 개인정보 가명⋅익명 처리 적정성 평가에 여러 차례 참여했는데, 가명⋅익명 처리 가이드라인 만으로 커버되지 않는 여러 이슈들이 있었지만, 하나씩 프랙티스가 정립되어가며, 이제는 데이터 3법 개정 취지에 맞게 보호와 활용의 균형이 잡혀가고 있다고 생각된다.
금융권 외에 의료분야 등에서는 사진, 동영상 등 비정형데이터에 대한 가명⋅익명 처리 방안이 필요한데, 신체 외부를 촬영한 영상정보는 눈, 코, 입 등 외양적 특징을 모두 삭제해야 하고, 단층 촬영 등 영상정보에서는 신체 표면 가장자리 정보를 제거하는 등 정보 종류에 따라 복잡한 가명처리가 요구되며, 음성, 유전체 정보, 생체인식 정보 등에 대해서는 가명처리 가능성이 유보되는 등 금융권의 정형 데이터에 비해 폭넓게 활용되기에는 제약이 남아있는 상황이다.
학술적으로는 학습데이터를 보호하면서 AI를 학습하는 프라이버시 보호 머신러닝(privacy preserving machine learning) 기술이 활발히 연구되고 있는데, 1) 암호학적으로 학습데이터를 보호하는 동형암호, 함수암호, SGX, garbled circuit, secret sharing 같은 기법과 2) 데이터 왜곡을 통해 학습데이터 프라이버시를 보호하는 차분 프라이버시와 차원 축소 기법 3) 진짜 데이터가 아닌 재현데이터 또는 학습 파라메터만을 제공하는 연합학습과 같은 대체 데이터 제공 기법 등 다양한 기술들이 개발되고 있다.
◇학습된 AI에 대한 프라이버시 이슈
학습된 AI 모델은 활용단계에서는 데이터를 입력받아, 분류 결과 또는 수치 예측을 출력하는 방식으로 서비스에 활용된다. 활용단계에는 학습데이터가 존재하지 않으므로 프라이버시 위험이 없다고 생각하는 경향이 많으나, 학습된 AI 모델에서 학습데이터를 추출하는 데 성공한 연구들이 지속적으로 공개되고 있다.
지문의 특징점인 융점(minutia)정보로부터 원래 지문을 복원하는 것은 불가능하다고 여겨졌으나, 이 또한 가능하다는 연구결과가 나왔다. 학습에 사용된 이미지 데이터를 복원하는 것 이외에도 알고 있는 데이터를 이용해 모르는 데이터를 알아내는 것이 가능하다. AI 모델은 분류 또는 예측 결과와 함께 그 결과에 대한 신뢰 확률을 출력하는데, 공격자는 알고 있는 값과 모르는 값의 추정치를 AI 모델에 입력하고 AI 모델이 출력하는 신뢰 확률을 이용해서 추정치의 정오를 판단하는 방식의 공격이 가능하다. 예를 들어, 환자의 성별, 나이, 혈압 등 특징정보와 질환 정보를 입력하면 약물 사용량을 출력하는 헬스케어 AI가 있을 때, 알고 있는 특징정보와 후보 질환 정보를 입력하고, 출력된 확률을 보면 학습데이터에 사용된 개인의 질환 정보를 유추할 가능성도 있는 것이다. 앞서 언급한 이루다 채팅 서비스의 경우, 주소라는 쿼리를 통해 학습데이터에 포함된 주소를 획득한 경우이다.
이러한 학습데이터 추출을 막기 위해, 학습데이터 자체를 완벽히 익명화시키면 된다고 생각할 수 있지만, 완벽한 익명처리를 하는 것은 거의 불가능하며 이렇게 처리하면 학습데이터로서의 가치가 거의 없게 되는 것이 일반적이다. 따라서, 쿼리 개수를 제한한다든지, 출력 값의 신뢰 확률을 제공하지 않는다든지 하는 제한적 대응 방안에 머물고 있다.
◇AI 기기를 통한 프라이버시 이슈
최근 애플의 시리나 SKT의 누구, KT의 지니, 네이버 클로바 같은 다양한 AI 음성 비서(assistant)가 많이 사용되고 있다. 이러한 AI음성비스를 이용하는 과정에서 프라이버시 침해가능성이 이슈되고 있다. AI 음성 비서는 이용자의 명령 수신을 위해 상시 대기 상태로 주변의 모든 음성 데이터를 수집하는 프라이버시 로깅 환경을 생성하게 된다. 이를 통해 사적 대화나 검색 내용을 도용한 광고 서비스나 피싱 공격, 가짜 뉴스 방송 등이 가능하다고 알려져 있다. AI 음성 비서는 위치기반 서비스 등과 연계하여, 서비스 범위를 넓히고 있지만, 이는 그만큼 수집하고 활용할 수 있는 민감한 정보가 증가함을 의미한다. 또한, AI 음성 비서가 스마트홈 등 다른 IoT 기기들과 연결하는 인터페이스, 컨트롤러 역할을 하면서 이들 기기의 정보도 끊임없이 수집하게 된다. 국내 AI 음성 비서 서비스를 제공하는 통신사들에 따르면 학습데이터 확보를 위해 대화 내용을 일정 기간 저장한다고 한다.
최근 자율주행 자동차로 인한 프라이버시 침해도 큰 이슈가 되고 있다. 테슬라의 경우, 카메라 영상 인식 비전 기술을 이용해 자율 주행을 하는데, 이때 차량 외부의 많은 개인정보가 수집된다. 더욱 놀라운 것은 미국의 Consumer Report에 의하면 차량 내부의 카메라를 통해 탑승객들의 영상도 수집한다는 것이다. 이런 정보들은 사용자 동의하에 수집하고 있지만, 차량 소유주가 최초 1회 동의한 것으로, 차량 외부에 있는 개인의 정보나 다른 탑승객의 정보 수집이 모두 커버된다고 볼 수 있을지 의문이다.
이처럼 AI는 학습 단계 뿐 아니라 활용 단계에서도 많은 데이터를 수집하게 된다. 활용단계에서는 처리 속도 및 데이터의 단편화로 인해, 데이터 집합단위의 처리가 필요한 가명⋅익명 처리 적용은 어려워진다. 따라서, 사용자의 프라이버시 정책을 이해하고, 이에 따라 정보 수집을 사용자 대신 컨트롤할 수 있는 프라이버시 에이전트 프레임웍 같은 기술이 필요하게 된다.
◇AI 기술을 활용한 프라이버시 이슈
데이터에서 개인을 식별하거나, 민감한 정보를 획득하는 것이 때로는 단순할 수 있으나, 때로는 복잡한 추론과 다량의 데이터를 필요로 하는 과정이 될 수 있다. 그런데, AI 기술을 활용하면 복잡한 추론이나 민감한 정보 유추를 쉽게 할 수 있는데, 필자가 수행했던 연구에서는 페이스북에 공개된 정보를 AI에 학습시켜서 공개하지 않은 개인정보를 80% 정도의 정확도로 유추하는 것이 가능했다. 이렇게 유추한 정보는 추가적인 추론에 사용할 수 있는데, 유추한 출신지 정보를 통해 주민등록번호 추론을 수행했고, 대통령 등 유명인의 주민번호를 추론하는데 성공하기도 했다.
상기에 언급한 AI 모델로부터의 학습데이터 추출 과정에서도 적대적 생성 네트워크 GAN (generative adversarial network) 과 같은 AI 기술이 활용되고 있다. 한편, 이러한 AI 기술은 프라이버시 보호에도 활용되는데 GAN의 경우, 원본 대신 학습데이터로 사용할 수 있는 재현 데이터를 생성하는데 쓰이기도 한다.
AI를 활용한 프라이버시 침해가능성을 최소화하는 방안은 현재로서는 데이터의 공개, 공유를 최소화하는 방법 외에는 없는 것으로 보인다. 데이터는 한번 온라인상에 공개되면 반드시 어딘가에 영구히 기록되고, 분석 가능해지기 때문이다.
◇맺음말
본 고에서는 AI와 관련있는 프라이버시 이슈들을 살펴보았다. 많이 알려진 학습데이터 프라이버시 보호를 위해서는 가명⋅익명 처리가 이루어지고 있고, 기술 개발도 활발한 편이다. 그러나
활용되고 있는 AI모델에서 학습데이터를 추출이 가능한 점과 AI 비서나 자율주행자동차 등 AI 서비스에서 다양한 민감한 정보 수집이 가능하다는 문제는 잘 알려져 있지 않으며, 그 대응 방안도 미흡한 실정이다. 더구나 AI 기술을 개인정보 침해에 활용할 수도 있다는 점에서 AI와 프라이버시 이슈에 대해 심도있는 검토와 기술 개발을 포함한 대응 방안 수립이 필요하다.
[글. 숭실대학교 최대선]
# ’데이터융합포럼’은 2016년 6월 개인정보 비식별조치 가이드라인 발간에 맞춰 금융회사, 핀테크회사, 금융분야 유관기관 등의 실무자와 해당분야 전문가 중심 ‘비식별 연구반’이라는 이름으로 시작. 가이드라인 해석 및 실무적 해결방안에 대해 주제를 선정해 발제자가 발제하고 토론하는 학습 모임으로 발전. 인공지능(AI)기술로 대표되는 4차산업혁명시대를 맞아 핵심 자원인 안전한 데이터 활용을 촉진하기 위해 실무적 이슈에 대해 논의하는 포럼이다.
★정보보안 대표 미디어 데일리시큐!★