스탠포드 의과대학, 의료 데이터 보호 위해 그래프코어 IPU 도입

IPU 활용해 차등 개인정보보호 기법으로 AI 훈련 속도 10배 개선

인공지능(AI) 반도체 기업 그래프코어(Graphcore)는 스탠포드 대학교 의과대학이 IPU를 도입해 민감한 환자 데이터를 보호하는 차등 개인정보보호(Differential Privacy) 기법으로 AI 훈련을 가속화하는데 성공했다고 밝혔다.

AI는 신속한 조기 질병 진단부터 개인 맞춤 의약품, 그리고 신약 개발에 이르는 다양한 영역에 걸쳐 활용되며 의료 발전에 상당한 역할을 하고 있다. 하지만, 의료업계에서 AI가 급성장하게 되면서 AI 모델 훈련에 사용되는 민감한 환자 데이터의 개인정보보호와 보안에 관한 우려가 제기되고 있다. 의료전문가는 물론 정부 차원에서도 관련 문제에 대한 활발한 논의를 이어가는 가운데, 더욱 철저한 데이터 프라이버시 보호를 위한 AI 기술 개선이 요구되고 있다.

최근 스탠포드 대학교 의과대학 연구진은 그래프코어 연구팀과 함께 민감한 데이터 보호를 위한 핵심 기술인 차등 개인정보보호에 관한 획기적인 연구 성과를 달성했다.

스탠포드 팀은 그래프코어 IPU를 활용하여 차등 개인정보보호 기법을 통해 AI 훈련 속도를 10배 이상 향상시켰다. 광범위하게 사용되기에는 연산적으로 너무 어렵다고 여겨졌던 차등 개인정보보호 기법을 실현 가능한, 실질적인 솔루션으로 구현해 낸 것이다.

데이터 보호는 의료 AI 분야의 오랜 과제이다. AI 학습에서 민감한 개인 데이터를 사용하는 데에는 여러 도전과제가 따르지만 가장 중요한 두 가지는 데이터 주권 유지와 개인식별 방지로 볼 수 있다. 스탠포드 대 팀은 이번 연구를 통해 각 문제에 대한 기술적인 해답을 보다 실용적인 방향으로 이끌어 냈다.

여러 의료기관이 보유한 전세계 다양한 모집단을 대표하는 데이터셋을 통해 대규모 환자 데이터로 훈련된 모델은 보다 견고하고 편향이 나타날 가능성이 낮아 궁극적으로 더 유용하다. 표준 머신러닝 접근법은 각 데이터를 중앙서버에 모아 일괄적으로 학습하는데, 환자 식별 정보를 제거해 데이터를 익명화 한다해도 해당 정보를 외부 연구기관이나 조직에 제공하는 자체가 큰 문제로 대두되고 있다. 실제로 환자 데이터가 해당 관할권에서만 보존되도록 규정하는 규제에 대한 요구도 점점 거세지고 있다.

탈중앙화된 익명의 환자 데이터로 AI 모델을 훈련할 수 있는 연합학습이 일부 해답이 될 수 있다. 연합학습에서는 각 데이터를 중앙서버로 전달하는 대신, 중앙서버의 AI 모델을 클라이언트로 보내 각각의 데이터로 모델을 훈련시키기 때문이다. 연합학습은 분명 가치 있는 기술이지만 최근 연구들은 완전히 훈련된 모델에서 데이터를 추론하여 익명의 건강정보를 재식별해 이를 특정 개인과 다시 연결하거나 원본 데이터셋을 복원하는 것과 관련된 개인정보보호 취약성을 강조하고 있다. 이러한 이유로 연합학습의 사용 또한 차등 개인정보보호 기술 발전에 의존하고 있는 상황이다.

차등 개인정보보호는 누구도 훈련 데이터를 추론하거나 원본 데이터셋을 복원할 수 없는 방식으로 연합학습 모델을 훈련하여 민감한 데이터에 대한 보안을 한층 강화시킨다. 차등 개인정보 확률적 경사 하강법(DPSGD)은 개별 훈련 데이터 항목의 기울기를 왜곡하여 익명화된 환자 데이터에 노이즈를 추가한다. 이렇게 추가된 노이즈는 누군가가 모델 훈련에 사용된 개별 환자 데이터를 악의적으로 발굴하거나 원본 데이터셋을 복원할 확률을 줄인다.

DPSGD는 민감한 데이터 보호에 명백한 이점을 제공하지만, 아직까지는 많은 연구가 이뤄지지 않은 분야이다. 특히, GPU나 CPU 같은 전통적인 AI 컴퓨팅에 사용하기에는 컴퓨팅 리소스가 너무 많이 들기 때문에 지금까지는 대규모 데이터셋에 활용되지 않았다. 스탠포드 의과대학 컴퓨터 비전 전문 방사선학 연구팀은 최근 논문에서 바로 이러한 사실에 집중했다.

DPSGD는 컴퓨터 리소스 요구 수준이 높아 보통 소규모 데이터셋 분석에 활용되고 있다. 하지만 스탠포드 팀은 민감한 정보를 포함한 대규모 이미지 데이터셋 대신, 공개적으로 사용가능한 이미지넷(ImageNet) 데이터셋에서 가져온 이미지 130만 장을 이용하여 IPU 시스템에서 최초 분석을 실행했다. 이번 연구는 차등 개인정보보호 기법을 대규모 데이터 분석에 적용하는데 대한 장벽을 허무는데 일조할 것으로 예상된다.

민감한 개인정보가 아닌 훈련 데이터를 사용해 차등 개인정보보호 기법을 성공적으로 구현해 낸 스탠포드 팀은 그래프코어와 협력해 이러한 성과를 코로나19 흉부 CT 이미지에 적용하여 코로나바이러스에 관한 새로운 연구를 진행할 계획이다.

그래프코어와 스탠포드 팀의 이번 연구는 의료 및 금융서비스 같이 민감한 개인정보보호가 필수적인 분야에 중요한 방향성을 제시할 것으로 평가받고 있다.

◈[PASCON 2021] 공공•금융•기업 정보보안&개인정보보호 컨퍼런스에 초대합니다.

-2022년 공공∙기업 정보보안책임자/실무자를 위한 최고의 컨퍼런스-

△주최: 데일리시큐

△후원: 개인정보보호위원회/한국인터넷진흥원/한국정보보호산업협회

△참석대상: 공공기관•공기업•정부산하기관•금융기관•의료•교육•일반기업 개인정보보호 및 정보보호 담당자, IT담당자 등 1,000여 명 참석

(※위 관계자 이외 일반인은 참석 금지)

△일시: 2021년 11월 11일 목요일(오전9시~오후5시30분)

△장소: 더케이호텔서울 2층 가야금홀 전관

△솔루션전시회: 국내•외 최신 개인정보보호 및 정보보호 솔루션

△교육인증: 공무원 정보보호/개인정보보호 교육 및 자격증 유지 교육시간 7시간 인정