2021-12-05 07:20 (일)
김기홍 샌즈랩 대표 “사이버보안에 최적화된 AI 학습용 데이터셋 구축”
상태바
김기홍 샌즈랩 대표 “사이버보안에 최적화된 AI 학습용 데이터셋 구축”
  • 길민권 기자
  • 승인 2021.09.26 21:37
이 기사를 공유합니다

“국내 환경에 최적화된 데이터셋 구축해 국내 활용 및 해외에 수출까지”
유동훈 시큐리온 대표
김기홍 샌즈랩 대표

2021 인공지능 정보보호 컨퍼런스 'AIS 2021' 온라인이 지난 9월 16일 데일리시큐 주최로 900여 명이 참석한 가운데 성황리 개최됐다. 사전등록자는 1,400여 명이다.

이 자리에서 샌즈랩 김기홍 대표는 ‘침해사고 대응과 악성코드 탐지를 위한 양질의 AI 학습용 데이터셋을 만들기 위한 노력’을 주제로 강연을 진행했다.

사이버 보안 분야에서 인공지능 기술을 가장 선도적으로 많이 도입을 시도하고 있는 분야가 바로 침해사고탐지 및 악성코드탐지 분야다. 그는 침해사고분야와 악성코드탐지 분야에서 가장 많이 사용되는 인공지능 기술과 이 기술들에 활용되는 양질의 데이터셋을 만들기 위해 어떤 노력을 샌즈랩에서 하고 있는지 공유하는 시간을 가졌다.

김기홍 대표는 “데이터셋은 인공지능 개발에 필수적 요소이며 학습데이터를 기반으로 하고 있다. 많은 데이터가 있을수록 정확도와 성능이 상승하고 특징정보(Feature)가 다양할수록 차원도 상승한다”며 “하지만 무조건 많다고 좋은 것은 아니다. 풍부한 데이터셋을 기반으로 개발 자유도를 확보하는 것이 무엇보다 중요하다”고 설명했다.

이어 “침해사고 분야 데이터셋 생성은 단순 시뮬레이션 환경이 아닌 실환경 대상 공격 원천 데이터 구성을 목표로 하고 있다”며 “unb.ca는 데이터가 14만건이지만 샌즈랩 침해사고 데이터셋은 1억 건, 어플리케이션은 약 150여 건 이상, 라벨링은 정상/비정상 실제 공격 방법 그리고 Raw 데이터를 제공하는 것을 목표로 하고 있다”고 전했다.

샌즈랩은 이렇게 구축된 침해사고 데이터셋을 국가기관 지능형 네트워크 위협 분석 모델, 통신사 대량 디바이스 위협 대응 모델 등 다양한 분야에 활용될 수 있도록 준비하겠다고 밝혔다.

김기홍 대표는 “국내 사이버 보안 인공지능 연구는 아직 해외 데이터셋 의존성이 높고 실제 국내 이벤트, 공격탐지에 취약하다. 이를 개선하기 위해 국내 환경에 최적화된 데이터셋을 구축해 국내 활용은 물론 해외에 수출까지 하는 것을 목표로 하고 있다”고 강조했다.

이어 강연을 진행한 샌즈랩 신대균 팀장은 악성코드 분야 데이터셋 구축을 설명하며 “인공지능 프로젝트 실패 요인의 가장 큰 원인은 학습 데이터 확보 문제”라며 “인공지능 연구를 계획했다면 양질의 데이터셋의 준비가 가장 중요하지만 대부분의 연구 사례가 해외 데이터셋을 사용하거나 각각의 수단으로 악성코드를 수집하고 메타데이터를 생성하는 방식으로 진행되고 있다”고 설명했다.

샌즈랩은 양질의 데이터셋을 위해 우선 윈도우, 리눅스, 안드로이드, IOS 등의 실행형 파일 타입, 문서형, 압축파일, 스크립트 타입의 원시데이터를 준비하고 있다.

또 명확한 기준에 의한 악성 유형 분류를 통해 국제적으로 악성 유형 호환이 가능한 데이터셋을 제공하려고 한다.

그리고 데이터셋에서 제공되는 메타데이터의 항목은 전체적으로 약 250종의 메타데이터 항목으로 구성하고 마지막으로 다양한 피처셋으로 학습 데이터셋 구성이 가능하도록 준비하고 있다.

더불어 악성코드에 기능 OP Code 셋을 MITRE ATT&CK의 T-ID에 매칭하는 샌즈랩 자체 기술을 적용하고 공격 기법 별 탐지 정보를 학습해 신종 악성코드 탐지에 활용할 수 있는 메타데이터를 제공한다는 계획이다.

보다 상세한 내용은 아래 영상을 통해 확인할 수 있으며 샌즈랩 강연자료는 데일리시큐 자료실에서 다운로드 가능하다.

★정보보안 대표 미디어 데일리시큐!★