구글 리서치의 소프트웨어 엔지니어 인바르 모세리와 오란 랑은 사람들이 시끄러운 환경에서 대화할 때 특정한 상대방에게 집중해 그 사람의 목소리만을 잘 알아듣는다는 점에 주목했다. 이런 능력은 사람에게는 자연스러운 것이지만 컴퓨터에서는 자동 음성 분리나 오디오 신호를 개별 음성 소르로 분리하는 것이 큰 과제로 남아 있었다.
연구진은 배경 잡음과 여러 다른 목소리가 혼합된 자료에서 단일 음성을 분리하는 딥러닝 시청각 모델을 발표했다. 이들은 해당 AI를 사용해 어떤 소리는 강화하고 어떤 소리는 음량을 줄일 수 있었다고 발표했다.
이 기술을 사용하기란 매우 간단하다. 동영상에서 목소리를 더 자세히 듣고 싶은 사람의 얼굴을 선택하기만 하면 된다. 연구진은 이 기술이 단일 오디오 트랙이 포함된 일반 비디오에서도 효과적으로 작동한다는 사실을 밝혀냈다. 새로운 AI는 앞으로 비디오의 음성 인식, 화상 회의, 기타 음질 향상에 적용될 수 있으며 보청기를 착용한 사람이 원하는 소리를 더 잘 들을 수 있도록 만들 것이다.
■ 보안 사건사고 제보 하기
★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★
저작권자 © 데일리시큐 무단전재 및 재배포 금지