글로벌 데이터 클라우드 기업 스노우플레이크(Snowflake)가 대규모언어모델(Large Language Model, LLM) 앱 중 챗봇 비중이 지난해 5월 대비46%까지 증가했다고 밝혔다.
스노우플레이크는 9천 개 이상 고객을 대상으로 데이터 및 AI 도입의 패턴과 트렌드를 조사해 ‘데이터 동향 2024(Data Trend 2024) 보고서’를 발간했다. 글로벌 엔터프라이즈 기업들이 AI 기술과 데이터를 비즈니스에 어떻게 활용하고 있는지를 다룬 이 보고서에서는 텍스트 입력 방식의 LLM 앱의 비중은 줄고(2023년 82%, 2024년 54%) 대화형 챗봇이 늘어나고 있다고 분석했다.
또한 스트림릿(Streamlit) 개발자 커뮤니티를 대상으로 실시한 설문 조사에서는 응답자의 약 65%가 업무용으로 LLM프로젝트를 진행하고 있다고 답했다. 실제로 엔터프라이즈 고객들은 생성형 AI 기반 기술을 업무의 생산성, 효율성, 분석력을 높이는데 다양하게 사용하고 있다.
제니퍼 벨리센트(Jennifer Belissent) 스노우플레이크 데이터 전략 수석은 "대화형 앱은 사람들이 실제 상호작용하는 방식으로 프로그래밍 되어 이제 사람과 대화하듯 LLM과 쉽게 상호작용할 수 있다”며 “특히 LLM 앱의 기초가 되는 데이터의 거버넌스와 보안이 보장된다면 대화형 앱은 기업과 사용자 모두의 기대치를 충족하며 활용도가 확대될 것”이라고 말했다.
9개월간 3만 3000개 이상의 LLM 애플리케이션 구축
스노우플레이크 스트림릿 커뮤니티에 속한 전세계 약 2만 명 이상의 개발자들은 지난 9개월 동안 3만 3143개 이상의 LLM앱을 구축했다. 이들이 가장 선호하는 프로그래밍 언어는 파이썬이었다. 스노우플레이크의 앱 구축 플랫폼인 스노우파크(Snowpark)에서 지난해 파이썬 사용량은 5.71배 증가했다. 이는 3.87배, 1.31배 늘어난 스칼라, 자바에 비해 높은 수치다. 파이썬은 프로토타입 및 테스트 속도를 높여 전체 작업 속도는 물론 최첨단 AI 프로젝트의 초기 단계에서 전반적인 학습 속도를 높인다.
최근에는 LLM 앱을 개발할 때 데이터 관리 플랫폼 위에서 프로그래밍하는 사례도 늘고 있다. 스노우플레이크 플랫폼에서 직접 앱을 개발할 수 있는 스노우플레이크 네이티브앱(Snowflake Native App) 활용도는 지난해 7월부터 올해1월, 7개월 사이 3배 이상 증가했다. 단일 데이터 플랫폼에서 개발한 애플리케이션은 외부 업체로 데이터 복사본을 내보낼 필요가 없어 앱 개발과 배포가 빨라지고 운영 및 유지보수 비용을 줄일 수 있다.
기업 내 데이터 거버넌스의 중요성 증가
AI 도입과 함께 조직 내 비정형 데이터에 대한 분석과 처리도 늘었다. 이 과정에서 활용되지 않은 새로운 데이터 소스를 발견할 수 있고, 민감한 개인 데이터를 보호하기 위한 데이터 거버넌스도 중요해졌다. 스노우플레이크 보고서에 따르면 기업들이 지난 한 해 동안 처리한 비정형 데이터의 양은 1.23배 증가했다. 글로벌 시장분석 기관 IDC는 전 세계 데이터의 최대90%를 비정형 동영상과 이미지 및 문서로 추산하고 있다.이미 언어모델 훈련이 일반화된 정형 데이터와는 달리 비정형 데이터의 가공은 기업의 비즈니스 경쟁력을 높일 수 있는 새로운 기회가 될 것이다.
제니퍼 벨리센트 스노우플레이크 데이터 전략 수석은 “데이터 거버넌스는 데이터를 통제하는 것이 아니라 궁극적으로 데이터의 가치를 활용하는 것”이라고 강조하며 “스노우플레이크는 거버넌스를 ▲데이터 수집 ▲데이터 보안 ▲데이터 활용, 3가지 축으로 분류하고 고객들은 기업에 적합한 액세스와 사용 정책을 적용하기 위해 데이터를 태그하고 분류할 수 있도록 했다”고 설명했다. 그 결과, 스노우플레이크 고객의 데이터 거버넌스 기능을 도입한 기업은 70%에서 100%로 늘었고, 거버넌스 내 운영되는 쿼리 수도 142% 증가했다.
더불어 벨리센트 수석은 “각각의 데이터들은 기업들이 당면한 문제에 대해 어떻게 대응하는지를 보여준다. 이 개별적인 데이터 포인트들을 전체로 보면, 최신 AI 기술 기회를 활용한 조직의 통합적인 전략을 세울 수 있다”며 “생성형 AI 시대의 핵심 전략은 데이터를 바꾸는 근본적인 변화가 아니라 그 전략을 바로 실행하도록 하는 것이다. 이를 위해서 기업들은 광범위한 데이터 생태계에 펼쳐진 데이터소스를 오픈하고 공유해 데이터 사일로를 허무는 것이 중요하다”고 전했다.