기업은 사업을 영위하는 과정에서 다양한 고객 데이터를 축적한다. 과거에는 데이터를 쌓아두기만 했던 기업들이 최근 들어 360º 고객 View 기반 인사이트 확보, 전략적 의사결정 및 디지털 혁신 역량을 높이기 위해 그간 축적해 둔 데이터를 분석, 활용하는데 적극 나서고 있다.
특히 비즈니스적 가치가 나날이 높아지는 고객 VoC 데이터는 대부분이 ‘텍스트’ 형태로 저장, 관리되고 있기 때문에 이를 활용한 데이터 기반 운영 혁신(Digital Operation Excellence)을 이루기 위해서는 텍스트 데이터에 대한 분석 역량이 요구된다.
1. 기존 방법론 – Taxonomy 분석
텍스트 데이터의 분석 기법은 종류나 속성에 따라 다양하지만 대표적인 것으로 머신 러닝 기반의 ‘텍스트 마이닝(Text Mining)’을 들 수 있다. 이는 비정형 텍스트 데이터를 자연어 처리와 형태소 분석 기술로 정제하고 단어를 추출해 빈도 수를 제시하여 순위나 인식의 유사성, 일반성을 찾아내고 분석한다. 약어나 도메인 지식을 반영하고 분류를 위해 사전을 만들며 텍스트의 ‘형태’ 중심으로 맵핑하거나 연계 분석을 통해 인사이트를 도출하게 된다.
특정 분류 체계 없이 워드클라우드 형태로 다빈도나 트렌드를 분석하기도 하고 목적에 맞는 일반적인 분류 체계, 즉 Taxonomy 방식으로 사전을 만들어 분석하기도 한다.
실제로 소셜 리스닝(Social Listening)이라 해서 SNS나 다양한 채널 상의 고객 보이스, 자사 상품에 대한 평가나 긍·부정 버즈(Buzz) 등의 수집 분석, 수작업으로 정리한 운영 데이터의 분석 통계, 특정 인사이트를 사업 운영에 반영하거나 경영혁신 활동의 단초로 활용하는 경우 등 자연어 처리를 기반으로 하는 Taxonomy 방식의 분석은 그 활용도 측면에서 일정 수준 안착한 모습을 보이고 있다.
하지만 기업 CS 센터(콜센터 또는 소비자 상담·고객만족 영역)에 저장되어 있는 고객의 VoC 데이터를 분석하는 경우는 상황이 조금 다르다. VoC 데이터를 분석하기 위해 Taxonomy 방식의 시스템을 구축했으나 활용도가 저조하거나 심지어 시스템이 사장되는 경우를 종종 발견할 수 있다. 이 같은 상황이 발생하는 이유는 다음과 같다.
첫째, 현업 업무에 도움이 되는 콘텐츠가 별로 없는 경우.
둘째, 통계 데이터, 워드클라우드나 감성 분석 등 도출된 인사이트를 몇 번 보고 나면 더 이상 새로울 것이 없는 경우.
이는 모두 Taxonomy 분석 기법의 한계이자 텍스트 데이터의 분류 사전이 너무 제한적으로 만들어진 것에 기인한다.
2. 현업의 활용도가 높은 VoC 텍스트 분석 시스템 구축
기업의 IT 혹은 디지털 혁신 조직에서 애써 구축한 시스템이 현업 활용도가 떨어지거나 접속 빈도가 낮아져 사장되는 이유는 시스템이 제공하는 콘텐츠의 ‘범위’와 ‘깊이’가 제한적이기 때문이다. 적어도 VoC를 분석한 결과라면 일반적인 기업의 밸류 체인(Value Chain) – 개발>구매>제조>물류>마케팅>판매 및 서비스(금융의 경우 마케팅>상품>심사계약>보상>서비스) 영역에서 근무하는 현업들이 수시로 참조할 만큼 유용해야 한다. 즉, VoC 텍스트 데이터 분석 시스템으로부터 업무에 도움이 되는 인사이트를 얻을 수 있는 체계 또는 콘텐츠 분석 결과가 꾸준히 업데이트 되어야 한다. 그래야만 시스템 활용도가 높아지고 진정한 고객 지향을 추진하는데 의미가 있다.
일반적으로 VoC 텍스트 데이터에는 상품 및 서비스에 대한 불만, 민원 외에 더 다양한 정보들이 담겨 있기 마련이다. 예를 들어 경쟁사와의 비교, 운영 상의 비효율(Operation Issue)을 질책하거나 상품 및 서비스의 개선 포인트에 대한 의견은 물론 평판, 고객 개인의 호불호 등을 들 수 있다. 하지만 실제 업무에서는 불만, 민원을 처리하기에 급급한 나머지 다양한 개선 의견은 묵살되기 쉽다. 게다가 이러한 데이터를 분석한다 하더라도 Taxonomy 방식으로 처리하기에는 한계가 있다.
VoC 분석의 지향점은 크게 두 가지로 나누어 볼 수 있다.
첫째, CS 센터의 VoC 분류 업무 효율화이다.
대부분의 기업들은 수많은 VoC 내용을 직원이 일일이 읽어본 후, 불만의 원인, 유형, 담당 부서를 결정해 통보하는 과정을 수기로 운영하고 있다. 반면 VoC 분석 기반 자동 분류를 적용하면 사안 분류부터 유관부서 통보에 이르는 전 과정이 자동화 되어 처리 시간을 단축할 수 있을 뿐만 아니라 VoC 발생 원인이나 인사이트를 자동으로 도출할 수 있게 된다.
둘째, 앞서 설명한 전사 활용 측면이다.
VoC 텍스트 분석 시스템의 활용도를 높이기 위해서는 텍스트 데이터의 정보와 맥락(Context)을 분류하여 회사 내 모든 사업부가 볼 수 있도록, 전사 차원에서 지향하는 Value-added 분류 체계를 만들고 이에 따라 데이터를 분석해야 한다. 불만, 민원만 걸러내는 것이 아닌, 사업에서 활용할 수 있는 맥락이나 의도(Intend) 등을 걸러낼 수 있는 분류 체계를 말하는 것이다.
예를 들면 고객이 “경쟁사 제품에 있는 기능이 우리 제품에는 왜 없죠?”와 같은 VoC를 남겼을 때 이 데이터는 불만도, 민원도 아니기 때문에 고객 접점(CS 창구)에서 그냥 흘려 버리거나 유관 부서로 전달되지 않을 가능성이 높다. 아직 STT(Speech To Text) 기술의 정확도 수준이 90% 이상은 되지 않는 상황에서 대부분의 CS센터에서는 취합된 VoC를 당장 처리해야 할 시급성 순으로 요약, 정리해서 보고하기 때문에 이 같은 일이 발생한다. 게다가 해당 VoC의 빈도 수가 적다면 워드클라우드에도 나타나지 않는다. 모든 고객이 우리 회사에 로열티가 있어 적극적인 의견 개진을 해 줄 것이라는 환상에서 벗어나 고객의 작은 의견에도 귀를 기울이고자 한다면 이 부분은 대단히 중요하다. 작지만 의미 있는 VoC가 텍스트 데이터로 걸러져서 분석되고 유관 부서로 전달된다면 이에 맞추어 운영 현황을 점검해보거나 검토할 수 있을 것이다.
Value-added 분류 체계는 고객의 보이스를 여러 각도에서 걸러내 분석할 수 있도록 관점(Viewpoint)을 제공한다. 이의 구축을 위해서는 기업, 사업부별 전략, 운영 방향, 프로세스나 경쟁사에 대비 열·우위 전략 등이 사전에 이슈 트리 기반 분석 활용 시나리오나 마스터플랜 등의 형태로 먼저 정의 되어야 하고, 이를 바탕으로 VoC 분류 체계를 만드는 것이 중요하다.
이러한 분석 활용 시나리오 및 분류 체계는 AI 대화형 서비스(챗봇)에도 적용되어야 하며 다양한 고객 문의에 대한 기업 답변과 사후 처리까지 모든 영역에 빠짐없이 대응할 수 있는 기준이 된다.
이를 토대로 분석 시스템을 구축하면 전사적으로 높은 활용도와 인사이트 체계를 확보할 수 있다. 통상 이 같은 VoC 분석 프로젝트는 CS 부서나 디지털 추진 조직에서 주도하겠지만 사내 모든 운영 부서 인력들이 참여하여 VoC 데이터 활용 방안·주제 및 분석 관점을 먼저 논의하는 것이 프로젝트의 성패를 좌우한다.
3. VoC 데이터에 비즈니스적 해석 붙이기: Labeled 데이터 확보
VoC는 고객이 말하고자 하는 의미(Intend), 의도(Meaning)가 다양한 뉘앙스로 표현된다. 이를 비즈니스적으로 이해하고 업무 지식에 눈높이를 맞춘 언어로 해석해야지만 전사적으로 활용할 수 있다. 이름이나 레이블 없이 쌓여 있는 데이터는 동일 유사 형태의 키워드일 뿐 그 이상의 의미는 없다.
김춘수 시인의 시 <꽃>을 보면 “내가 그의 이름을 불러 주기 전에는 그는 다만 하나의 몸짓에 지나지 않았다. 내가 그의 이름을 불러 주었을 때 그는 나에게로 와서 꽃이 되었다” 처럼 데이터를 비즈니스적 의미로 불러주고 분석의 토대로 삼아야지만 그 데이터가 경영 혁신의 꽃(?)이 될 수 있다. 이를 데이터 레이블링이라고 한다. 레이블링(Labeling)은 전처리 된 VoC 텍스트 데이터에 고객 의도를 구분해서 비즈니스적으로 어떤 의미를 갖는지 (이를 테면 해시태그처럼 태깅해주는) 이름(레이블)을 붙이는 작업이다.
전처리 된 텍스트 데이터에 ‘특정 알고리즘’을 적용해 이 데이터의 비즈니스적 의미를 Value-added 분류로 레이블링 하여 분석한다. 예를 들면 특정 VoC 텍스트 데이터가 ‘상품 기획의 이슈’인지, ‘서비스의 불만’인지, ‘경쟁사 대비 열·우위의 이슈’인지를 파악할 수 있다. 즉, 단순 문구, 단어의 형태소적 유사성을 기준으로 분석하는 것이 아니라 특정 알고리즘을 통해 문장, 문구의 결합에서 Value-added 분류의 의미를 달아주는 것이다.
참고로 다빈도와 변별력이 결합된 알고리즘을 통해 동일한 키워드이지만 상이한 의미를 구분할 수 있도록 ‘의도(Intention)’를 분류하여 레이블링 할 수도 있다. 이렇게 레이블드된 텍스트 데이터(Labeled Data)는 향후 BERT 등의 딥러닝 적용이 가능한 기반 데이터가 되어 사전을 업그레이드 하지 않더라도 자체 강화학습을 통해 VoC를 분석할 수 있도록 만들어 준다. 따라서 초기의 수고로움만 잘 넘기면 이후에는 실익이 더 커질 수 있다.
Value-added 레이블링과 Taxonomy의 차이점은 다음과 같다.
레이블링 방법론이 해결되었다면 이제는 남아 있는 과거 VoC 데이터에 레이블링을 할 차례이다. 자동 레이블링 소프트웨어 툴을 활용하면 과거 Taxonomy 사전 방식 대비 10% 정도의 공수만 투입해도 비교적 용이하게 레이블링을 할 수 있다. VoC 양에 따라 ‘Value-added 분류’와 ‘Value-labeled 데이터 체계’를 완료하는데 분석 기반 검증까지 포함하여 통상 짧게는 2개월, 길게는 4개월이 소요되며, 전체 과정 중에서 레이블링 결과가 제대로 분류, 작동하는 지를 점검하는 검증 단계가 가장 많은 비중을 차지한다.
4. 텍스트 데이터의 AI 기반 딥러닝을 위한 교두보: Value-labeled 데이터 체계
4차 산업혁명을 주도하는 핵심 기술 중 하나인 AI는 인간의 ‘인지’와 ‘판단’을 모방하는 특징을 가지고 있다. 인간의 방식으로 이미지(시각)와 언어(음성 및 텍스트)를 이해하고 데이터를 축적해 인간과 유사한 의사결정을 수행한다. 인간의 수많은 바둑 기보를 학습한 알파고가 이세돌 9단을 누른 지 불과 1년 만에 바둑의 룰셋(Rule-set, 이기는 방법)을 스스로 학습한 알파고 제로가 기존 알파고에 89승 11패로 압승을 거둘 만큼 AI 기술은 빠르게 발전하고 있다.
하지만 알파고 개발 총책임자인 유니버시티 칼리지 런던 데이비드 실버 교수는 BBC와의 인터뷰에서 “게임처럼 명백한 룰이 있는 분야와 달리 변수가 많고 예측할 수 없는 현실 세계에 이런 기술을 활용하는 것은 또 다른 영역이다”고 말했다. 그가 말한 ‘또 다른 영역’ 에는 ‘텍스트 분석’ 분야가 포함될 것이다.
TV 예능 프로그램에서 어린 꼬마 출연자가 독일어로 옹알이를 하거나, 5개 국어를 하는 누나의 모습은 텍스트 분석 관점에서 많은 시사점이 있다. 아이의 지능이 성장하는 초기 단계지만 언어를 부지불식 중에 학습하며, 그 언어의 정답지는 부모의 일상 대화나 교육 현장에서 들은 내용일 것이다. 보고 듣는 학습이나 정답지 없이 어린 아이가 갑자기 독일어로 옹알이를 할 수 없을 것이다. 설령 일반적인 커뮤니케이션이나 감정표현(Sentimental Expression)은 옹알이로 가능하다 할지라도, 이 같은 방식으로 전문 분야에 대한 언어 학습은 어려울 것이다.
마찬가지로 기업의 텍스트 데이터도 업(業)에 부합하는 Value-added된 분류나 레이블링 작업 없이, 범용 AI 알고리즘이 사업 본질과 지식을 학습해서 자동으로 레이블을 생성하고 인사이트를 도출해 내는 것은 지금 당장 상상하기 어려운 게 사실이다. 현재 기술 발전 단계에 비추어 봤을 때 기업이 VoC 딥러닝 분석을 효과적으로 전개하여 활용도를 높이고자 한다면 최우선적으로 Labeled 데이터를 확보하는 것을 고려해야 한다.
남윤철 상무
에스코어㈜ 컨설팅사업부 전략프로세스혁신팀
유통, 서비스, 금융 산업을 대상으로 Digital Transformation 및 Digital Operation Excellence 영역의 컨설팅 리더로 근무하고 있습니다.
Register for Download Contents
- 이메일 주소를 제출해 주시면 콘텐츠를 다운로드 받을 수 있으며, 자동으로 뉴스레터 신청 서비스에 가입됩니다.
- 뉴스레터 서비스 가입 거부 시 콘텐츠 다운로드 서비스가 제한될 수 있습니다.
- 파일 다운로드가 되지 않을 경우 s-core_mktg@samsung.com으로 문의해주십시오.