1. 데이터 품질관리 이슈
업무 자동화를 위한 어플리케이션 세분화, 모바일 디바이스와 정보시스템간 연계 등으로 기업이 관리하는 데이터 볼륨은 매년 급속도로 증가하고 있으며, 데이터의 소스나 형태도 신기술을 반영하여 다양해지고 있다.
이에 따라 기업의 데이터 관리정책도 변화를 거듭하고 있다. 과거에는 ‘방대한 데이터 확보’가 우선시 된 반면, 근래 들어서는 ‘기업 경쟁력 강화를 위해 축적된 데이터를 어떻게 활용할 것인가’에 초점이 맞춰지고 있다. 기업 경영 전반에 걸쳐 데이터 활용도가 높아지면서 데이터의 정합성과 신뢰성, 즉 데이터 품질 수준이 의사결정에 영향을 끼치고 이는 곧 비즈니스 성패와 직결된다. 이런 이유로 최근 들어 많은 기업들이 데이터 품질관리 체계 수립과 시스템 도입에 나서고 있다.
데이터 품질은 정보의 내용(데이터 값)뿐만 아니라 정보 구성의 최소 항목인 속성 및 속성간 관계를 규정하는 데이터 구조도 함께 관리하여야 한다. 구조가 결여된 상태에서는 내용물이 담길 수 없으므로 데이터 값에 대해 최소한의 품질을 보장하기 위해서는 데이터 구조 역시 체계적으로 정의되어야 한다.
데이터 구조가 애초에 데이터를 정확하게 담을 수 없도록 설계되어 있거나, 업무간 또는 시스템간 동일 데이터를 서로 다른 구조로 정의하여 관리하고 있다면 다양한 업무나 시스템에 데이터 정합성과 신뢰성을 제공할 수 없을 것이다. 이는 정보시스템에 상당 부분을 의존하는 현 비즈니스 환경에 다양한 문제를 발생시키는 요인으로 작용한다.
본 백서에서는 두 가지 데이터 품질관리 사례를 소개하겠다. 우선 데이터 품질관리 영역에서 정보관리 최소 단위인 ‘속성’과 밀접히 연관되어 있는 용어 표준화 및 데이터 모델관리 사례를 살펴보고, 이어서 데이터 내용에 대한 품질지표 기반의 기준정보 품질관리 사례를 짚어보겠다. 이를 통해 실질적 성과를 창출하기 위한 데이터 품질관리 방안과 고려사항을 제시하고자 한다.
2. 용어 표준화와 표준용어 기반 데이터 모델관리 사례
2.1. 용어 표준화 필요성
IT분야에서 용어라 함은 정보시스템의 화면, 프로그램, 데이터베이스 등에서 사용하는 데이터의 명칭으로 흔히 속성명 또는 필드명을 의미한다. 기업의 경영활동 및 정보시스템에서 발생하는 데이터를 대상으로 의미와 형식, 표기방식을 전사차원에서 표준화하여 활용한다면 시스템 통합과 정보공유 효과를 극대화할 수 있다. 또한 사업수행을 위해 하나의 유기체처럼 협력해야 하는 다양한 업무 및 시스템 담당자 간의 커뮤니케이션 오류를 상당 부분 줄일 수 있다. 특히 여러 시스템에서 공통으로 활용하는 데이터의 경우 시스템간 정보 연계가 필수적이므로, 표준 용어에 기반하여 정보항목을 정의하고 구조를 설계한다면 시스템간 데이터 매핑이나 변환 등의 비효율적인 작업을 최소화할 수 있다. 아울러 업무 영역간 또는 시스템간 데이터 단절이나 불일치 이슈 해소에도 많은 도움이 된다.
이를 통해 비즈니스 변화로 인한 정보시스템 내 데이터의 변경 영향을 파악하는데 있어 신속성과 정확성을 보장받을 수 있다. 즉, 용어 표준화에 기반한 정보시스템은 업무 변화에 신속 정확하게 대응할 수 있는 데이터 거버넌스 인프라의 핵심 구성요소인 것이다.
2.2. 용어 표준화 관리 대상
일상생활에서 형식과 틀에 얽매이지 않고 자유롭게 사용하는 용어와 달리, 정보시스템에서 정의하고 활용되는 표준용어는 DB나 어플리케이션의 오프젝트 명칭으로 사용되므로 정형화된 규칙을 통해 생성 되어야 한다. 이와 같은 이유로 표준용어는 일반 자연어보다 단어 사용의 제약이 있을 수 있으며, 일부 생소한 명칭으로 통용되기도 한다. 아래 몇 가지 예시를 살펴보자.
위와 같은 규칙들을 제대로 운영하기 위해서는 아래와 같이 용어 표준화와 관련된 다양한 대상들을 관리해야 하고, 각 대상 별로 별도의 운영기준을 수립하여야 한다.
업종이나 각 기업별로 사용하는 단어나 업무 용어, 속성 명칭 등에 차이가 있으므로 위에 언급한 관리대상들은 지속적으로 자산화하고 공유함으로써 표준 용어의 규모와 활용도를 높여야 한다. 자산화는 몇몇 개인이나 시스템 단위로 수행되어서는 안 되고, 전사 차원에서 각 영역간 이견을 상시 조정하면서 표준용어 Repository에 그 결과를 관리하고 활용하는 방식이 되어야 할 것이다.
2.3. 표준용어 자산화 및 활용성 제고를 위한 관리시스템
일관된 용어 생성 규칙 적용, 전사 공유를 통한 활용성 극대화 및 표준용어의 자산화, 어플리케이션 구축 시 용어 표준 유지 등을 위해 용어 표준 관리시스템 도입이 필요하다. 관리시스템이나 용어 표준화를 위한 별도의 프로세스 및 운영조직 없이 개별 업무영역 혹은 단위 시스템 별로 관리할 수도 있지만, 타 영역의 업무나 시스템과 연계되는 순간 더 이상 표준이 될 수 없으므로 그 효과가 극히 제한적이라 할 수 있다.
용어 표준 관리시스템의 일반적인 기능은 다음과 같다.
① 용어 표준화 관리대상 정보의 등록과 변경: 단어, 용어, 코드, 도메인, 비표준어 등에 대한 정보 관리 기능
② 용어 명명규칙의 자동화: 전사 표준으로 정의한 용어 명명규칙에 기반하여 용어 명칭을 생성
③ 정보 등록과 변경 시 거버넌스 적용: 업무와 시스템 경험이 풍부한 용어 관리자(데이터 아키텍트)에 의한 검토 및 승인
④ 용어 표준 준수여부 모니터링: 전사 차원에서 활용도가 높은 주요 시스템을 대상으로 Data Dictionary를 추출하여 용어 표준, 도메인 등의 준수여부 점검
2.4. 표준용어 기반 데이터모델 관리
정보시스템 구축과 운영 과정에서 용어 표준화가 가장 빛을 발하는 영역은 DB 구축과 운영을 위한 데이터모델링 부문이다. 데이터모델링은 정보의 최소 단위인 속성들로 테이블을 정의하고 테이블간 관계를 구성하여 데이터 구조를 설계하는 것인데, 이 때 자산화 되어 관리 중인 표준 용어를 활용하면 전사 표준에 기반한 모델링이 가능해진다.
주제 영역이나 테이블이 다른 경우라도 표준 용어에 기반한 속성을 활용하므로 데이터 구조의 일관성을 유지할 수 있다. 또한 프로세스가 바뀌어 데이터 구조 변경이 필요한 경우, 변경에 영향을 받는 테이블이나 속성 항목을 신속 정확하게 파악할 수 있다.
아래 그림은 ERP 구축 과정에서 용어 표준과 데이터 모델 거버넌스를 하나의 시스템에 통합하여 운영한 사례를 정리한 것이다. 차세대 ERP를 SAP 기반으로 구축하는 과정에서 다수의 레거시 시스템에도 변경이 발생하는데, 많은 프로젝트에서 정보시스템 설계자나 개발자가 임의로 데이터 오브젝트를 생성하는 경우를 볼 수 있다. 본 사례에서는 난개발을 방지하기 위해 데이터 표준 거버넌스를 데이터 표준화 시스템과 통합 적용하였다. 이를 통해 SAP 개발 서버에 Data Element, 도메인, 도메인 코드값 등을 거버넌스 없이 임의로 생성하지 못하도록 통제하였다.
영역별 데이터 아키텍트에 의해 승인된 오브젝트에 한해 SAP ABAP Dictionary에 자동으로 연계되도록 구축되었고, 또한 주기적으로 SAP 개발서버에 생성된 데이터 오브젝트와 표준용어간 일치성 검증작업도 수행하였다.
① 용어표준 거버넌스
ㆍ 영역별 검토자의 용어승인 완료 시 SAP ABAP Dictionary에 Data Element, 도메인, 도메인의 Value List를 자동 생성하여 설계자/개발자에 의한 임의적인 용어 생성 방지
ㆍ 주기적으로 SAP ABAP Dictionary 정보를 추출하여 용어 표준과 비교 검증하고 표준 위반 시 가이드
② 데이터모델 거버넌스
ㆍ SAP의 CBO 테이블 설계 시 활용한 데이터모델링 툴에 용어표준을 Import
ㆍ 설계자에게 테이블 필드 정의 시 Import된 용어 표준만 활용하도록 가이드
ㆍ 데이터모델 Repository에서 업로드된 테이블과 필드 정보 추출하여 데이터표준화 시스템에 Import
ㆍ 표준 용어를 준수하여 설계된 테이블에 한해 데이터 표준 시스템에서 검토 요청 가능
ㆍ 영역별 데이터 아키텍트가 검토하여 승인된 테이블에 한하여 SAP 개발서버에 활성화 가능하며, 활성화 이전에는 해당 오브젝트를 사용하는 어플리케이션 개발 불가
2.5. 표준용어 거버넌스 운영 시 고려사항
용어표준 및 데이터모델 거버넌스를 정보시스템 구축 단계에 적용하는 과정에서 발생하는 시행착오를 최소화하기 위해 아래 사항을 고려하여야 한다.
① 용어 표준 적용 대상 시스템을 선별해야 한다
모든 시스템을 대상으로 적용하는 것은 비용 대비 효과 측면에서 비효율적이다. 사용자가 많고 여러 프로세스와 업무에서 사용하는 시스템을 대상으로 적용해야 하는데, 가장 효과적인 대상은 ERP나 기간계와 같이 전사 프로세스에서 다수 활용하는 시스템이다. 특히 차세대 시스템 구축 시 적용하면 최대의 효과를 볼 수 있다. 용어 표준이나 데이터모델은 시스템 구축 단계에서는 많은 효과를 거둘 수 있지만, 운영 중인 시스템의 경우 DB나 어플리케이션에 대규모 변경을 발생시키기 때문에 적용 여부를 최대한 신중하게 결정해야 한다. 다만, 기존 시스템이더라도 신규 개발 영역에 부분적으로 적용하는 것은 가능할 것이다.
② 전사 차원의 데이터관리 조직 운영은 선택이 아닌 필수이다
표준화 원칙과 세부 Rule 정의, 데이터 표준유지 등을 위해 상시적으로 가이드하고 모니터링 할 수 있는 담당자와 조직이 필요하다. 이러한 데이터 표준은 업무, 프로세스, 시스템에 공통으로 적용되어야 하기 때문에 전사 조직으로 구성해야 한다.
③ 조직에는 경험과 지식이 많은 데이터 아키텍트가 구성원으로 포함되어야 한다
일례로 용어관리 시스템에 신청된 용어를 면밀히 검토하지 않고 곧바로 승인한다면, 중복 용어나 유사 용어가 무차별적으로 생성될 수 있다. 이는 시스템 기능으로만 통제할 수 없고 데이터 표준 관리자의 경험과 지식으로 해결할 수 있다. 즉, 데이터 표준화 및 모델링 경험이 많은 데이터 아키텍트를 중심으로 조직을 구성하여야 한다.
④ 정보시스템 설계자와 개발자에 대한 지원과 변화관리가 필요하다
어떤 영역의 표준화 과제라도 초기에는 많은 시행착오를 거치게 되며, 표준화가 안착하기까지는 지속적인 가이드와 모니터링이 필요하다. 특히 촉박한 개발일정 때문에 생산성을 중요시할 수 밖에 없는 설계자와 개발자는 데이터 오브젝트 생성 제한으로 인해 승인 완료까지의 대기시간에 많은 부담을 느낄 수 있다. 이러한 점을 감안하여 데이터 표준 관리자는 요청사항을 신속하게 검토하고, 데이터 표준 위반을 발견한 경우에도 통보로 끝나는 것이 아니라 가이드 제공 및 대안 제시를 통해 설계자와 개발자를 지원해야 한다. 또한 데이터 표준을 준수하면 어플리케이션 품질이 높아져 변경 개발이 줄어들고, 이에 따라 시간적 손실도 줄일 수 있다는 점을 지속적으로 주지시켜야 할 것이다.
3. 기준정보 정확도 제고를 위한 DQM 시스템 사례
3.1. 품질관리 대상 선정의 중요성
기업이 관리하는 데이터의 규모가 무한하다고 느껴질 만큼 방대해지고 있어, 적합한 품질관리 대상 데이터를 선정하는 것은 비즈니스 성패를 결정 짓는 중요한 요소로 작용한다. 전사에서 운영하는 모든 정보시스템과 데이터를 대상으로 품질관리를 한다면 정보를 분석하고 나열하는 것만으로도 수많은 자원과 시간이 필요하게 된다. 이는 결국 실행 불가능한 이상적 계획으로 귀결되어 데이터 품질관리의 효용성을 재검토해야 하는 결과를 가져올 수도 있다.
그래서 초기 단계 데이터 품질관리 체계를 정착하기 위해서는 가시적 성과를 빠르게 도출할 수 있는 대상을 선별해야 한다. 아래와 같은 기준을 중심으로 초기 단계 품질관리 대상을 선정하면 비용 대비 효과 측면에서 탁월한 성과를 거둘 수 있을 것이다.
ㆍ 다수 사용자/부서/시스템에 동일기준으로 적용되어야 하는 데이터: 품질이슈로 인한 영향이 크므로 데이터 품질개선 활동에 대한 효과도 크다
ㆍ 자주 변동되지 않고 장시간에 걸쳐서 활용되는 데이터: 업무 과정에서 빈번하게 등록, 변경되는 데이터는 대부분 트랜잭션 데이터로 이에 대한 품질관리는 비즈니스 프로세스 개선 및 시스템 보완 영역에 가깝다. 기준정보의 경우 정적인 데이터로 오랜 시간 동일 값을 유지하는 경우가 많다
ㆍ 품질 수준을 정량화된 형태로 측정할 수 있는 데이터: 정보의 누락, 실물과 정보의 불일치, 시스템간 불일치와 같은 유형으로 명확하게 오류여부 판단이 가능해야 품질개선도 가능하다
결국 위와 같은 성격에 가장 근접한 데이터는 전사 마스터나 모듈 마스터와 같은 기준정보에 해당되며, 가장 우선적으로 품질 개선을 해야 할 대상이다. 또한 초기 단계 품질관리 대상은 결코 고정적인 것으로 볼 수 없으며, 데이터 관리 조직의 경험과 실력이 향상될수록 품질관리 대상도 확대되어야 한다.
3.2. 기준정보 품질측정을 위한 품질체계 수립
데이터 품질측정은 데이터 품질개선을 위한 선행작업으로, 현행 데이터의 품질이슈를 분석해 계량화하는 것을 의미한다. 기준정보는 다양한 속성들의 조합으로 구성되어 있으므로 품질측정도 속성 단위로 수행된다. 아래 표는 데이터 품질오류를 판단하는 품질지표 예시이다.
기준정보 품질관리 측면에서 완전성, 유효성, 유일성, 정합성은 생성시스템인 MDM 정보를 대상으로 측정하고, 일치성과 적시성은 MDM에서 정보를 수신 받는 전사시스템 및 EAI Hub와 MDM 데이터를 비교 분석하여 측정한다.
기업 및 업종별로 위에 정리한 예시 외에도 추가적인 품질측정 기준을 정의해서 활용할 수 있다. 예컨대 업무 프로세스에서 정의한 특정 운영기준 준수율, 계획 이행률 등과 같은 지표도 품질개선을 위해 정의 가능하다.
다음에는 품질관리 대상과 품질지표를 연결하여 품질측정을 위한 세부 측정규칙을 정의해야 한다. 측정규칙이 정의되어야 정기적이고 상시적인 품질모니터링 및 품질개선 활동이 가능해진다.
3.3. 품질지표 기반의 DQM 시스템 구축 및 활용
품질관리 대상과 품질측정 규칙이 정의되었다면, 이제 상시적인 품질 모니터링 및 품질개선 작업이 필요하다. 만일 관리대상도 적고 데이터도 소규모인 경우라면 별도의 관리시스템 없이 수작업을 통한 운영을 생각해볼 수도 있다. 그러나 일회성이 아니라 상시적인 운영을 위해서는 품질측정을 위한 데이터 수집과 평가작업의 자동화가 필수적이다. 이를 위한 시스템을 DQM(Data Quality Management) 이라고 하며, 주로 아래와 같은 기능을 제공한다.
DQM 시스템은 데이터 품질관리, 품질측정 엔진, 외부 시스템 연계 등 3가지 주요 기능과 DQM DB로 구성되어 있다.
① 데이터 품질관리
– 품질대상 관리 : 관리대상 세부 정보 및 오너쉽에 대한 관리
– 품질 현황 : 데이터 품질측정 엔진에 의한 측정결과와 오류 데이터 조회 및 분석
– 품질 개선 : 데이터 품질오류 개선활동과 근본적 개선을 위한 개선과제 관리
– 대쉬보드 : 대상, 오류, 개선활동 등에 대한 현황판
② 데이터 품질측정 엔진
– 속성별 정의된 품질측정 규칙을 정기적으로 실행하기 위한 플랫폼으로, 대량 데이터를 처리하므로 ETL과 같은 솔루션에 기반하여 구축 및 운영
③ 외부시스템 연계
– 품질측정 대상 시스템 별로 최신 데이터 추출 작업 자동화
– 품질개선 담당자에게 품질현황 및 오류데이터 자동 전송
– 시스템 운영에 필요한 전사 권한관리 시스템 연계
아래 그림은 ERP 오픈 시 고품질 기준정보를 각 모듈에 제공하기 위해 2개월에 걸쳐 수행한 기준정보의 품질측정 및 개선활동 사례이다. MDM에 적재된 기준정보에 대한 일 단위 품질측정을 통해 점진적으로 품질오류를 최소화 해가는 과정에서 DQM 시스템을 활용하였다.
3.4. 품질관리 고도화를 위한 고려사항
기업 데이터 품질관리 수준을 높이기 위한 전략적 접근 과정에서 다양한 시행착오를 경험할 수 있는데, 이를 최소화하기 위해 아래와 같은 내용들이 검토되어야 한다.
① 전사 차원의 데이터관리 조직 운영은 선택이 아닌 필수이다
용어 표준화 및 데이터모델 관리 사례에서 언급한 것과 동일하게 상시적인 품질관리를 위한 조직 운영이 필요하다. 대부분의 업무, 프로세스 및 시스템에 공통으로 적용되는 기준정보의 품질을 관리하므로 전사 차원에서 구성해야 하며, 전사 기준정보 운영기준을 수립하고 MDM을 관리하는 기준정보 담당부서와 통합하여 조직하는 것이 효율적이다.
② 상시적 데이터 품질관리가 필요하다
많은 기업들이 고품질의 데이터를 위해 막대한 비용을 정보시스템과 데이터 정비에 투자하지만 대부분 간헐적이고 일회성 데이터 개선작업에 그치는 경우가 많다. 데이터 개선 경험과 노하우를 자산화하고 효과를 점진적으로 가시화하기 위해, 품질관리 체계와 프로세스를 정의하고 시스템화하여 상시적인 운영이 가능하도록 해야 한다.
아울러 데이터 품질관리를 위한 품질기준 및 상시 데이터 품질측정, 품질현황 모니터링, 품질개선 활동 등을 지원하는 통합 DQM 시스템을 갖추어야 한다.
통합 DQM 시스템은 Rule 엔진 기반의 품질규칙 설정, 다양한 관점의 품질현황 모니터링, 품질개선 및 조치결과를 통합 관리할 수 있는 Total 솔루션 기능을 제공해야 한다.
③ 품질관리 대상의 지속적인 확대가 필요하다
품질관리 체계의 정착 및 효과의 가시성 제고 측면에서 초기단계에는 전사 기준정보를 중심으로 품질관리를 운영하게 되지만, 조직의 경험이 축적되고 실력이 늘어갈수록 점진적인 관리대상 확대가 필요해진다.
ㆍ 정보 측면에서 전사마스터 → 모듈마스터 → 운영정보 등으로 확대
ㆍ 시스템 측면에서 MDM, ERP → CRM, PLM 등 단위 업무영역 등으로 확대
이상 소개한 내용들은 업무에서 이미 활용 중인 데이터에 대한 사후 모니터링과 개선에 집중하고 있다. 만약 기준정보 등록 시점부터 다양한 오류 유형 등에 대처할 수 있는 검증 로직이 포함될 수 있다면, 보다 능동적이고 선제적인 품질오류 대응, 즉 지능형 데이터 품질관리가 가능해질 것이다.
4. 데이터 품질관리를 고민 중인 기업을 위한 제언
데이터 품질관리란 데이터의 품질수준 및 활용수준을 지속적으로 모니터링하고 개선함으로써, 고품질의 데이터를 유지하는 관리체계를 의미한다. 데이터 품질은 프로세스간 연계성을 보장하고, 데이터 분석의 신뢰성을 높여 Fact 기반 의사결정을 가능하게 하는 주요한 기반이다. 많은 기업들이 고품질 데이터를 확보하기 위해 정보시스템과 데이터 정비에 막대한 비용을 투자하지만 여전히 데이터 오류에 따른 프로세스 수행 문제나 데이터 신뢰성 저하로 고민하고 있다. 이는 기업이 데이터 품질이슈를 단순히 시스템 개선이나 일회성 데이터 정비작업을 통해 해결할 수 있다고 생각하기 때문이다.
데이터 품질관리가 실질적 성과를 내기 위해서는 데이터품질 수준을 정확히 파악하고, 데이터 오류의 근본원인을 찾아 해결하는 작업이 상시적으로 수행되어야 한다. 아울러 부서 단위가 아닌 전사적 관점의 데이터 품질관리체계 수립과 전담 조직 운영 등이 동반되어야 한다.
데이터가 자산화 되어 비즈니스 전략 운영의 핵심으로 작용하는 빅데이터 시대, 체계적인 데이터 품질관리 프로세스와 유기적으로 작동하는 DQM 시스템을 갖춘 기업은 이들 데이터로부터 수준 높은 통찰을 이끌어내어 한 차원 높은 비즈니스 성과를 창출할 수 있을 것이다.
배상균 상무
에스코어㈜ 컨설팅사업부 데이터컨설팅팀
기준정보 거버넌스, 데이터 품질관리 및 데이터모델링 영역에서 15년이상 컨설팅을 수행하고 있다. 최근에는 S-ERP, 보험ERP 프로젝트에서 기준정보, 데이터품질 및 용어 표준화를 위한 관리체계 수립과 시스템을 구축한 바 있다.
Register for Download Contents
- 이메일 주소를 제출해 주시면 콘텐츠를 다운로드 받을 수 있으며, 자동으로 뉴스레터 신청 서비스에 가입됩니다.
- 뉴스레터 서비스 가입 거부 시 콘텐츠 다운로드 서비스가 제한될 수 있습니다.
- 파일 다운로드가 되지 않을 경우 s-core_mktg@samsung.com으로 문의해주십시오.