데이터 표준화 ②


데이터 표준을 정의하는 방법에 대해 살펴보겠습니다.

<데이터 표준 사전>을 통하여 단어/도메인/코드/용어의 표준을 정의합니다.


표준단어 사전 정의

표준 단어 사전 정의는 기존 데이터 모델 및 용어집을 통해 해당 기관에서 사용되고 있는

모든 단어 추출을 통해 이루어집니다.

추출된 단어는 단어 종류와 유형을 분류하고 업무 정의 및 용도를 고려하여 표준 단어를 정의합니다. 표준 단어 사전을 정의할 경우 이음동의어, 동음이의어 처리에 주의해야 합니다.

정의된 표준 단어는 정의된 표준화 원칙을 참고하여 영문명과 영문 약어명을 정의합니다.



표준 단어 정의 방법

표준 단어를 정의하는 방법은 다음과 같습니다.



표준 단어 관리 기준

표준 단어를 정의 및 관리할 때 준수해야할 기준은 표준성, 일반성 그리고 대표성 입니다.


ⓐ표준성

정보시스템이나 일반적인 업무에서 사용되는 단어 가운데에서 추출해야 하며,

너무 업무적인 용어의 사용을 최소화하여 정보시스템의 특성에 부합되도록 해야함.

ⓑ일반성

일상적으로 사용하고 있는 사전적 의미의 단어와 의미상 크게 다르지 않아

일반인도 해당 단어의 의미를 이해할 수 있어야 함.

ⓒ대표성

동의어를 가질 수 있으며 표준 단어로 선언된 단어는 비슷한 의미의 동의어들을

대표할 수 있어야 함.



단어 정렬 시 이용 가능한 기법

ⓐ한글명이 동일한 단어와 의미가 동일한 단어(이음동의어)들을 취합한 후 활용 빈도가 가장 많은 한글명을 표준 단어로 선택

ⓑ한글명이 동일한 단어와 이음동의어를 모두 통틀어 가장 많이 나타나는 영문 약어명을

해당 표준 단어에 대한 영문 약어명으로 선택

ⓒ동음이의어의 경우 상대적으로 활용 빈도가 낮은 의미의 단어에 대해서는 동일한 의미를

갖는 다른 한글명을 표준 단어로 선택



표준 단어 정의 시 고려사항

ⓐ 표준 단어의 단위는 최소 단위가 기준이나, 사용 빈도가 높은 단어의 조합 또는

단어의 조합이 하나의 고유한 의미를 가지는 경우 하나의 표준 단어로 정의하는 것이 유리

(ex. 신용카드)

ⓑ 대부분의 DBMS는 테이블 물리명 및 칼럼 물리명의 첫 글자를 알파벳으로 시작하도록

제약하기 때문에 표준 단어의 영문명도 반드시 알파벳으로 시작하도록 정의

(ex. 1순위 -> RNK1)

ⓒ 접두어, 접미어와 같이 한 자리로 구성된 단어들은 가급적 표준에서 배제하는 대신 앞뒤에 나오는 단어와 조합하여 표준단어로 정의하는 것이 바람직 함




 

표준 도메인 사전 정의

도메인이란 속성에 정의된 조건을 만족시키는 값의 범위를 의미합니다.

표준 도메인은 전사적으로 사용되고 있는 데이터 가운데에 논리적, 물리적으로 유사한 유형의 데이터를 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이를 정의한 것을 말합니다.

도메인은 중복적으로 사용 될 수 있습니다.


표준 도메인 사전 정의는 업무적인 용도, 사용 빈도 , 데이터의 물리적인 특성 등을 고려하여 도메인을 분류하고 도메인별 데이터 타입을 부여합니다.

도메인에는 코드성 도메인과 숫자 도메인, 날짜 도메인, 문자 도메인 등이 있습니다.


표준 도메인 정의 방법

①현행 용어 추출

동일한 정보시스템에 대한 데이터 모델에서 추출된 현행 용어들을 유일하게 추출합니다. 용어를 추출할 때에는 한글명, 영문명, 데이터 타입 및 길이 모두 일치하는지 확인합니다.

②유사한 속성끼리 그룹핑

데이터 타입과 길이가 동일한 용어들을 검색하여 유사한 속성의 용어들을그룹핑합니다.

용어명 중에서 끝 쪽 단어를 기준으로 유사한 속성의 용어들을 그룹핑합니다.

③표준 도메인 정의

그룹핑된 유사 속성 용어의 의미에 따라 표준 도메인명을 정의하고 그에 따른

데이터 타입 및 길이를 정의합니다.



표준 도메인 관리 기준

표준 도메인을 정의 및 관리할 때 준수해야할 기준은 표준성, 유일성, 업무 지향성입니다.

ⓐ표준성: 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의

ⓑ유일성: 동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리

ⓒ업무 지향성: 업무의 특성을 충분히 반영할 수 있도록 선언



표준 도메인 정의 시 고려사항

ⓐ 가급적이면 업무적으로 의미가 있는 도메인명을 부여

(EX. ID, 증권번호, 일자, 주소, 여부 (O) / 문자1, 문자2, 숫자12 (X)

ⓑ 기존 데이터와의 호환성 및 범용성을 위하여 그룹핑된 용어들에게 부여된

데이터 타입 길이 중 가장 큰 데이터 타입 길이를 표준으로 정함

ⓒ 어느 도메인에도 속하지 않는 칼럼이 있을 수 있기 때문에

모든 용어를 포괄하는 표준 도메 인을 생성할 필요는 없음

ⓓ 표준 도메인에 정의할 데이터 형식을 어떻게 정의하고 각기 다른 DBMS에

어떻게 물리적으로 적용할 것인가에 대한 방안 고려 필요

ⓔ 표준 도메인을 도출하면서 동일한 용어로 판명된 현행 용어들을 별도로 기록하여

향후 동일한 데이터 표준 용어로 통일

 

표준 코드사전 정의

표준 코드는 각 정보시스템별로 사용되고 있는 모든 코드들을 수집하여 동일 코드를 파악하고 통합하여 표준 코드를 정의합니다.


표준 코드 정의 방법

① 현행 코드 수집

기업 내 존재하는 모든 정보시스템에서 사용하는 코드 정보를 수집합니다.

코드를 관리하는 테이블, 통합 코드 테이블, 애플리케이션 사용자 인터페이스를 통하여 코드 정보를 수집합니다.

② 현행 코드 상세 분석

수집된 현행 코드 정보를 상세히 분석함으로써 동일하거나 통합이 가능한 코드를

식별합니다. 통합 대상 코드의 식별은 다음의 방법을 고려하여 식별합니다.

ⓐ 코드값이 일치하는 동일한 코드 인스턴스를 가지는 코드를 찾은 뒤, 해당 코드의

모든 코드 인스턴스를 확인하고 비교함으로써 통합 가능한 코드를 식별합니다.

ⓑ 분석해야 할 대상 코드가 너무 많을 경우에는 코드를 사용하는 업무 기능별로

코드를 분류한 후, 분류된 단위로 코드를 분석합니다.

③표준 코드 정의

현행 코드 상세 분석을 통하여 식별된 통합 대상 코드의 코드 인스턴스를 통합합니다.

ⓐ 통합 대상이 없는 코드는 현행 코드 인스턴스를 그대로 유지하는 것이 일반적

ⓑ 통합 대상이 존재하고 통합 대상 코드의 코드 번호가 서로 상이할 경우

새로운 코드 번호를 부여함으로써 표준 코드를 정의



표준 코드 관리 기준

표준 코드를 정의 및 관리할 때 준수해야할 기준은 재사용성, 일관성, 정보 분석성 입니다.

ⓐ재사용성: 표준화 기구나 정부, 공공기관에서 정의한 코드를 재사용하는 것이 관리에 용이

ⓑ일관성: 업무 범위 내에서 가능한 한 유일하게 정의, 코드 중복 시 데이터 불일치 문제 발생

ⓒ정보 분석성: 가능한 범위의 데이터는 모두 코드화하여 관리하면, 분석 가치가 있는 데이터 생성 가능




표준 코드 정의 시 고려사항

ⓐ 코드값은 향후 확장성을 고려하여 정의하여야 하며, 여러 업무에서 사용할 수 있도록 통합된 코드로서의 일관성을 유지해야 함

ⓑ 시스템 운영 중에 코드값이 변경되는 경우 해당 코드를 사용한 기존 데이터의 유지를 위해 기존 코드값을 삭제하는 대신 사용 중지 상태로 관리하고 새로운 코드값을 신규 정의

ⓒ 표준 코드를 도출하면서 파악한 표준 코드 - 현행 코드 간의 변환 매핑 정보를 별도로 기록하여 향후 신규 정보시스템으로의 데이터 이행 시 참고

표준 용어사전 정의

표준 용어 사전 정의는 단어, 도메인, 코드 표준이 정의되면 이를 바탕으로 표준 용어를 구성하고, 단어의 조합, 도메인 분류, 데이터 타입 길이, 코드값 등을 기준으로 해서 표준 적용이

업무적으로나 IT적으로 무리가 없는지 검토합니다.


표준 용어 관리 기준

표준 용어를 정의 및 관리할 때 준수해야할 기준은 표준성, 일반성, 업무 지향성 입니다.

ⓐ표준성: 용어의 표준화를 통해 용어 사용의 차이에 따라 발생되는 혼란 최소화

ⓑ일반성: 지나치게 업무관점에서만 정의되어 일반적인 의미와 전혀 다르게 사용된 용어는 적절한 다른 용어로 대체하고 새로운 용어 개발 또한 자제

ⓒ업무 지향성: 기업의 업무 범위 내에서 약어를 사용하거나 내부에서 별도로 정의하여

사용할 수 있음



표준 용어 정의 시 고려사항

ⓐ표준 용어 도출 시, 데이터 표준 원칙에서 정의한 한글명 및 영문명의 허용 길이를 넘지 않음

ⓑ 만약 영문명의 허용 길이가 문제가 된다면 한글명을 변경하거나 한글명을 구성하는

표준 단어들 중 일부를 WHGKQ하여 하나의 표준 단어를 등록하여 영문명의 길이를 축약함

ⓒ 생성된 표준 용어가 너무 길다면 두개의 표준 용어를 복합하여 생성하는 방법 고려



 


데이터 표준화 문서양식 예시







38 views0 comments

Recent Posts

See All