DA_3데이터표준화
| topics | 900-자격증 |
| types | 레퍼런스 |
| tags |
모든걸 대상으로하는건아니고 관리해야할 필요성이 있는것만
필요성(중)
- 데이터 활용에 다음과 같은 문제가 생겨 이를 해결하기 위함
활용상 문제점
- 데이터의 중복 및 조직, 업무, 시스템별 데이터 불일치 발생
- 데이터에 대한 의미 파악 지연으로 정보 제공의 적시성 결여
- 데이터 통합의 어려움
- 정보 시스템 변경 및 유지보수 곤란
문제가 생기는 이유
- 동시다발적 정보시스템개발 > 승인된 데이터 요소활용해야함
- 데이터 표준화 안됨 > 표준화 규격화하셈
- 관리 마인드가 없음 > 관리를하셈요
기대효과(중)
- 의사소통 굿굿
- 데이터의 소재파악에 소요되는 시간 및 노력 감소
- 일관된 데이터 형식 및 규칙의 적용으로 인한 데이터 품질 향상
- 정보시스템간 데이터 인터페이스 시 데이터 변환, 정제비용 감소
개념(상)
- 시스템별 산재해있는 데이터 정보요소에 대한 ==명칭 , 정의, 형식,규칙==에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것을 의미

- 데이터 명칭
- 데이터를 유일하게 구별해 주는 이름
- 유일성, 업무적관점의 보편성, 의미전달의 충분성이 있어야함
- 데이터 정의
- 데이터가 의미하는 범위 및 자격요건을 규정함
- 잘 모르는 사람도 잘 이해하게 제 3자 입장에서 기술해야함
- 데이터 소유자를 결정하는 기준이 되기도함
- 데이터 형식
- 데이터 표현 형태의 정의를 통해 데이터 입력 오류와 ㄱ통제 위험을 최소화하는 역할을함
- db타입이랑 비슷함(Numeric,date,char 등)
- 길이나 소숫점자리같은거 정의
- 특수 데이터타입
- 데이터 규칙
- 발생 가능한 데이터값을 사전에 정의함
- 기본 값 : null일경우 기본값이 입력될 수 있도록 함
- 허용 값 : 업무 규칙과 일관성을 갖도록 데이터 값을 제한
- 허용범위
구성요소(상)
- 데이터 표준
- 관리 대상 : 용어 , 단어, 도메인, 코드
- 다아 표준이 있다 이말이야
- 그외 : 주제 영역 디비 스키마 등 이있다
- 데이터 표준 관리 조직
- DA(데이터 관리자)의 역할이 요구됨
- 데이터 관리자 주요 역할
- 데이터에 대한 정책과 표준 정의
- 부서간의 데이터 구조 조율
- 데이터 보안 관리
- 데이터 모델 관리
- 데이터 효율적인 활용방안 계획
- DA 분류
- 전사 데이터 관리자
- 데이터표준화에 대한 정책 결정
- 검토된 데이터 표준 제안에 대한 승인
- 업무 ""
- 담당 업무기능의 데이터 요구사항 반영을 위한 필요한 데이터 표준 정의
- 업무 관련 데이터 표준 변경 제안에 대한 합동 검토
- 업무 시스템 ""
- 시스템관리 목적의 데이터 요구사항을 위해 필요한
- 전사 데이터 관리자
- DA 와 DBA(디비관리자)와 비교
- DA 는 데이터 모델이나 표준 쪽을 관리함
- DBA는 모델을 해독해서 디비를 관리함

- 데이터 표준화 절차
- 표준화 요구사항 수집> 정의 > 확정 > 관리
- 모든 수집이 수집 > 분석 > 정의/정리(수집한것에 대한) 이런것같음
관리 도구 (하)
- 메타시스템이라고도 함
- 확장성,유연성,편의성을 고려해야함
데이터 표준 수립
표준화 원칙 정의
요구사항 수집
- 전체적인 관점 혹은 3자관점에서 기술할 수 있도록 유도함
- 불편사항 개선사항 파악
현행 데이터 표준 원칙 분석
- 현행 데이터 표준 원칙 수집
- 현 정보시스템 개발 개발 지침 문서 및 데이터 표준 확보
- 현행 정보시스템 모델의 분석
- 현행 데이터 모델 or db스키마의 정의패턴을 분석하여 원칙 유추 가능(제한적이긴 함)
- 데이터 표준 원칙 사용 현황 분석
- 수집된 데이터 표준 원칙 자료 바탕으로 그 원칙을 적용하고 있는 데이터 표준 대상 및 관리항목을 도출함
- 데이터 표준 대상별로 어떤 정보시스템에 적용하고 있는지, 어떠한 관리항목을 관리하는 지 조사
데이터 표준 개선 방안 정의
- 전사적관점에서
- 범주 > 문제점 > 개선방안
- 기존 수립된 데이터 관리 정책에 부합되어야함
데이터 표준 원칙 수립
- 데이터 표준 기본 원칙 정의
- 데이터 표준 개선 방안 참고해서 전체적으로 적용할 기본 원칙을 수립함
- 이로 표준화에 대한 방향 정의 가능
- ex) 한글명에 특수기호 사용 ㄴㄴ
- 데이터 표준 개선 방안 참고해서 전체적으로 적용할 기본 원칙을 수립함
- 데이터 표준 지침 작성
- 데이터 표준화에 대한 구체적인 지침 문서 작성 (원칙에 부합되도록)
- 기본 구성 : 개요, 데이터 표준화 관련자 역할 및 책임 , 데이터 표준 관리 절차, 데이터 표준 기본원칙, 데이터 표준 대상별 명명 규칙, 데이터 형식 정의에 대한 기준(ex : id는 8자리 text)
- 대상별 지침의 일반적인 구성
- 표준단어, 표준용어,표준도메인 , 표준 코드
- 유의 사항
- DBMS마다 테이블 및 칼럼의 물리명 길이가 상의
- 모두 적용가능하도록 고려해야함.
- 타입도 다름 다른 DBSD에 따라 어케 적용할 것인것도 고려
- 머 숫자 15.2자리 이런식으로 논리적 제시가 가능
- 아니면 각 DBMS마다 타입을 따로 명식
- DBMS마다 테이블 및 칼럼의 물리명 길이가 상의
표준 정의
표준 단어 정의
기존 데이터 모델 및 용어집을 통해 해당 기관이 사용하고 있는 모든 단어를 추출
단어 종류,유형 분류 & 업무 정의 및 용도를 고려하여 표준 단어를 정의
- 관리 기준
- 표준성(일반적인 업무에서 사용되야함)
- 일반성(일상이랑 차이 별로없어야)
- 대표성(동의어 가질수 있고 동의어중 대표할수 있어야함)
- 표준 단어 정의 순서
- 현행 용어 수집(한글명 존재하지 않는건 제외함)
- 단어 분할 : 최소 단위로 분할해야함(숫자는 제외,영문명도 고려해야)
- 단어 정련 : 동의어에대해 대표단어를 표준으로 정함(약어도 정함)
- 선택된 단어는 한글명,영문약어명 유일해야함
- 기법
- 동의어 중 활용빈도가 많은것,낮은것은 다른것으로 대체
- 표준단어사전 도출(정의)
- 3에서 표준으로 선택한 모든 단어들에 대한 한글,영문명을 표준단어사전으로 등록
- 의미는 유사하나 각기다른 표준으로 등록한경우 > 유사어
- 유사어가 아닌 나머지 동의어는 금칙어로 등록하여 관리함
- 3에서 표준으로 선택한 모든 단어들에 대한 한글,영문명을 표준단어사전으로 등록
- 정의시 고려사항
- 표준 단어 단위는 최소단위로 하되 사용빈도가 높은단어의 조합 or 고유한의미가 갖는 경우는 하나의 표준 단어로 정의하는것이 좋을 수 있음
- 신한카드
- 대부분 dbms 테이블 ,칼럼 물리명 첫글자를 알파벳으로 시작하도록 제약하고 있다 > therefore 영문명도 알파벳으로
- 접두어 접미어 같이 한자리로 구성된 단어들은 가급적 표준에서 배제
- 앞뒤에 나오는 다어와 조합하는 것이 나음
- 표준 단어 단위는 최소단위로 하되 사용빈도가 높은단어의 조합 or 고유한의미가 갖는 경우는 하나의 표준 단어로 정의하는것이 좋을 수 있음
- 표준단어 사전 작성 형식
- 엔티티와 속성을 개별 단위로하여 추출
- 추출된 단어의 동음이의어 이음동의어를 정비한 후 논리명(한글)을 기준을 ㅗ물리명(영어,약어) 유사 용어까지 함께정리하여 관리
- 개별 단어왜에도 같은단어(동의어 유의어 반의어) 간의 구조도 함께정의해야함

표준 도메인 정의
업무적 용도, 사용빈도, 데이터의 물리적 특성을 고려하여 도메인을 분류하고 도메인별 데이터 타입을 부여함
- 관리기준
- 표준성 : 전사 차원에서 공통적으로 사용되는 속성을 대상으로
- 유일성 : 동일한 내용의 동메인이 서로다른 이름으로 선언 ㄴㄴ
- 업무 지향성 : 지나치게 일반화 ㄴㄴ, 업무의 특성을 충분히 반영할 수 있도록 선언(ex : 계좌번호는 - 가 있도록)
- 정의 순서
- 현행 용어 정보 분석
- 모든 정보시스템에 대한 데이터 모델 or 칼럼 정의서를 이용하여 현행 용어에 대한 용어명과 데이터 타입 정보를 수집한 뒤 물리적으로 유사한 유형의 용어를 그룹화
- 수집(추출) 할때 한영명, 데이터타입등이 모두 일치하는지 확인
- 끝쪽단어기준으로 유사한 속성의 용어들을 그루핑(날짜나...)
- 모든 정보시스템에 대한 데이터 모델 or 칼럼 정의서를 이용하여 현행 용어에 대한 용어명과 데이터 타입 정보를 수집한 뒤 물리적으로 유사한 유형의 용어를 그룹화
- 표준 도메인 정의
- 그룹핑된 유사 속성 용어의 의미에 따라 표준 도메인명을 정의 & 그에 따른 데이터타입과 길이를 정의
- 가급적이면 업무적으로 의미있는 도메인명
- 호환성 범용성을위해 그룹핑된 용어들에게 부여된 데이터 타입길이중 가장 긴걸 표준으로 함
- 그룹핑된 유사 속성 용어의 의미에 따라 표준 도메인명을 정의 & 그에 따른 데이터타입과 길이를 정의
- 현행 용어 정보 분석
- 고려사항
- 어느 도메인에도 속하지 않은 칼럼이 있을 수 있음
- 모든용어를 다 포괄할 필요없
- 각기 다른 DBMS에 어케 물리적으로 적용할것인가생각
- 표준도메인 도출하면서 동일한 용어로 판명된 현행 용어를 별도로 기록하여 데이터 표준 용어로 통일할 때 참고
- 어느 도메인에도 속하지 않은 칼럼이 있을 수 있음
- 작성형식
- 번호 > 도메인명 > 정의 > 데이터타입 > 비고
- 모든 속성은 임의의 도메인에 할당되어야함, 복수할당ㄴㄴ
- 도메인 삭제는 해당도메인을 사용하고 있는 속성이 없을때
표준 코드 정의
수집된 용어로 부터 코드를 선별하여 현 코드의 코드값을 조사
정의된 표준 코드별로 오너십을 정의하여 해당코드의 수정삭제에 대한 권한을 관리할 수 있도록함
산업별, 기업 내부 코드도 포함
님이 생각하는 코딩의 코드가아니라 코드번호의 코드임
- 관리 기준
- 재사용성 : 표준화기구나 정부 공공기관에서 정의한 코드를 재사용하는것이 조음
- 일관성 : 가능한 유일하게 > 안하면 코드 데이터 중복,불일치 문제 발생
- 정보 분석성 : 가능한 범위의 데이터는 모두 코드화하여 관리
- 사용자 입력값을 최소화하고 범위 안에서 선택하도록함
- 작성형식
- 모든 코드 추출해서 정의된 코드와 동일한지 확인해보고 동일하면 통합 작업을 수행하여 단일화 작업을함
- 코드는 표준화 팀에서 엄격한 기준에 다라 관리되어야하함
- 도메인과 밀접하게 연관되어서 관리해야하나 도메인 값의 범위가 명확히 정의된 경우 특별히 코드화 하여 관리하지 않아도됨
- 코드유형번호, 코드명 ,코드구조, 코드번호, 코드값,오너쉽부서,사용부서
- 순서
- 현행 코드 수집
- 코드 관리 형태
- 단독코드 테이블
- 하나의 코드를 하나의 테이블에서 관리하는형태
- 부가 정보가 많은경우 이렇게 관리함
- 정보성 데이터인지 코드인지 명확히 구분해야함
- 통합 코드 테이블
- 복수개 코드를 하나의 통합관리테이블에서 관리하는 형태
- 코드 자체를 식별하기 위한 코드명 번호 등이있음
- 코드 관리차원에서 필요한정보도 있음(생성일자 권한등)
- 어플리케이션 정의
- 코드를 db에 저장하여관리하지 않고 어플에 정으ㅢ하여 관리하는 형태
- 사용자 인터페이스를 조회하거나 코드성 칼럼을 데이터 값을 추출하는 간접적인 방법을 통해 수집가능
- 단독코드 테이블
- 수집 대상 코드 파악
- 코드 데이터 값 수집 : 위의 관리형태에서 정보수집
- 코드성 칼람파악 : 테이블에 칼람중 코드를 저장하는 칼람 파악
- 수집된 코드에 대한 사용처 파악 : 누락된 코드와 수집된 코드성 칼람과 비교하여 검증
- 코드 관리 형태
- 현행 코드 상세분석
- 분석해서 통일하거나 통합이 가능한 코드를 식별
- 많으면 업무 기능별로 분류하기도함
- 표준 코드 정의
- 식별된 통합대상 코드의 코드 인스턴스를 정련하여 통합
- 통합대상이 없는 코드는 유지
- 통합대상이 존재하고 통합대상코드의 코드번호가 상의할 경우 새로운 코드 번호 부여( 통합해야하는데 서로코드번호가다르면 새로 부여)
- 현행 코드 수집
- 활용
- 모든 정보시스템은 표준코드를 사용해야함
- 범위를 한정해야할 경우 파생된 코드를 정의하여 사용
- 파생 코드에 정의된 코드번호 코드값은 반드시 표준 코드에 정의됭어ㅑ함
- 파생 코드에 인스턴트 추가해야할경우에도 표준코드에 먼저정의
- 모든 정보시스템은 표준코드를 사용해야함

- 고려사항
- 향후확장성고려,일관성유지
- 운영중 코드값변경되는경우 데이터유지를 위해 코드값삭제하지말고 사용중지상태로 관리하고 신규코드 정의
- 표준코드 도출과정서 파악한 표준코드 - 현행코드 간의 변환매핑정보를 별도로 기록하여 신규 정보시스템으로의 데이터 이행시 참고
표준용어 정의
단어, 도메인, 코드표준이 정의 되고 이를 바탕으로 표준 용어 구성
업무적,IT적으로 무리 없는지 검토 , 누락된게 있는지 확인후 보완
- 관리 기준
- 표준성
- 일반성 : 대부분 모두가 알아먹을 수 있는 용어야한다
- 업무지향성 : 업무 범위 내에서 약어를 사용하거나 내부에서 별도로 정의 가능
- 작성형식
- 용어유형 : 엔티티 용어사전과 속성용어사전으로 구분하여 관리
- 번호, 용어유형, 표준한글명, 표준영문명,설명 ,데이터타입,표준도메인 ,비고
- 순서
- 현행 용어에 대한 표준단어 도출 및 표준용어 정의
- 단어 수준
- 유사 단어를 표준 단어에서 찾아내서 조합함
- 표준 단어에 대한 도메인/코드 정의
- 표준도메인,코드 도출할때의 정보로 이를 정의가능
- 현행 용어에 대한 표준단어 도출 및 표준용어 정의
- 고려사항
- 데이터 표준 원칙에서 정의한 허용 길이를 넘지 않도록
- 영문명 허용길이가문제되면 한글명을 변경하거나 한글명을 구성하는 표준단어들 일부를 조합하여 하나의 표준단어를 등록하여 영문명길이를 축약
- 후자는 표준단어를 새로만들라는것임
- 너무 길면 표준용어를 복합하여생성하는 것을 고려
표준 확정
데이터 표준 검토
- 검토 계획 수립
- 검증 기준
- 유일성, 완전성(전부정의되엇니),정확성, 범용성
- 검증 기준
- 검토
- 검토 후 검토결과 정리 > 표준대상별로 보완사항 작성
- 보완 및 승인
- 보완 사항에 대해 확인하고 승인함
데이터 표준 공표
- 표준 관리도구 등록
- 배표 및 교육을 한다.
데이터 표준 관리
신규, 변경 ,삭제 할경우 어케처리할껀지 어디에 영향이갈껀지, 데이터표준을 잘준수하는지 확인하고 관리하는것
관리 프로세스의 구성요소
프로세스

- 신규,변경사항 발생 할 경우 거처야할 전체적인 업무 프로세스 정의
태스크
- 표준 신규/변경 요청
- 표준 준수 검토
역할과 담당업무

