합성데이터(synthetic-data)
| topics | 100-데이터분석 & AI 108 활용,도구 |
| types | 이론 |
title : 합성데이터
목차
합성데이터가 무엇인가
왜 이런데이터가 필요?
어떤 유형이 있는가
- 부분 합성 데이터
- 완전 합성 데이터어떤과정을통해 만드는가
- 시나리오
- 도메인 렌덤화
- 통계적
- 딥러닝
- 시나리오
생길수 있는 문제
평가지표
- 유용성 검증
- 안정성 검증 - k 익명성
vae gan 비교
https://dev-hani.tistory.com/12
합성데이터가 무엇인가
컴퓨터로 생성되며 기존 데이터 세트나 알고리즘 및 모델에서 파생되어 실제 데이터의 속성과 특성을 복제함
다양한 프로세스와 기술을 따름
왜 이런데이터가 필요?
쉽게 접근할수 없거나 기밀정보, 매우비쌈 => 인공지능과 기계학습의 데이터가 부족..
장점: 쌈, 의도대로 완벽하게 레이블이 지정된 데이터가 될 수 있음
목적과 의도에 따라 완벽히 분류된 데이터를 얻을 수 있음.
가디언즈에 따르면 AI파이프라인에 공금하는데 피요한실제데이터ㅏㄱ 70퍼 줄어들것이다.~
어떤과정을통해 만드는가
일부 기존데이터 세트를 사용하고 이를 조작(노이즈를 추가하거나 일부변환)하여 세로운 예제를 만듬
GAN : 기존데이터를 학습
수학적 통계적 방법을 사용하여 특정 분포를 따르는 데이터를 생성 합성 데이터 생성기
생길수 잇는 문제가 무엇인가
현실세계의 실제요인을 항상정확하게설명할 수없음
적용사례
회사에 적용가능성
러시아 상트페테르부르크에 소재한 스테클로프 수학연구소(Steklov Institute of Mathematics)의 세르게이 I. 니콜렌코(Sergey I. Nikolenko)가 저작한 156쪽에 달하는 이 연구 보고서에서는 합성 데이터를 주제로 한 719개의 논문을 인용했습니다. 니콜렌코는 “합성 데이터는 딥 러닝 개발에 핵심적이다…(그리고) 더욱 많은 사용 사례가 앞으로 계속 나올 것”이라고 결론을 냈습니다.
gan이 무엇인가
https://m.blog.naver.com/euleekwon/221557899873
https://medium.com/datafabrica/exploring-synthetic-data-use-cases-6114935a54d1