의사결정나무

topics 100-데이터분석 & AI 101 머신러닝
types 이론
tags
  • 노드내는 동질성커지고 외부는 이질성 커지는 방향으로
  • 시장조사 광고조사
  • 불순도가 낮을수록 좋다.
    • 이 불순도 차이를 낮추는 것(순도를 높이는것)을 정보획득이라 함
    • 이게 곧 분리 기준임
    • 측정 방식에 따라 나뉨

종류

  • 분류나무 : 목표변수가 이산형
    • 분리 기준
      • 카이제곱통계량 p-value
        • 커야지 불순도가 낮음
      • 지니지수
        • 특정집합에서 한항목을 뽑아 무작위로 라벨추정시 틀릴확률
      • 엔트로피 지수
        • 무질서 정도에 대한 측도
        • 로그들어가잇음
  • 회귀나무 : 목표변수가 연속형
    • 분리 기준
      • 분산분석 F-통계량의 p값
        • 커야지 불순도 낮음
      • 분산 감소량
        • 감소량이 최대화 되면 불순도가 낮음

대표알고리즘

분류 회귀
Cart 지니지수 분산감소량

관련 문서