티스토리 뷰

ML Tree 기반 모델 미니세션

랜덤 포레스트 (Random Forest)

  • 여러 개의 트리를 만들어 투표를 통해 최종 예측 결과를 도출하는 방식
  • 각 트리는 데이터와 피처를 랜덤하게 샘플링하여 생성
  • 모든 트리가 동일하지 않도록 의도적으로 다양성을 부여
  • 한 트리의 실수를 다른 트리가 보완하여 전체적으로 안정적인 모델 구축

부스팅 (Boosting) 개념

  • 이전 트리의 오류를 다음 트리가 보완하며 점진적으로 발전하는 방식
  • 시험 채점 비유: A 선생님이 채점한 문제 중 틀린 것을 B 선생님이 중점적으로 보고, C 선생님이 다시 보완하는 방식
  • 이전 실수를 메워가며 점점 강해지는 구조

주요 부스팅 모델

XGBoost (Extreme Gradient Boosting)

  • 가장 클래식하고 널리 사용되는 부스팅 모델
  • Gradient를 계산하여 오차를 줄이는 방향으로 학습
  • 미술 작업처럼 대충 스케치 후 점점 정교하게 개선하는 방식
  • 성능이 좋지만 파라미터가 많고 복잡할 수 있음

LightGBM

  • XGBoost보다 빠르고 대용량 데이터 처리에 강함
  • 트리 추가 방식이 다름: 균형잡힌 방식 대신 문제가 되는 노드만 깊게 파고들어감
  • 히스토그램 방식을 사용하여 구간별 평균 계산으로 속도 향상

CatBoost (Categorical Boosting)

  • 범주형 데이터 처리에 특화된 모델
  • 성별, 지역, 직업 같은 범주형 변수가 많을 때 유리
  • 원-핫 인코딩(0, 1, 2) 대신 각 범주의 평균값을 사용하여 순서 편향 제거
  • 범주형 데이터를 전처리 없이 그대로 입력해도 잘 처리

기술적 세부사항 (심화 내용)

부스팅의 작동 원리

  • 오차(Loss)를 기반으로 모델 개선: 예측값과 실제값의 차이를 계산
  • 오차가 0에 가까워지도록 학습 진행
  • 틀린 데이터들에 집중하여 다음 모델 생성

XGBoost의 그라디언트 계산

  • Gradient를 통해 어느 노드가 폐급인지 파악
  • 미분/적분을 통해 잘못 예측하는 노드를 찾아내고 개선
  • 얼마나, 어떤 방향으로 틀렸는지 계산하여 정확한 보완 가능
  • N개의 트리를 생성한 후 다수결 투표로 최종 예측

모델 비교 요약

  • XGBoost: 그라디언트 기반 최적화, 양옆 균형잡힌 트리 추가
  • LightGBM: XGBoost와 동일한 원리이나 틀린 부분에 집중하는 방식으로 트리 추가
  • CatBoost: 평균값 기반 인코딩으로 순서가 반영되지 않은 중립적 피처 제공

Q&A

  • 트리 모델은 yes/no 질문뿐 아니라 숫자 값 예측도 가능
  • 다중 레이블 분류도 가능
  • 실제로는 매우 자세한 조건 분기를 통해 복잡한 예측 수행
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함