76일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(5)

본문 바로가기 메뉴 바로가기

티스토리 뷰

내일배움캠프 데이터 분석

76일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(5)

heeso0908 2026. 4. 14. 21:00

ML Tree 기반 모델 미니세션

랜덤 포레스트 (Random Forest)

여러 개의 트리를 만들어 투표를 통해 최종 예측 결과를 도출하는 방식
각 트리는 데이터와 피처를 랜덤하게 샘플링하여 생성
모든 트리가 동일하지 않도록 의도적으로 다양성을 부여
한 트리의 실수를 다른 트리가 보완하여 전체적으로 안정적인 모델 구축

부스팅 (Boosting) 개념

이전 트리의 오류를 다음 트리가 보완하며 점진적으로 발전하는 방식
시험 채점 비유: A 선생님이 채점한 문제 중 틀린 것을 B 선생님이 중점적으로 보고, C 선생님이 다시 보완하는 방식
이전 실수를 메워가며 점점 강해지는 구조

주요 부스팅 모델

XGBoost (Extreme Gradient Boosting)

가장 클래식하고 널리 사용되는 부스팅 모델
Gradient를 계산하여 오차를 줄이는 방향으로 학습
미술 작업처럼 대충 스케치 후 점점 정교하게 개선하는 방식
성능이 좋지만 파라미터가 많고 복잡할 수 있음

LightGBM

XGBoost보다 빠르고 대용량 데이터 처리에 강함
트리 추가 방식이 다름: 균형잡힌 방식 대신 문제가 되는 노드만 깊게 파고들어감
히스토그램 방식을 사용하여 구간별 평균 계산으로 속도 향상

CatBoost (Categorical Boosting)

범주형 데이터 처리에 특화된 모델
성별, 지역, 직업 같은 범주형 변수가 많을 때 유리
원-핫 인코딩(0, 1, 2) 대신 각 범주의 평균값을 사용하여 순서 편향 제거
범주형 데이터를 전처리 없이 그대로 입력해도 잘 처리

기술적 세부사항 (심화 내용)

부스팅의 작동 원리

오차(Loss)를 기반으로 모델 개선: 예측값과 실제값의 차이를 계산
오차가 0에 가까워지도록 학습 진행
틀린 데이터들에 집중하여 다음 모델 생성

XGBoost의 그라디언트 계산

Gradient를 통해 어느 노드가 폐급인지 파악
미분/적분을 통해 잘못 예측하는 노드를 찾아내고 개선
얼마나, 어떤 방향으로 틀렸는지 계산하여 정확한 보완 가능
N개의 트리를 생성한 후 다수결 투표로 최종 예측

모델 비교 요약

XGBoost: 그라디언트 기반 최적화, 양옆 균형잡힌 트리 추가
LightGBM: XGBoost와 동일한 원리이나 틀린 부분에 집중하는 방식으로 트리 추가
CatBoost: 평균값 기반 인코딩으로 순서가 반영되지 않은 중립적 피처 제공

Q&A

트리 모델은 yes/no 질문뿐 아니라 숫자 값 예측도 가능
다중 레이블 분류도 가능
실제로는 매우 자세한 조건 분기를 통해 복잡한 예측 수행

'내일배움캠프 데이터 분석' 카테고리의 다른 글

78일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(7) (0)	2026.04.16
77일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(6) (0)	2026.04.15
75일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(4) (0)	2026.04.13
74일차) 내일배움캠프 데이터 분석 TIL - Streamlit(4), 최종 프로젝트(3), QCC(3) (0)	2026.04.10
73일차) 내일배움캠프 데이터 분석 TIL - Streamlit(3), 최종 프로젝트(2) (1)	2026.04.09

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바