86일차) 내일배움캠프 데이터 분석 TIL

티스토리 뷰

내일배움캠프 데이터 분석

86일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(15)

heeso0908 2026. 4. 28. 20:51

1. 오늘 한 일

오늘은 2025 텍사스 레인저스의 기대 승수 대비 실제 승수 괴리를 설명하는 분석을 다시 정리했다.
기존에는 잔차 모델 해석과 시나리오 비교에 집중했다면, 이번 버전에서는 한 단계 더 나아가 Markov 기반 경기 시뮬레이션과 ML 잔차 보정 구조를 하나의 흐름으로 통합했다. 여기에 자동 시나리오 탐색까지 연결하면서, 분석이 훨씬 더 구조적으로 정리된 느낌이었다.

2. 핵심 질문

이번 분석의 중심 질문은 여전히 같다.

“텍사스는 왜 피타고리안 기대 승수보다 실제 승수가 더 낮았을까?”

2025년 텍사스는 피타고리안 기대 승수가 약 90.1승이었지만, 실제 승수는 81승에 그쳤다.
즉, 단순한 득실차만 보면 더 많이 이겼어야 하는 팀인데, 실제 성적은 기대보다 크게 낮았다.
이번에는 이 차이를 단순 상관관계 수준에서 보는 데 그치지 않고, 실제 경기 단위 재구성과 잔차 보정 관점까지 함께 연결해서 해석하려고 했다.

3. 이번 버전에서 더 발전한 점

이번 버전에서 가장 크게 달라진 점은 분석이 단순 EDA와 ML 비교에 머무르지 않고, 실제 시즌을 재구성하는 방향으로 확장됐다는 점이다. 이번에는 다음과 같은 요소들을 더 구체적으로 반영했다.

타자 이벤트 확률 기반 공격 시뮬레이션
베이스 상태 전이 로직 반영
상대 투수 특성 반영
실제 시즌 스케줄 기반 경기 진행
홈/원정 및 파크팩터 반영

즉, 이번 분석은 “텍사스가 몇 승쯤 할 팀이었는가”를 단순 추정하는 수준이 아니라,
조건이 달라졌을 때 시즌 결과가 어떻게 달라졌을지를 경기 단위로 다시 그려보는 방식에 더 가까워졌다.

4. 시나리오 해석에서 더 명확해진 점

이번 버전에서는 Step 4와 Step 5의 역할 차이도 더 분명해졌다. Step 4에서는 회귀 완성도를 위해 ERA, OPS, rs_per_g 같은 피처도 포함했다. 하지만 Step 5 시나리오에서는 이런 값들을 고정했다.
왜냐하면 이 피처들은 이미 득점·실점 경로를 통해 피타고리안 기대 승수에 반영된 값이기 때문에, 시나리오 단계에서 다시 조정하면 이중 계산이 되기 때문이다.

그래서 이번 시나리오 분석은 피타고리안 승수는 고정한 상태에서 residual만 얼마나 달라지는지를 보는 구조로 이해하는 게 맞다고 다시 정리했다.

이 부분이 분명해지면서, 이번 프로젝트의 목적도 더 선명해졌다.
이 분석은 총 승수를 예측하는 모델이 아니라, 기대 승수 대비 초과/미달 성과가 왜 발생했는지를 설명하는 잔차 해석 모델에 더 가깝다.

5. 자동 시나리오 탐색까지 확장한 점

이번에는 시나리오를 사람이 직접 정해서 비교하는 수준을 넘어, Signed Proxy 기반 그리드 탐색으로 자동 시나리오를 선정하는 흐름까지 연결했다.

그 결과,

best_overall
worst_overall
best_bullpen
best_closegame
best_pitching

같은 시나리오를 데이터 기반으로 도출할 수 있었다. 이 부분은 발표에서도 꽤 의미가 클 것 같다.
단순히 “이런 조건이면 좋아질 것 같다”는 감각적 접근이 아니라, 여러 피처 조합을 탐색한 뒤 실제로 개선 효과가 큰 조건을 골라냈다는 점을 보여줄 수 있기 때문이다.

6. 이번 결과에서 더 강해진 해석

이번 버전에서는 투수 지표 하나만 좋아진다고 해서 성적이 크게 회복되는 것은 아니라는 점도 더 분명하게 드러났다.
특히 best_pitching 시나리오의 개선 효과가 생각보다 제한적으로 나온 점은, 텍사스의 저성과를 단순한 투수력 부족만으로 설명하기 어렵다는 걸 보여줬다.

오히려 이번 분석에서는

접전 경기 운영
불펜 리드 수성
세이브 상황 관리
클러치 상황 대응

같은 요소가 더 중요한 설명 축이라는 해석이 강화됐다.

즉, 텍사스의 문제는 단순히 “투수 성적이 부족했다”기보다, 기대 승수를 실제 승수로 연결하는 운영 단계에서 손실이 컸다는 쪽에 더 가까웠다.

7. 오늘의 정리

이번 버전에서 가장 크게 배운 건, 텍사스의 기대 대비 저성과를 단순 득실차 문제가 아니라 접전 운영과 불펜 리드 수성 문제로 해석해야 한다는 점이었다.

그리고 여기서 한 걸음 더 나아가, 이번에는 분석 구조 자체를 Markov 기반 시즌 재구성 + ML 잔차 보정 + 자동 시나리오 탐색으로 정리했다는 점이 가장 큰 발전이었다.

즉, 이번 분석은 더 이상 단순한 승수 예측 실험이 아니라, “텍사스가 왜 기대보다 덜 이겼는가”를 구조적으로 재현하고 설명하는 모델에 가까워졌다고 느꼈다.

'내일배움캠프 데이터 분석' 카테고리의 다른 글

88일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(17) (0)	2026.04.30
87일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(16) (0)	2026.04.29
85일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(14) (0)	2026.04.27
84일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(13) (0)	2026.04.24
83일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(12) (0)	2026.04.23

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

내배캠 기록장

티스토리 뷰