83일차) 내일배움캠프 데이터 분석 TIL

티스토리 뷰

내일배움캠프 데이터 분석

83일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(12)

heeso0908 2026. 4. 23. 20:55

1. 오늘 한 일

오늘은 2025 텍사스 레인저스의 기대 승수 대비 실제 승수 괴리를 설명하는 분석을 다시 정리했다.
특히 이번 버전에서는 2020 단축 시즌을 학습 데이터에서 제외하고, 모델 구조와 시나리오 해석 방식도 더 명확하게 다듬었다.

2. 이번 버전에서 가장 크게 바뀐 점

가장 큰 변화는 두 가지였다.

2020 시즌 제외
모델 학습용 피처와 시나리오용 피처 해석을 더 명확히 분리

2020 시즌은 60경기 단축 시즌이라 일반 시즌과 조건이 너무 달라서, 학습에 포함하면 오히려 잔차 패턴을 흐릴 수 있다고 판단했다. 그래서 이번에는 2015~2019, 2021~2024 데이터를 기준으로 학습하고, 2025 텍사스는 해석 대상으로 따로 보도록 정리했다.

3. 다시 확인한 핵심 질문

이번 분석의 핵심 질문은 여전히 같다.

“텍사스는 왜 피타고리안 기대 승수보다 실제 승수가 더 낮았을까?”

노트북 기준으로 텍사스 2025는

피타고리안 기대 승수: 90.1승
실제 승수: 81승
잔차(residual): -9.1승

으로 정리됐다.

즉, 득점·실점 구조만 보면 더 많이 이겼어야 하는 팀인데, 실제로는 기대보다 9승 정도 덜 이긴 셈이다.

4. 이번 분석에서 더 명확해진 해석

이번 버전에서 가장 중요하게 다시 정리한 건,
이 프로젝트가 정밀한 승수 예측 모델이 아니라 저성과 팀의 구조적 특징을 해석하는 모델이라는 점이다.

특히 onerun_wp, sv_pct, xi_wp 같은 변수들은 완전히 원인 변수라기보다 현상에 가까운 지표일 수도 있다.
예를 들어 세이브 성공률이 낮다는 건 불펜 문제의 원인이라기보다 결과일 수도 있기 때문이다.

그래서 이번 노트북은 인과 추론보다, “기대보다 덜 이긴 팀들은 어떤 공통 특징을 보였는가?” 를 설명하는 방향으로 읽는 게 맞겠다고 다시 정리했다.

5. 상관분석에서 인상적이었던 부분

이번에도 흥미로웠던 건, 전통적인 투수 지표인 ERA나 WHIP가 잔차와 강하게 연결되지 않는다는 점이었다.

처음에는 직관적으로 “투수 지표가 안 좋으면 당연히 기대보다 덜 이기는 거 아닌가?” 싶었는데,

잔차라는 타깃에서는 다르게 보였다.

이유는 이미 피타고리안 승률 자체가 득점과 실점을 반영하고 있기 때문이다!
그래서 잔차에서는 총체적인 실점 억제력보다도,

1점 차 경기 승률
세이브 성공률
연장전 승률
홈/원정 편차
승계주자 실점률

같은 운영형 지표가 더 중요하게 나타났다.

이 부분은 이번 프로젝트의 방향이 왜 투수 운영과 접전 관리 쪽으로 좁혀졌는지 다시 확인하게 해줬다.

6. 머신러닝 단계에서 정리한 점

머신러닝 단계에서는 Ridge, Lasso, Random Forest, XGBoost를 함께 비교하면서 어떤 피처가 일관되게 중요하게 나오는지 확인했다. 여기서 중요한 건, 이 모델들을 “예측 정확도가 높은 모델”로 보기보다 잔차와 관련된 구조적 패턴을 찾는 도구로 이해해야 한다는 점이었다.

즉, “이 피처가 있으니 승수가 반드시 오른다”가 아니라 “이런 피처 조합을 가진 팀이 기대보다 덜 이기는 경향이 있더라” 정도로 해석하는 게 더 맞다.

7. 이번에 가장 깔끔하게 정리된 부분: Step 4와 Step 5의 차이

이번 노트북에서 개인적으로 가장 좋았던 정리는 회귀 단계와 시나리오 단계에서 피처를 다르게 취급한 점이다.

Step 4에서는 회귀 완성도를 위해 ERA, OPS, rs_per_g 같은 피처도 포함했다.
하지만 Step 5 시나리오에서는 이 값들을 고정했다.

이유는 간단하다.

OPS, rs_per_g는 이미 득점 경로
ERA는 이미 실점 경로
그리고 이 둘은 결국 피타고리안 기대 승수에 반영된다

그래서 시나리오에서 또 조정하면 이중 계산(double-counting) 이 된다.

즉, 이번 시나리오 분석은 팀 전체 전력을 다시 만드는 게 아니라,
피타고리안 승수는 고정한 상태에서 residual만 얼마나 달라질지를 보는 구조라는 점이 훨씬 명확해졌다.

8. 시나리오 해석에서 배운 점

이번 Step 5를 보면서 다시 정리한 건,
시나리오 결과는 total wins 예측이 아니라 residual 변화 해석이라는 점이다.

공식으로 쓰면 이런 구조다.

predicted wins = fixed pythagorean wins + predicted residual

즉,

피타고리안 기대 승수는 그대로 두고
불펜 운영, 접전 경기 지표 같은 요소를 조정해서
기대 대비 초과/미달 승수가 얼마나 달라지는지 보는 방식이다

이걸 이해하지 못하면 “왜 OPS를 올렸는데 잔차가 오히려 줄지?” 같은 해석 혼란이 생길 수 있다.
이번 노트북은 그 부분을 꽤 명확하게 정리해줘서 좋았다.

9. 이번 분석에서 다시 정리된 결론

이번 버전 기준으로 텍사스 2025의 저성과는
단순히 득실차가 나빴기 때문이 아니라,

1점 차 경기 운영 실패
세이브 상황 성과 저하
불펜 리드 수성 문제

가 함께 작용한 결과로 해석하는 게 가장 자연스러워 보였다.

다만 노트북에서도 적혀 있듯이, 모델이 설명하지 못한 잔차가 아직 남아 있기 때문에 앞으로는

블론세이브 상황
후반 이닝 운영
leverage index 기반 불펜 분석
클러치 타격

같은 쪽으로 더 파고들 필요가 있다.

'내일배움캠프 데이터 분석' 카테고리의 다른 글

85일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(14) (0)	2026.04.27
84일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(13) (0)	2026.04.24
82일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(11) (0)	2026.04.22
81일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(10) (0)	2026.04.21
80일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(9) (0)	2026.04.20

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

내배캠 기록장

티스토리 뷰