티스토리 뷰
1. 오늘 한 일
오늘은 2025 텍사스 레인저스의 기대 승수 대비 실제 승수 괴리를 설명하는 분석을 다시 정리했다.
특히 이번 버전에서는 2020 단축 시즌을 학습 데이터에서 제외하고, 모델 구조와 시나리오 해석 방식도 더 명확하게 다듬었다.
2. 이번 버전에서 가장 크게 바뀐 점
가장 큰 변화는 두 가지였다.
- 2020 시즌 제외
- 모델 학습용 피처와 시나리오용 피처 해석을 더 명확히 분리
2020 시즌은 60경기 단축 시즌이라 일반 시즌과 조건이 너무 달라서, 학습에 포함하면 오히려 잔차 패턴을 흐릴 수 있다고 판단했다. 그래서 이번에는 2015~2019, 2021~2024 데이터를 기준으로 학습하고, 2025 텍사스는 해석 대상으로 따로 보도록 정리했다.
3. 다시 확인한 핵심 질문
이번 분석의 핵심 질문은 여전히 같다.
“텍사스는 왜 피타고리안 기대 승수보다 실제 승수가 더 낮았을까?”
노트북 기준으로 텍사스 2025는
- 피타고리안 기대 승수: 90.1승
- 실제 승수: 81승
- 잔차(residual): -9.1승
으로 정리됐다.
즉, 득점·실점 구조만 보면 더 많이 이겼어야 하는 팀인데, 실제로는 기대보다 9승 정도 덜 이긴 셈이다.
4. 이번 분석에서 더 명확해진 해석
이번 버전에서 가장 중요하게 다시 정리한 건,
이 프로젝트가 정밀한 승수 예측 모델이 아니라 저성과 팀의 구조적 특징을 해석하는 모델이라는 점이다.
특히 onerun_wp, sv_pct, xi_wp 같은 변수들은 완전히 원인 변수라기보다 현상에 가까운 지표일 수도 있다.
예를 들어 세이브 성공률이 낮다는 건 불펜 문제의 원인이라기보다 결과일 수도 있기 때문이다.
그래서 이번 노트북은 인과 추론보다, “기대보다 덜 이긴 팀들은 어떤 공통 특징을 보였는가?” 를 설명하는 방향으로 읽는 게 맞겠다고 다시 정리했다.
5. 상관분석에서 인상적이었던 부분
이번에도 흥미로웠던 건, 전통적인 투수 지표인 ERA나 WHIP가 잔차와 강하게 연결되지 않는다는 점이었다.
처음에는 직관적으로 “투수 지표가 안 좋으면 당연히 기대보다 덜 이기는 거 아닌가?” 싶었는데,
잔차라는 타깃에서는 다르게 보였다.
이유는 이미 피타고리안 승률 자체가 득점과 실점을 반영하고 있기 때문이다!
그래서 잔차에서는 총체적인 실점 억제력보다도,
- 1점 차 경기 승률
- 세이브 성공률
- 연장전 승률
- 홈/원정 편차
- 승계주자 실점률
같은 운영형 지표가 더 중요하게 나타났다.
이 부분은 이번 프로젝트의 방향이 왜 투수 운영과 접전 관리 쪽으로 좁혀졌는지 다시 확인하게 해줬다.
6. 머신러닝 단계에서 정리한 점
머신러닝 단계에서는 Ridge, Lasso, Random Forest, XGBoost를 함께 비교하면서 어떤 피처가 일관되게 중요하게 나오는지 확인했다. 여기서 중요한 건, 이 모델들을 “예측 정확도가 높은 모델”로 보기보다 잔차와 관련된 구조적 패턴을 찾는 도구로 이해해야 한다는 점이었다.
즉, “이 피처가 있으니 승수가 반드시 오른다”가 아니라 “이런 피처 조합을 가진 팀이 기대보다 덜 이기는 경향이 있더라” 정도로 해석하는 게 더 맞다.
7. 이번에 가장 깔끔하게 정리된 부분: Step 4와 Step 5의 차이
이번 노트북에서 개인적으로 가장 좋았던 정리는 회귀 단계와 시나리오 단계에서 피처를 다르게 취급한 점이다.
Step 4에서는 회귀 완성도를 위해 ERA, OPS, rs_per_g 같은 피처도 포함했다.
하지만 Step 5 시나리오에서는 이 값들을 고정했다.
이유는 간단하다.
- OPS, rs_per_g는 이미 득점 경로
- ERA는 이미 실점 경로
- 그리고 이 둘은 결국 피타고리안 기대 승수에 반영된다
그래서 시나리오에서 또 조정하면 이중 계산(double-counting) 이 된다.
즉, 이번 시나리오 분석은 팀 전체 전력을 다시 만드는 게 아니라,
피타고리안 승수는 고정한 상태에서 residual만 얼마나 달라질지를 보는 구조라는 점이 훨씬 명확해졌다.
8. 시나리오 해석에서 배운 점
이번 Step 5를 보면서 다시 정리한 건,
시나리오 결과는 total wins 예측이 아니라 residual 변화 해석이라는 점이다.
공식으로 쓰면 이런 구조다.
predicted wins = fixed pythagorean wins + predicted residual
즉,
- 피타고리안 기대 승수는 그대로 두고
- 불펜 운영, 접전 경기 지표 같은 요소를 조정해서
- 기대 대비 초과/미달 승수가 얼마나 달라지는지 보는 방식이다
이걸 이해하지 못하면 “왜 OPS를 올렸는데 잔차가 오히려 줄지?” 같은 해석 혼란이 생길 수 있다.
이번 노트북은 그 부분을 꽤 명확하게 정리해줘서 좋았다.
9. 이번 분석에서 다시 정리된 결론
이번 버전 기준으로 텍사스 2025의 저성과는
단순히 득실차가 나빴기 때문이 아니라,
- 1점 차 경기 운영 실패
- 세이브 상황 성과 저하
- 불펜 리드 수성 문제
가 함께 작용한 결과로 해석하는 게 가장 자연스러워 보였다.
다만 노트북에서도 적혀 있듯이, 모델이 설명하지 못한 잔차가 아직 남아 있기 때문에 앞으로는
- 블론세이브 상황
- 후반 이닝 운영
- leverage index 기반 불펜 분석
- 클러치 타격
같은 쪽으로 더 파고들 필요가 있다.
'내일배움캠프 데이터 분석' 카테고리의 다른 글
| 85일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(14) (0) | 2026.04.27 |
|---|---|
| 84일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(13) (0) | 2026.04.24 |
| 82일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(11) (0) | 2026.04.22 |
| 81일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(10) (0) | 2026.04.21 |
| 80일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(9) (0) | 2026.04.20 |
- Total
- Today
- Yesterday
- 데이터시각화
- 중학생코딩
- Python
- 데이터분석
- 파이썬
- 데이터분석입문
- 머신러닝
- 비전공자코딩
- 코딩처음
- 판다스
- 텍스트분석
- 내일배움캠프
- 프로그래밍입문
- 코딩기초
- 태블로
- 코드카타
- Tableau
- 통계
- SQL
- github
- Til
- GoogleColab
- git
- 파이썬입문
- 구글코랩
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
