티스토리 뷰

1. 오늘 한 일

오늘은 2025 텍사스 레인저스의 기대 승수 대비 실제 승수 괴리를 설명하는 분석을 다시 정리했다.
특히 이번 버전에서는 2020 단축 시즌을 학습 데이터에서 제외하고, 모델 구조와 시나리오 해석 방식도 더 명확하게 다듬었다.

2. 이번 버전에서 가장 크게 바뀐 점

가장 큰 변화는 두 가지였다.

  • 2020 시즌 제외
  • 모델 학습용 피처와 시나리오용 피처 해석을 더 명확히 분리

2020 시즌은 60경기 단축 시즌이라 일반 시즌과 조건이 너무 달라서, 학습에 포함하면 오히려 잔차 패턴을 흐릴 수 있다고 판단했다. 그래서 이번에는 2015~2019, 2021~2024 데이터를 기준으로 학습하고, 2025 텍사스는 해석 대상으로 따로 보도록 정리했다.

3. 다시 확인한 핵심 질문

이번 분석의 핵심 질문은 여전히 같다.

“텍사스는 왜 피타고리안 기대 승수보다 실제 승수가 더 낮았을까?”

노트북 기준으로 텍사스 2025는

  • 피타고리안 기대 승수: 90.1승
  • 실제 승수: 81승
  • 잔차(residual): -9.1승

으로 정리됐다.

즉, 득점·실점 구조만 보면 더 많이 이겼어야 하는 팀인데, 실제로는 기대보다 9승 정도 덜 이긴 셈이다.

4. 이번 분석에서 더 명확해진 해석

이번 버전에서 가장 중요하게 다시 정리한 건,
이 프로젝트가 정밀한 승수 예측 모델이 아니라 저성과 팀의 구조적 특징을 해석하는 모델이라는 점이다.

특히 onerun_wp, sv_pct, xi_wp 같은 변수들은 완전히 원인 변수라기보다 현상에 가까운 지표일 수도 있다.
예를 들어 세이브 성공률이 낮다는 건 불펜 문제의 원인이라기보다 결과일 수도 있기 때문이다.

그래서 이번 노트북은 인과 추론보다, “기대보다 덜 이긴 팀들은 어떤 공통 특징을 보였는가?” 를 설명하는 방향으로 읽는 게 맞겠다고 다시 정리했다.

5. 상관분석에서 인상적이었던 부분

이번에도 흥미로웠던 건, 전통적인 투수 지표인 ERA나 WHIP가 잔차와 강하게 연결되지 않는다는 점이었다.

처음에는 직관적으로 “투수 지표가 안 좋으면 당연히 기대보다 덜 이기는 거 아닌가?” 싶었는데,

잔차라는 타깃에서는 다르게 보였다.

이유는 이미 피타고리안 승률 자체가 득점과 실점을 반영하고 있기 때문이다!
그래서 잔차에서는 총체적인 실점 억제력보다도,

  • 1점 차 경기 승률
  • 세이브 성공률
  • 연장전 승률
  • 홈/원정 편차
  • 승계주자 실점률

같은 운영형 지표가 더 중요하게 나타났다.

이 부분은 이번 프로젝트의 방향이 왜 투수 운영과 접전 관리 쪽으로 좁혀졌는지 다시 확인하게 해줬다.

6. 머신러닝 단계에서 정리한 점

머신러닝 단계에서는 Ridge, Lasso, Random Forest, XGBoost를 함께 비교하면서 어떤 피처가 일관되게 중요하게 나오는지 확인했다. 여기서 중요한 건, 이 모델들을 “예측 정확도가 높은 모델”로 보기보다 잔차와 관련된 구조적 패턴을 찾는 도구로 이해해야 한다는 점이었다.

즉, “이 피처가 있으니 승수가 반드시 오른다”가 아니라 “이런 피처 조합을 가진 팀이 기대보다 덜 이기는 경향이 있더라” 정도로 해석하는 게 더 맞다.

7. 이번에 가장 깔끔하게 정리된 부분: Step 4와 Step 5의 차이

이번 노트북에서 개인적으로 가장 좋았던 정리는 회귀 단계와 시나리오 단계에서 피처를 다르게 취급한 점이다.

Step 4에서는 회귀 완성도를 위해 ERA, OPS, rs_per_g 같은 피처도 포함했다.
하지만 Step 5 시나리오에서는 이 값들을 고정했다.

이유는 간단하다.

  • OPS, rs_per_g는 이미 득점 경로
  • ERA는 이미 실점 경로
  • 그리고 이 둘은 결국 피타고리안 기대 승수에 반영된다

그래서 시나리오에서 또 조정하면 이중 계산(double-counting) 이 된다.

즉, 이번 시나리오 분석은 팀 전체 전력을 다시 만드는 게 아니라,
피타고리안 승수는 고정한 상태에서 residual만 얼마나 달라질지를 보는 구조라는 점이 훨씬 명확해졌다.

8. 시나리오 해석에서 배운 점

이번 Step 5를 보면서 다시 정리한 건,
시나리오 결과는 total wins 예측이 아니라 residual 변화 해석이라는 점이다.

공식으로 쓰면 이런 구조다.

predicted wins = fixed pythagorean wins + predicted residual

즉,

  • 피타고리안 기대 승수는 그대로 두고
  • 불펜 운영, 접전 경기 지표 같은 요소를 조정해서
  • 기대 대비 초과/미달 승수가 얼마나 달라지는지 보는 방식이다

이걸 이해하지 못하면 “왜 OPS를 올렸는데 잔차가 오히려 줄지?” 같은 해석 혼란이 생길 수 있다.
이번 노트북은 그 부분을 꽤 명확하게 정리해줘서 좋았다.

9. 이번 분석에서 다시 정리된 결론

이번 버전 기준으로 텍사스 2025의 저성과는
단순히 득실차가 나빴기 때문이 아니라,

  • 1점 차 경기 운영 실패
  • 세이브 상황 성과 저하
  • 불펜 리드 수성 문제

가 함께 작용한 결과로 해석하는 게 가장 자연스러워 보였다.

다만 노트북에서도 적혀 있듯이, 모델이 설명하지 못한 잔차가 아직 남아 있기 때문에 앞으로는

  • 블론세이브 상황
  • 후반 이닝 운영
  • leverage index 기반 불펜 분석
  • 클러치 타격

같은 쪽으로 더 파고들 필요가 있다.

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함