티스토리 뷰

📌 오늘 한 일 요약

  • FanGraphs 프로젝션 시스템(Steamer, Depth Charts, OOPSY 등) 발견 및 활용 방안 논의
  • 베이지안 기반 몬테카를로 시뮬레이션 구조 설계 방향 확정
  • 파크 팩터 보정, 마이너리그 데이터 처리, 팀 전력 변화 지표 생성 방안 논의
  • 프로젝트 전체 스토리라인 재정립

🗂️ FanGraphs 프로젝션 시스템

주요 시스템 비교

프로젝션 시스템 특징 활용 방향

Steamer 보수적 예측, 안정적 기준선(보수적 시나리오)
ZiPS 보수적, 장기 성적 중시 보수적 프로젝션 1개로 포함
ATC Statcast 물리 지표 활용, 잠재력 반영 업사이드 시나리오
Depth Charts 예상 출장시간(playing time) 가중치 포함 출장 비중 반영에 활용
THE BAT 추가 참고용 앙상블 다양성 확보

 

이미 2026년 로스터를 반영한 예측치가 FanGraphs에 제공되고 있음
이를 그대로 쓰는 것이 아니라 피처로 활용해 ML 모델을 고도화하는 방향이 핵심!

 

프로젝션 고도화 아이디어

  • 여러 프로젝션 시스템 간 예측치 차이(분산)를 불확실성 지표로 활용
  • 프로젝션별 표준편차 계산 → 예측의 신뢰 구간 설정
  • 2026년 초반 실제 시즌 데이터(xwOBA, xERA 등)로 지속 업데이트
  • Depth Charts의 예상 출장 비중을 가중치로 활용

📊 데이터 수집 & 전처리 방향

학습 데이터 기간 및 가중치

  • 선수 개인 능력치 분석: 최근 3년 권장
  • ML 모델 학습용 데이터 부족 시: 5년치 활용 가능
  • 최근 성적에 가중치 부여 방식: 50-30-20 ??
  • 기간이 너무 길면 노이즈로 작용할 수 있으니 주의

파크 팩터 보정

  • Globe Life Field 특성 반영 필수 (홈런 생산력 차이)
  • 단년도보다 3년 롤링 파크 팩터 사용 권장
  • 타자/투수, 좌타/우타 구분 적용
  • 외야가 상대적으로 쉬운 구장 → 외야수 OAA, DRS 지표 조정 필요

마이너리그 & 신인 선수 처리

  • 신인 선수 제외 X → 마이너리그 기록 활용
  • 마이너리그 데이터에  ex. ±30% 편차 범위 설정 (표준편차 개념)
  • 메이저-마이너 수준 차이 보정치 적용
  • 신뢰도 낮음을 명시하여 별도 제시?

팀 전력 변화 지표

  • 영입/방출 선수의 WAR 차이 계산 → 로스터 변화로 인한 전력 증감 수치화
  • 보정된 지표(wRC+, OPS+ 등) 사용 시 이전 팀 기록 합산 가능

🤖 모델링 구조 확정

승률 예측 흐름

선수 개별 스탯
  → 팀 단위 통합
    → 피타고리안 승률 공식
      → 베이지안 확률 기반 몬테카를로 시뮬레이션
        → 시즌 승률 예측

득점/실점 추정

  • RS(득점): 타자 배팅런 + 베이스러닝 합산
  • RA(실점): 투수 능력 + 팀 수비 합산
  • 피타고리안 승률 공식으로 기대 승률 산출

베이지안 몬테카를로 시뮬레이션

  • 각 선수 성적에 확률 분포 부여 → 수천 번 시뮬레이션
  • 2026년 초반 실제 데이터로 사전 확률(prior) 업데이트
  • 불확실성을 반영한 신뢰 구간 함께 제공

🏗️ 프로젝트 구조 & 스토리라인

두 축의 발표 구성

  1. 2025 시즌 분석: 기대 승률 vs 실제 승률 괴리 원인 분석 + 문제 선수 상세 분석 + 시나리오 비교
  2. 2026 시즌 예측: 프로젝션 데이터 활용 ML 모델 → 베이지안 몬테카를로 승률 예측

Streamlit 시각화 계획

  • FanGraphs 스타일 여러 프로젝션 비교 테이블?
  • 승률 예측 결과 및 시나리오 비교 페이지
  • 프로젝션별 불확실성(신뢰 구간) 시각화
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함