티스토리 뷰
📌 오늘 한 일 요약
- 텍사스 레인저스 2025 데이터 수집 파이프라인 전체 코드 정리
- EDA 시각화 코드 정리 (타순·불펜·홈원정·접전 분석)
- 팀 회의: 데이터 파일 버전 불일치 이슈 파악 및 해결
- 멘토링: ML vs 몬테카를로 방향성, 피처 선정, 시나리오 시뮬레이션 논의
🤝 팀 회의 & 멘토링 내용
오전 팀 회의 — 데이터 파일 버전 불일치 이슈
⚠️
문제: 롤링 그래프 실행 시 결과가 다르게 나옴
원인: 파이프라인 재실행 시 구버전 파일이 생성되어 최신 파일을 덮어씀 (컬럼명 불일치: OPS vs game_OPS)
근본 원인: 타자 쪽 일별 처리 코드가 누락되어 있었음 (투수 쪽에는 있었음)
해결 방향
- 타자 데이터 일별 처리 코드 추가
- 전체 파이프라인 재실행으로 검증
튜터링 — 주요 논의
① ML vs 몬테카를로 시뮬레이션
- 튜터님 피드백: 몬테카를로는 과거 데이터 분석용, ML은 미래 예측용으로 성격이 다름
- 두 방법을 연결하는 방향에 대한 재검토 필요
② 피처 선정 접근법
- 다중공선성 문제: 연결된 지표가 많아 중복 제거 필요
- PCA보다 feature selection 권장 (해석 가능성 우선)
- Feature importance 확인 후 반복 실험으로 선별
- 피처 1~2개 변경으로는 성능이 크게 변하지 않을 수 있으니 지속적 실험 필요
③ 시나리오 시뮬레이션 아이디어 ⭐
- 특정 문제 상황 개선 시 피처 수치 변화를 연쇄적으로 반영 → 승률 차이 분석
- 예: 마무리 약점 개선 → 세이브/논세이브 상황별 스플릿 데이터로 수치 변화 반영
- 튜터님 평가: 아이디어는 좋으나 가상 데이터를 논리적으로 생성하는 방법이 관건
④ 모션 분석 (MediaPipe)
- 투구 동작 키포인트 추출 중, 스켈레톤 오버랩 & 프레임 끊김 문제 발생
- 키네마틱 시퀀스 분석 목표: 골반 → 몸통 → 어깨 → 팔 순서 각속도 최대값 확인
- 보간법(interpolation) + Butterworth 필터 적용 검토
- 품질 낮은 영상 데이터는 과감히 제거
'내일배움캠프 데이터 분석' 카테고리의 다른 글
| 79일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(8) (0) | 2026.04.17 |
|---|---|
| 78일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(7) (0) | 2026.04.16 |
| 76일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(5) (0) | 2026.04.14 |
| 75일차) 내일배움캠프 데이터 분석 TIL - 최종 프로젝트(4) (0) | 2026.04.13 |
| 74일차) 내일배움캠프 데이터 분석 TIL - Streamlit(4), 최종 프로젝트(3), QCC(3) (0) | 2026.04.10 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 판다스
- 텍스트분석
- Tableau
- 파이썬
- 파이썬입문
- SQL
- 중학생코딩
- GoogleColab
- 데이터시각화
- 구글코랩
- 통계
- git
- 머신러닝
- 코딩기초
- 태블로
- 데이터분석입문
- 프로그래밍입문
- 내일배움캠프
- Til
- 코드카타
- 비전공자코딩
- 데이터분석
- 코딩처음
- github
- Python
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
글 보관함
