티스토리 뷰
- Product_Type별 공정 데이터 특성 비교
- 이상치 존재 여부 확인 및 처리 여부 판단
- 공정 변수 간 다중공선성 확인
- 머신러닝 모델 학습을 위한 Feature 정리
기존에 수행했던
eda_pipeline_type1_v3.ipynb
EDA 과정을 Product_Type = 2 데이터에도 동일하게 적용하여 분석 진행
Product_Type = 2 데이터 기준
Rapid_Rise_Time 컬럼에서 IQR 기준 이상치 145건 확인
IQR 기준 (Sec)
| 항목 | 값 |
| Lower Bound | 0.0095 |
| Upper Bound | 0.0135 |
실제 데이터 범위 (Sec)
| 항목 | 값 |
| Min | 0.0090 |
| Max | 0.0140 |
- 전체 데이터 범위 자체가 매우 좁음
- IQR 기준 이상치로 분류된 값도 실제 데이터 범위와 큰 차이가 없음
- 공정 특성상 센서 노이즈 또는 환경 영향으로 발생 가능한 수준의 변동으로 판단
- 실제 공정 데이터로 판단 가능
- 이상치 제거 시 공정 데이터 왜곡 가능성 존재
Rapid_Rise_Time 이상치 제거하지 않고 유지
- Cylinder_Pressure
- Casting_Pressure
- Pressure_Difference
- Pressure_Difference_Ratio
VIF 분석 결과
압력 변수 간 다중공선성 매우 높음
→ 일부 변수는 선형 종속 관계 가능성 존재
압력 컬럼들이 서로 파생 관계
- Pressure_Difference = Cylinder_Pressure - Casting_Pressure
- Pressure_Difference_Ratio = Casting_Pressure / Cylinder_Pressure
즉 동일한 정보를 여러 컬럼이 포함하고 있음
공정 의미를 유지하면서
다중공선성을 최소화하기 위해
Pressure_Difference_Ratio 컬럼만 사용
유지 컬럼제거 컬럼
| Pressure_Difference_Ratio | Cylinder_Pressure |
| Casting_Pressure | |
| Pressure_Difference |
- Velocity_1
- Velocity_2
- Velocity_3
- High_Velocity
EDA 과정에서 속도 변화 패턴 확인을 위해 생성
- Velocity_2_1 = Velocity_2 - Velocity_1
- Velocity_3_2 = Velocity_3 - Velocity_2
- Velocity_High_3 = High_Velocity - Velocity_3
- Velocity_Max_Min = max(Velocity_1, Velocity_2, Velocity_3, High_Velocity) - min(...)
속도 관련 변수 간 다중공선성 가능성 존재
- 파생 컬럼이 기존 Velocity 값으로부터 계산된 값
- 동일 정보가 여러 변수에 중복 포함될 가능성 존재
다이캐스팅 공정에서는 실제로
레시피 설정 값(속도 값)을 직접 조정하여 공정을 튜닝
실제 현장에서 조정 가능한 값
- Velocity_1
- Velocity_2
- Velocity_3
- High_Velocity
파생 변수는 공정 설정값이 아닌 분석용 변수
모델 결과를 실제 공정 최적화에 활용하기 위해
파생 컬럼 제외
레시피 설정 값 기반으로 모델 학습 진행
🛠 최종 Velocity 변수
| 사용 컬럼 | 제외 컬럼 |
| Velocity_1 | Velocity_2_1 |
| Velocity_2 | Velocity_3_2 |
| Velocity_3 | Velocity_High_3 |
| High_Velocity | Velocity_Max_Min |
- Velocity_1
- Velocity_2
- Velocity_3
- High_Velocity
- Pressure_Difference_Ratio
(= Casting_Pressure / Cylinder_Pressure)
- Product_Type 2 데이터 EDA 수행
- Rapid_Rise_Time IQR 기준 이상치 145건 확인
- 실제 공정 범위와 차이가 작아 이상치 제거하지 않기로 결정
- Pressure 관련 변수 다중공선성 확인
- 압력 변수 중 Pressure_Difference_Ratio만 사용
- Velocity 파생 변수 제거
- 실제 공정 레시피 설정값 중심으로 Feature 구성
- Product_Type별 공정 변수 분포 비교
- 속도 / 압력 변수와 불량 발생 관계 분석
- Feature 중요도 분석
- 머신러닝 모델 구축 및 성능 비교
'내일배움캠프 데이터 분석' 카테고리의 다른 글
| 심화 프로젝트) 다이캐스팅 공정 불량 탐지 모델 개발 프로젝트 (1) | 2026.03.12 |
|---|---|
| 53일차) 내일배움캠프 데이터 분석 TIL - Tableau(1), AI 활용 텍스트 데이터 분석(1) (0) | 2026.03.12 |
| 46일차) 내일배움캠프 데이터 분석 TIL - 심화 프로젝트(2) (0) | 2026.03.03 |
| 45일차) 내일배움캠프 데이터 분석 TIL - 머신러닝(10), 심화 프로젝트(1) (0) | 2026.02.27 |
| 44일차) 내일배움캠프 데이터 분석 TIL - 머신러닝(9) (0) | 2026.02.26 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 프로그래밍입문
- 파이썬입문
- 태블로
- 중학생코딩
- 데이터분석
- 비전공자코딩
- Tableau
- 데이터시각화
- 파이썬
- 코딩처음
- 코드카타
- 텍스트분석
- SQL
- 코딩기초
- 구글코랩
- git
- 머신러닝
- 내일배움캠프
- 판다스
- 데이터분석입문
- 통계
- Til
- Python
- github
- GoogleColab
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
글 보관함
