🧠 Part 1. BERTopic 심화 — AI 활용 텍스트 분석(5)1) BERTopic 파이프라인 복습BERTopic은 5단계 파이프라인으로 구성된다.문서 입력텍스트 임베딩 — 문서를 벡터로 변환 (Contrastive Learning(대조 학습) 방식으로 학습된 모델 사용)UMAP 차원 축소 — 고차원 벡터를 저차원으로 / 코사인 유사도 사용 (실무 기준 추천)HDBSCAN 군집화 — 유사한 문서끼리 클러스터링 / 유클리디안 거리 사용 (실무 기준 추천)C-TF-IDF 키워드 추출 — 토픽별 대표 키워드 선정💡 임베딩 모델 선택 시 MTEB 벤치마크 참고! HuggingFace에서 확인 가능하며, 군집화·분류 등 여러 작업의 평균 성능을 비교해준다.✨ 오늘의 핵심 내용1) Representati..
AI 활용 텍스트 데이터 분석) BERTopic 토픽 모델링 실습 정리 오늘은 텍스트 분석에서 토픽 모델링(Topic Modeling) 을 실습했다.텍스트 분류가 정해진 라벨에 따라 문서를 나누는 작업이라면, 토픽 모델링은 라벨이 없는 문서들 속에서 어떤 주제가 숨어 있는지 자동으로 찾아내는 방법이다.이번 실습에서는 전통적인 LDA 방식이 아니라, 문장 임베딩 기반의 BERTopic 을 사용했다.덕분에 단순히 단어 빈도만 보는 것이 아니라, 문맥을 반영한 의미 기반 토픽 추출이 어떻게 이루어지는지 이해할 수 있었다.1) 토픽 모델링(Topic Modeling)이란?대량의 문서에서 숨겨진 주제(토픽)를 자동으로 발견 하는 비지도 학습(Unsupervised Learning) 기법 ≒ 머신러닝에서의 클러스터..
- Total
- Today
- Yesterday
- 내일배움캠프
- 코딩처음
- 구글코랩
- Tableau
- 코딩기초
- 코드카타
- Python
- git
- SQL
- Til
- 머신러닝
- 데이터분석
- github
- 판다스
- 파이썬
- 통계
- 텍스트분석
- 데이터분석입문
- 중학생코딩
- 프로그래밍입문
- 데이터시각화
- 파이썬입문
- 비전공자코딩
- 태블로
- GoogleColab
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
