필수 환경 변수
- NAVER_CLIENT_ID / NAVER_CLIENT_SECRET
- OPENAI_API_KEY / OPENAI_MODEL
- BLOGGER_CLIENT_SECRET_FILE / BLOGGER_BLOG_ID
부모 기사 중심으로 요약을 확인하고, 관련 자식 기사를 묶어서 탐색합니다.
클래스 기반 모듈로 분리되어 단계별 테스트와 확장이 쉽습니다.
Naver API와 Google RSS에서 키워드 기반 최신 기사를 수집하고 중복을 제거합니다.
TF-IDF + Cosine Similarity(0.75+)로 기사 군집을 생성하고 Parent-Child를 매핑합니다.
OpenAI로 3줄 요약을 만들고, 영문 기사는 고유명사 유지 조건으로 한국어 요약합니다.
h3/ul/li 중심 HTML을 생성해 Blogger API로 자동 게시합니다.
실행 전 환경 변수와 인증 정보를 빠르게 점검하세요.
python news_pipeline.py --dry-run
python news_pipeline.py