DC Infra Briefing

자동 수집 · 군집화 · 요약 · 번역 · 게시

데이터센터 및 AI 인프라 뉴스 자동화 대시보드

Naver + Google News를 동시 수집하고, 유사 기사 묶음과 핵심 3줄 요약을 생성해 Blogger로 자동 게시하는 파이프라인을 운영합니다.

오늘의 브리핑

부모 기사 중심으로 요약을 확인하고, 관련 자식 기사를 묶어서 탐색합니다.

파이프라인 구조

클래스 기반 모듈로 분리되어 단계별 테스트와 확장이 쉽습니다.

  1. Collector

    Naver API와 Google RSS에서 키워드 기반 최신 기사를 수집하고 중복을 제거합니다.

  2. Processor

    TF-IDF + Cosine Similarity(0.75+)로 기사 군집을 생성하고 Parent-Child를 매핑합니다.

  3. Enricher

    OpenAI로 3줄 요약을 만들고, 영문 기사는 고유명사 유지 조건으로 한국어 요약합니다.

  4. Publisher

    h3/ul/li 중심 HTML을 생성해 Blogger API로 자동 게시합니다.

운영 체크리스트

실행 전 환경 변수와 인증 정보를 빠르게 점검하세요.

필수 환경 변수

  • NAVER_CLIENT_ID / NAVER_CLIENT_SECRET
  • OPENAI_API_KEY / OPENAI_MODEL
  • BLOGGER_CLIENT_SECRET_FILE / BLOGGER_BLOG_ID

실행 명령

python news_pipeline.py --dry-run
python news_pipeline.py