How It Works Features Pricing 블로그
Login
메타코드M

주가 데이터에 경제 뉴스까지 얹었더니 이렇게 됩니다 | Airflow·DuckDB·FastAPI

Reading time: 2 min

📋 간단 요약

이 영상은 주가 데이터와 경제 뉴스를 결합한 데이터 파이프라인 구축 사례를 소개한다. 데이터 수집, 처리, 저장, 분석, 운영까지의 전체 과정을 상세히 설명한다. 실무 적용 팁과 문제 해결 방법도 포함되어 있다.

🔍 핵심 내용

프로젝트 배경과 목표 00:00
주가와 경제 뉴스를 함께 분석하는 환경을 만들기 위해 가격과 뉴스 데이터를 결합하는 프로젝트를 시작했다. 이를 통해 사용자는 특정 시점의 가격과 이벤트를 동시에 탐색할 수 있다.
데이터 원천과 특성 02:22
주가 데이터는 한국 투자 증권에서 초당 18회 수집하며, 뉴스 데이터는 최신 50개 기사만 유지하는 이벤트형 시계열 데이터로 수집 전략을 차별화했다.
데이터 수집과 품질 관리 03:30
에어플로우와 판다스를 활용해 10분 단위로 데이터를 수집하고, 품질 체크와 재처리, 장애 대응을 위한 알림 시스템을 구축하여 신뢰성을 확보했다.
데이터 저장과 처리 구조 03:51
원본 데이터를 최대한 가깝게 저장하는 원천 저장 구조와, 분석용 실버 데이터, 그리고 마트 적재 구조를 설계하여 확장성과 재처리 용이성을 확보했다.
데이터 변환과 분류 방법 04:45
판다스 기반으로 1분~10분 단위로 데이터를 정제했고, 뉴스는 규칙 기반 지식 그래프로 분류하여 비용 효율성과 재현성을 높였다.
데이터 서빙과 운영 05:30
덕디비와 FastAPI를 활용해 분석형 조회 환경을 제공하며, 실패 감지와 알림 시스템으로 안정적 운영을 유지한다. 파이프라인 상태를 실시간 모니터링한다.
문제 해결 사례 07:56
뉴스 제목 분류와 동시 파일 접근 문제를 해결하기 위해 지식 그래프와 OS 락을 도입했고, 이를 통해 데이터 품질과 안정성을 확보했다.
🔒

상세 분석 · 핵심 정리 · AI 분석

이 영상에는 더 깊이 있는 상세 분석과 AI 인사이트가 준비되어 있어요. 플랜을 업그레이드하면 모든 요약의 심화 내용을 볼 수 있어요.

업그레이드하고 상세 분석 보기
2회 조회됨