COVID-19 확진자 예측 및 시각화 프로젝트
프로젝트 개요
이 프로젝트는 COVID-19 확진자 데이터를 기반으로 확진자 수를 예측하고 시각화하는 작업을 진행했습니다. 이를 통해 데이터 분석 및 시각화, 예측 모델링에 대한 경험을 쌓았으며, 다양한 알고리즘을 적용하여 예측 성능을 개선하고 그 결과를 분석했습니다.
목표
-
팀과의 협업 및 발표 준비
다른 팀원들과 협력하여 프로젝트를 성공적으로 발표할 수 있도록 구현하고 코드를 작성했습니다.
-
코드 설명 및 학습
다른 팀원들이 코드를 이해할 수 있도록 설명하며, 팀원들에게 파이썬 코드를 효율적으로 전달할 수 있도록 노력했습니다.
-
예측 모델링 및 시각화
COVID-19 데이터를 기반으로 확진자 수를 예측하고, 예측 결과를 시각화하여 분석하였습니다.
사용 기술
- Python: 데이터 분석, 전처리, 예측 모델링 및 시각화
- Pandas: 데이터 전처리 및 분석
- Matplotlib, Seaborn: 데이터 시각화
- Scikit-learn: 예측 알고리즘 구현
- TensorFlow/Keras: RNN 모델을 통한 시계열 데이터 예측
주요 작업 및 구현
- 데이터 전처리
- 데이터를 수집하고, Pandas를 사용하여 결측값 처리, 이상값 처리, 범주형 데이터 인코딩 등을 수행했습니다.
- 다양한 시계열 데이터를 기반으로 예측할 수 있도록 데이터 정리 및 전처리 과정을 진행했습니다.
- 시각화
- Matplotlib과 Seaborn을 사용하여 데이터의 추세와 예측 결과를 시각화했습니다.
- 여러 알고리즘을 통해 얻은 예측 결과를 그래프 상에 비교하여 시각적으로 확인했습니다.
- 예측값을 실제 확진자 수와 비교하는 그래프를 그려 모델 성능을 평가했습니다.
- 예측 모델링
- 선형 회귀(Linear Regression), Random Forest, XGBoost, RNN 등 다양한 알고리즘을 적용하여 확진자 수를 예측했습니다.
- RNN을 사용한 시계열 예측 모델을 구축하여, 미래의 확진자 수를 예측할 수 있는 모델을 개발했습니다.
- 결과 분석
- 모델 성능을 정확도, 재현율, 오차 행렬 등으로 평가하고, 각 알고리즘의 특성을 분석했습니다.
- 실제 데이터와 예측된 값 간의 차이를 분석하여, 시계열 데이터에서 예측할 수 있는 범위와 한계를 이해했습니다.
주요 결과
- 확진자 수 예측 그래프
- 선형 알고리즘을 포함한 여러 알고리즘을 적용한 후, 확진자 수와 예측값의 비교 그래프를 도출했습니다.