IT_developers

Python 데이터 분석(주피터 노트북) - 한국 관광_10년 자료 본문

Python

Python 데이터 분석(주피터 노트북) - 한국 관광_10년 자료

developers developing 2022. 12. 12. 17:00

데이터 수집

 

라이브러리 및 세팅

  • import seaborn as sns
  • seaborn 폰트 사용 - 한글처리보다 먼저 선언해야함
    • sns.set(font_scale=1)
  • seaborn 스타일의 그래프를 사용
    • plt.style.use('seaborn')
  • import pandas as pd
  • import numpy as np
  • import matplotlib.pyplot as plt
  • 한글처리
    • plt.rcParams['font.family'] = 'Malgun Gothic'
    • plt.rcParams['axes.unicode_minus'] = False
  • 경고 메세지
    • import warnings
    • warnings.simplefilter("ignore")
  • import plotly.express as px
  • import plotly.graph_objects as go

 

데이터 로드 

  • 125개 로드 시키기 위해 함수 만들기
  • 파일명 : kto_년도,월 

1) 함수 생성

2)  함수테스트

 

3) 모든 엑셀 파일을 읽은 후 합치기

  • 반복문

 

4) 완성

  • 2020년도는 5월까지만 있음

 

EDA & Visualization

1) 전체 정보를 엑셀 파일로 저장(df)

  • 파일명 : kto_total

 

2) 기준년월 데이터 타입 변경

  • object => datetime

3) 년도, 월 컬럼 생성

 

1. 중국 데이터

1) 중국만  수집 

 

2) 중국 데이터 저장(10년)

 

3) 중국, 컬럼(관광, 기준년월)

 

4) 중국 관광객 시각화

※ 차트 분석

  • 2010 ~ 2016 관광객 수가 꾸준히 증가
  • 2015 여름에 관광객 수 급감(메르스)
  • 2017 관광객 수 급감(사드 배치 인한 관광 중지)
  • 2020 초 관광객 수 급감(코로나)

 

2. 국적별 관광객 상위 5개국

  • sort_values('컬럼', ascending=False)

1) 상위 5개국에 대한 데이터 가지고 오기

  • isin

 

2) 국적별 관광객 추이 시각화

  • Seaborn - relplot (kind='line')
  • col_wrap :
  • aspect :

 

3) 세부 지정 포함한 시각화

  • for 문 사용 : 추출하고 차트 그리기

 

4) 중국 관광객 시각화 heatmap

 

5) 상위 5개국 시각화 heatmap

 

3. 국적별 엑셀 파일 저장

  • 국적 확인
  • 국적 개수 확인
  • for문 작성

Comments