IT_developers

Python 데이터 분석(주피터 노트북) - 한국 관광_201901 본문

Python

Python 데이터 분석(주피터 노트북) - 한국 관광_201901

developers developing 2022. 12. 12. 10:00

데이터 수집

 

라이브러리 및 세팅

  • import pandas as pd
  • import numpy as np
  • 경고 메세지
    • import warnings
    • warnings.simplefilter("ignore")

 

데이터 로드

  • usecols : 사용하고 싶은 컬럼
  • skipfooter : 아래에 행 제거
  • header : 첫 행을 1번행으로 사용

데이터 탐색

  • head
  • tail
  • shape
  • info
    • null 데이터 확인
    • Dtype 확인
      • object : 범주형 데이터
      • int : 수치형 데이터 ==> describe 확인
  • describe

 

※ 관광, 상용, 공용, 유학/연수 데이터 중에서 min 값이 0인 이유

  • null 값이 없는데 왜 0인가?
  • 조건 생성 == condition
  • 목적으로 인해 0 값이 들어가있음
  • 교포 소계가 기타 값에만 들어있어서 다른 값에 0

 

1) 기준년월 컬럼 생성

'2019-01' 값 추가

 

2) 국적별 입국자

어떤 나라들이 국적으로 잡혀 있는지

 

3) 아시아주, 미주, 구주, 대양주, 아프리카주, 기타대륙, 교포소계 국적 제거

  • 제거할 컬럼 리스트 만들기
  • 67-> 60

 

4) 인덱스 확인

  • 중간 중간 값을 삭제해서 빠진 인덱스 번호 확인
  • 0~ 59번까지 번호 재지정

4-1) 인덱스 재지정

  • reset_index(drop=True, inplace=True)
  • .index = np.arange(len(kto_201901_country))

 

5) 대륙컬럼 추가

  • 아시아 25번, 아메리카 5번, 유럽 23번,.. 리스트 만들기

 

6) 국적별 관광객 비율

  • 관광객 비율 = 관광 / 계 * 100
  • 소수점 한자리 : round(계산값 ,1)

 

7)관광객 비율이 높은 순 상위 5개국 추출

 

8) 관광객 비율이 낮은 순 상위 5개국 추출

 

9) 대륙별 관광객 비율 평균

  • groupby ?
  • pivot_table ?

 

10) 중국 관광객

 

11) 기준년월별로 전체 외국인 관광객 대비 국적별 관광객 비율

  • 관광 목적으로 온 모든 합 대비 나라별 비율
  • 전체 비율(%) = 관광 / 관광목적의 전체 외국인 수 * 100

Comments