Python
Python 데이터 분석(주피터 노트북) - 한국 관광_201901
developers developing
2022. 12. 12. 10:00
데이터 수집
라이브러리 및 세팅
- import pandas as pd
- import numpy as np
- 경고 메세지
- import warnings
- warnings.simplefilter("ignore")
데이터 로드
- usecols : 사용하고 싶은 컬럼
- skipfooter : 아래에 행 제거
- header : 첫 행을 1번행으로 사용
데이터 탐색
- head
- tail
- shape
- info
- null 데이터 확인
- Dtype 확인
- object : 범주형 데이터
- int : 수치형 데이터 ==> describe 확인
- describe
※ 관광, 상용, 공용, 유학/연수 데이터 중에서 min 값이 0인 이유
- null 값이 없는데 왜 0인가?
- 조건 생성 == condition
- 목적으로 인해 0 값이 들어가있음
- 교포 소계가 기타 값에만 들어있어서 다른 값에 0
1) 기준년월 컬럼 생성
'2019-01' 값 추가
2) 국적별 입국자
어떤 나라들이 국적으로 잡혀 있는지
3) 아시아주, 미주, 구주, 대양주, 아프리카주, 기타대륙, 교포소계 국적 제거
- 제거할 컬럼 리스트 만들기
- 67-> 60
4) 인덱스 확인
- 중간 중간 값을 삭제해서 빠진 인덱스 번호 확인
- 0~ 59번까지 번호 재지정
4-1) 인덱스 재지정
- reset_index(drop=True, inplace=True)
- .index = np.arange(len(kto_201901_country))
5) 대륙컬럼 추가
- 아시아 25번, 아메리카 5번, 유럽 23번,.. 리스트 만들기
6) 국적별 관광객 비율
- 관광객 비율 = 관광 / 계 * 100
- 소수점 한자리 : round(계산값 ,1)
7)관광객 비율이 높은 순 상위 5개국 추출
8) 관광객 비율이 낮은 순 상위 5개국 추출
9) 대륙별 관광객 비율 평균
- groupby ?
- pivot_table ?
10) 중국 관광객
11) 기준년월별로 전체 외국인 관광객 대비 국적별 관광객 비율
- 관광 목적으로 온 모든 합 대비 나라별 비율
- 전체 비율(%) = 관광 / 관광목적의 전체 외국인 수 * 100