Python
Python 데이터 분석(주피터노트북) - 스타워즈 데이터 분석
developers developing
2022. 11. 29. 12:00
라이브러리 로드
- import pandas as pd
- 경고메세지 지우기
- import warnings
- warnings.simplefilter("ignore")
- import matplotlib.pyplot as plt
- 한글처리
- plt.rcParams['font.family'] = 'Malgun Gothic'
- plt.rcParams['axes.unicode_minus'] = False
- import seaborn as sns
데이터 로드
데이터 탐색
- 전체정보 확인 : info()
데이터 값 정리
- 총 87개의 행
- 값이 비어있는 값들 확인 == NaN 값
- name : 캐릭터 이름
- height : 키
- mass : 몸무게
- hair_color : 머리카락 색
- sink_color : 피부색
- eye_color : 눈동자 색
- birth_year : 생년
- sex : 생물학적 성별
- gender : 생물학적 성별(외계인이기 때문에 제 3의성)
- homeworld : 고향
- species : 종
- 범주형 변수 : 빈도(Frequency) 계산
- name, hair_color, skin_color, sex, gender, homeworl, species
- 연속형 변수 : 수치 계산 가능
- height, mass, birth_year
1) 범주형 컬럼 안에 들어 있는 유니크한 값 확인
2) 어떤 컬럼에 NaN 값들이 있는지 확인
- 값을 채울지? 제거할지?
3) 총 데이터 갯수
4) 총 결측치 비율
5) 스타워즈에 등장하는 전체 인물 숫자
6) 스타워즈에 등장하는 종족 숫자
데이터 전처리
1) NaN 처리
- dropna : 지우기
- fillna : 채우기
EDA & Visualization
1) 스타워즈 캐릭터의 성별 비율 알아보기
1-1) 성별 pie plot
1-2) 성별 countplot
2) 스타워즈 캐릭터의 성별에 따른 신장의 분포 알아보기
- 왜도 : skew()
- 첨도 : kurt()
2-1) seaborn thistplot
kdeplot : 확률 분포
3) 가장 무거운 캐릭터와 가장 가벼운 캐릭터 알아보기
▶ 가장 가벼운 캐릭터 조건 (단, 0은 아님)
4) 스타워즈 캐릭터의 종족간 몸무게 비교
- 그룹잡기
- 그래프
- pandas
몸무게 많은 순으로 상위 10개 종족의 평균 몸무게 그래프 작성
5) 스타워즈 캐릭터의 몸무게 - 키 상관관계
- 제외 : 몸무게 == 1358,0
- regplot
- lmplot