일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 판다스그래프
- 파이썬수업
- 파이썬데이터분석
- 파이썬차트
- 주피터노트북
- SQL수업
- 파이썬시각화
- sql연습하기
- SQLSCOTT
- 수업기록
- python수업
- 데이터분석시각화
- python데이터분석
- 팀플기록
- sql연습
- 파이썬크롤링
- SQL
- 맷플롯립
- matplotlib
- 주피터노트북판다스
- Python
- 판다스데이터분석
- python알고리즘
- 파이썬알고리즘
- 파이썬
- 주피터노트북데이터분석
- 주피터노트북맷플롯립
- 파이썬데이터분석주피터노트북
- 주피터노트북그래프
- sql따라하기
- Today
- Total
목록파이썬 (132)
IT_developers
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/XtJss/btrGivNpATi/ZPtyKFAZxb49bIEXmd87D1/img.png)
Apply() : Series, DataFrame 둘다 적용 가능 1) 기본 : 행기준 2) sum 3) 열 기준 [실습] 1) 년도 추출 함수만들기 2) 년도를 통해 나이 계산 3) 데이터 결과로 메시지 넣기 [실습] 1) 영어 성적을 80으로 변경 [실습] lambda 함수를 만들고 적용 시킬지, 람다로 만들어서 적용 시킬지 Map() Series 만 적용 가능 key, value 형태로 보낼 수 있음 Applymap() DataFrame만 가능(시리즈 사용 불가) 모든 셀에 동일한 작업할 때 유용
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cTxmpg/btrGpD3Lque/gthcZNXTr0T6fMPerKykI0/img.png)
Stack() / Unstack() pivot() 메소드와 밀접하게 연관됨 multiIndex 객체와 함께 작용하도록 설계됨 stack() : 컬럼을 마지막 인덱스로 unstack() : 마지막 인덱스를 컬럼으로 stack & unstack stack:컬럼 레벨에서 인덱스 레벨로 dataframe 변경 즉, 데이터를 쌓아올리는 개념으로 이해하면 쉬움 unstack : 인덱스 레벨에서 컬럼 레벨로 dataframe 변경 stack 의 반대 operation 둘은 역의 관계에 있음 멀티 인덱스 하나의 축에 둘 이상의 인덱스를 지정 순서가 있음 튜플 1) 조회 [실습] 1) stack() 2) unstack() [실습] 1) 멀티 인덱스
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bvnZ8F/btrGjFIK2Xl/Jnu8ZMfjTUbSq3orbHxTt1/img.png)
1) sort_values() : 특정 컬럼으로 정렬 2) rename() : 컬럼명 변경 3) reset_index() : inedx를 컬럼으로 만들기 4) sort_index() : index를 기준으로 정렬하기 5) drop(columns = ['','','']) : 괄호 안에 있는 컬럼 삭제 / drop(["",""],axis=1) [실습] 1) 인덱스 생성 - 년도 2) 인덱스 제거 3) 컬럼명 변경(중국 -> 홍콩)
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/phg8v/btrGpEuK7Es/DJ1Rk3gxLep10GT3AxEjnk/img.png)
Melt 1 개 이상 열들을 식별자 변수 형식으로 재형성 열 축소, 행 확장 1) 모든 컬럼을 행으로 녹여냄(열 축소, 행 확장) id_vars var_name value_name value_vars Pivot pivot 사전적 의미 : 회전 또는 균형을 맞추는 중심축이나 고정점 pivot_table group by를 사용하기 쉽게 해 놓은 게 pivot_table pd.pivot_table( data: 'DataFrame', values=None, index=None, columns=None, aggfunc: 'AggFuncType' = 'mean', fill_value=None, margins: 'bool' = False, dropna: 'bool' = True, margins_name: 'str' ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dBDkZ0/btrGjFaMIY2/G3f0UKIGBLU9j6LMv0SssK/img.png)
Merge merge(데이터프레임1, 데이터프레임2) : 두 데이터프레임에 동일한 이름을 가진 컬럼을 기준으로 두 데이터프레임을 합침 # 기본 방식처럼 했을 시 에러 : ValueError: You are trying to merge on int64 and object columns. If you wish to proceed you should use pd.concat ValueError: You are trying to merge on int64 and object columns. If you wish to proceed you should use pd.concat 1) how='조인기준', on='컬럼기준' how : inner 기본 # 동일한 타입 merge [실습] 1) df1, df2 inner..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ZMTdU/btrGg0MUUJA/s87pEA8YVVj8rZUGJOQR2K/img.png)
Concat 두 데이터 프레임을 연결해서 하나의 데이터프레임으로 만들 수 있음 두 데이터 프레임을 위/아래 또는 왼쪽/오른쪽으로 연결하기만 함 pd.concat([데이터프레임1, 데이터프레임2]) [실습1] Series 데이터 [실습2] 데이터프레임 [실습3]
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bRR2nN/btrGmpLLLkT/ic7hVetjK51Ky08zJEUHXk/img.png)
Summarize Data 1) value_counts() : unique 값들의 행 수 카운트 2) len() : 데이터프레임 안의 행의 개수 3) shape : 행, 열의 개수를 튜플로 4) unique() / nunique 5) describe() : 기술 통계 정보(분산, 최대, 최소, count, 표준편차, quantile) 6) info() : 데이터 프레임 전체 정보 7) sum() 8) count() : 전체 개수 9) mean() : 평균 10) median() : 중앙값 11) quantile() 12) max() 13) min() 14) var() 분산 15) std() : 표준편차 [실습] 1) train.xlsx 읽은 후 데이터 프레임 생성 2) 데이터프레임 전체 정보 3) 데이터..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bzkQj9/btrGngA1YG2/q90Nc1hPHPNk5HsXmuGrq0/img.png)
NaN(Not a Number) - 표현 불가능한 데이터(비어 있는 값) NaN : missing value 를 표현하는 기본 형태 기본적으로 float 형식으로 처리됨 NA(Not Available) : 결측값 None : 값의 부재(값이 존재하지 않거나, 없음, 정의되지 않음) 1) missing data가 포함된 데이터 프레임 생성 2) 데이터 타입 확인 3) missing data cjfl dropna : missing values 제거 fillna : missing values를 임의의 값으로 채우기 [실습] 1) shape : 행렬 형태를 알 수있고 튜플형태 2) info : 데이터프레임 전체 정보(행,열 수, 타입, 메모리 사용량..., NaN 여부) * 상식적으로 나이가 0인 것은 말이 안..