일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬데이터분석주피터노트북
- 주피터노트북
- 파이썬시각화
- matplotlib
- 주피터노트북데이터분석
- 파이썬차트
- 수업기록
- 주피터노트북그래프
- SQL
- python수업
- SQLSCOTT
- python알고리즘
- 파이썬
- 파이썬수업
- 파이썬알고리즘
- 판다스데이터분석
- python데이터분석
- 주피터노트북판다스
- Python
- SQL수업
- 데이터분석시각화
- 맷플롯립
- sql연습하기
- 판다스그래프
- sql따라하기
- sql연습
- 파이썬데이터분석
- 팀플기록
- 주피터노트북맷플롯립
- 파이썬크롤링
- Today
- Total
목록파이썬데이터분석주피터노트북 (12)
IT_developers

Summarize Data 1) value_counts() : unique 값들의 행 수 카운트 2) len() : 데이터프레임 안의 행의 개수 3) shape : 행, 열의 개수를 튜플로 4) unique() / nunique 5) describe() : 기술 통계 정보(분산, 최대, 최소, count, 표준편차, quantile) 6) info() : 데이터 프레임 전체 정보 7) sum() 8) count() : 전체 개수 9) mean() : 평균 10) median() : 중앙값 11) quantile() 12) max() 13) min() 14) var() 분산 15) std() : 표준편차 [실습] 1) train.xlsx 읽은 후 데이터 프레임 생성 2) 데이터프레임 전체 정보 3) 데이터..

NaN(Not a Number) - 표현 불가능한 데이터(비어 있는 값) NaN : missing value 를 표현하는 기본 형태 기본적으로 float 형식으로 처리됨 NA(Not Available) : 결측값 None : 값의 부재(값이 존재하지 않거나, 없음, 정의되지 않음) 1) missing data가 포함된 데이터 프레임 생성 2) 데이터 타입 확인 3) missing data cjfl dropna : missing values 제거 fillna : missing values를 임의의 값으로 채우기 [실습] 1) shape : 행렬 형태를 알 수있고 튜플형태 2) info : 데이터프레임 전체 정보(행,열 수, 타입, 메모리 사용량..., NaN 여부) * 상식적으로 나이가 0인 것은 말이 안..

& | ~ ^ df.any(), df.all() => 데이터프레임에서 사용시 and, or, not, xor, any, all => 파이썬에서 사용시 1) != : 아닌 2) isin() : 특정컬럼에 지정한 값이 들어 있는지 확인 3) isnull() : 널 값인지 확인 4) isin() : isnull()과 같은 결과 5) notnull() : 널 값이 아닌 요소 추출 6) any() : 특정 조건을 만족하는 것이 하나라도 있으면 True, 아니면 False 7) all() : 모든 원소가 특정 조건을 만족한다면 True, 아니면 False

rows, columns 기준 loc[ ] 5 또는 a 와 같은 단일 라벨 ['a','b','c']와 같은 리스트나 라벨의 배열 a:f 와 같이 라벨이 있는 처음과 끝의 범위를 포함하는 슬라이스 객체 [True, False, True]와 같이 슬라이싱할 축과 같은 길이의 불리언 배열 호출하는 시리즈나 데이터 프레임을 인수로 가지는 호출 함수 iloc[ ] 정수 [4,3,0] 과 같은 리스트나 정수들의 배열 1:7 과 같은 정숫값을 가지는 슬라이스 객체 불리언 배열 호출하는 시리즈나 데이터프레임을 인수로 가지는 호출 함수 1) df.iloc[ ] : 행, 열 모두 position 값을 이용(integer 값) 2) df.loc[ ] : 행, 열의 label 값을 이용하거나, boolean 이용/ 마지막 값..

Subset - columns 라이브러리 import pandas as pd import numpy as np [실습] student_df

Subset - row 라이브러리 import pandas as pd import numpy as np 데이터 생성 1) head() / tail() 2) sample() : 임의 값 가지고 오기 3) nlargest() / nsmallest() : 최대값, 최소값 n 값은 지정 가능 4) drop_duplicates() : 중복행 제거 duplicated() : 중복된 행이 있는지 True/False로 알려줌 df.drop_duplicates( subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = 'first', inplace: bool = False, ignore_index: bool = False,..

[실습1] 1) 라이브러리 로드 2) 아래와 같은 데이터 프레임 생성 3) 홍길동 학생의 과목별 점수 조회 4) 모든 학생들의 python 과목 점수 출력 5) basic 점수 삭제 6) sql 과목 점수 추가 : [70,85,86,92] [실습2] 1) 아래와 같은 데이터프레임 생성 2) 인덱스를 넣어서 아래와 같은 데이터 프레임생성 3) 인덱스 조회 4) 컬럼명 조회 5) 전체 값들만 조회 6) 미국 컬럼조회 7) 일본 컬럼 추가 : [3,4,5]

Pandas 개념 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구 포함 테이블 형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리 파이썬 데이터 분석을 위해 기본적으로 사용하는 라이브러리임 row data를 데이터 분석 전 과정을 위해 사용할 수 있도록 변환하는 데이터 전처리에도 많이 사용됨 기능 인 메모리 데이터 구조를 가지며 여러 파일 형식 데이터를 읽고 쓰기 위한 도구 데이터 정렬, 손실 데이터를 통합 처리 데이터 셋을 reshaping, 피벗 라벨 기반 슬라이싱, 멀티인덱싱 제공 데이터 셋 merge, join 하기 편함 다양한 시계열 데이터 처리 가능 데이터 구조 시리즈(Series) : 라벨 표시된 1차원의 동일 형태 배열 데이터 프레임(DataFrame) :..