일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 수업기록
- 파이썬시각화
- 주피터노트북데이터분석
- 파이썬데이터분석주피터노트북
- 주피터노트북판다스
- sql연습하기
- Python
- SQL
- SQL수업
- python데이터분석
- python수업
- sql연습
- 파이썬크롤링
- 데이터분석시각화
- 주피터노트북맷플롯립
- 파이썬
- sql따라하기
- 맷플롯립
- SQLSCOTT
- 파이썬수업
- python알고리즘
- 주피터노트북
- 팀플기록
- matplotlib
- 파이썬알고리즘
- 파이썬데이터분석
- 판다스그래프
- 파이썬차트
- 판다스데이터분석
- 주피터노트북그래프
- Today
- Total
목록수업기록 (187)
IT_developers

데이터 프레임 다른 포맷 형식으로 저장 라이브러리 : import pandas as pd Youtube 댓글 크롤링 후 데이터 프레임 생성 샐레니움 설치 필요 : pip install selenium 설치 Anaconda prompt 관리자 권한 실행 후 설치 pip install selenium pip install beautifulsoup4 pip install lxml pip install requests pip install webdriver-manager ※ 추가 설치 방법 아나콘다 전용 설치 conda install -c anaconda selenium 주피터 노트북에서 직접 설치 ! pip install selenium Chromedriver.exe 파일 다운

str 메소드 pandas.core.strings.StringMethods 의 별칭 호출할 수 없기 때문에 괄호를 사용하지 않음 1) lower() / upper() / len() 2) strip() : 공백제거 3) split() : 문자열 자르기 4) replace() : 대체. 정규식 사용 가능 ^는 입력라인의 시작 .a 는 맨 첫 문자를 포함하고 a로 끝나는 부분을 매칭 | or 의 의미 dog에 해당하는 부분 매칭 case=False 대소문자 구분 안함 regex=True 전달된 패턴이 정규식 5) cat : 텍스트 이어 붙이기 손실값이 있다면 연결 안함 [실습] 일기 형식의 데이터 가공 split() : 기준을 주지 않으면 공백 기준 len : 문자열의 수 파악 contains() : 특정 문..

라이브러리 : import pandas as pd [실습1] 1) 데이터 프레임 생성 2) school을 그룹으로 하여 수학 성적의 평균 구한 결과를 df_s에 담기 3) df와 df_s 두개의 데이트 프레임을 merge 한 후 df_m에 담기 4) transform()을 이용하여 3)과 같은 결과를 출력 5) 함수 grade(num)를 작성 num 이 90보다 크면 grade 는 A num 이 80보다 크면 grade 는 B num 이 70보다 크면 grade 는 C 그 외 grade 는 F 구한 grade 리턴 6) df_m에 grade 컬럼을 생성한 후 Math_s컬럼을 이용하여 함수 grade 적용 7) sort_math() 함수 작성 8) School을 기준으로 그룹을 설정한 후 sort_mat..

Groupby 데이터 그룹 연산 수행 단계 원본 데이터 셋을 그룹별로 분할(split) 분할된 각 그룹에 함수 적용 결과 통합 [실습] groupby() : 그룹화 size() : 개수구하기 == value_counts() mean() : 평균 구하기 특정 평균값 가능 두개 조건으로 평균 구하기 가능 [실습2] sum() : 합계 aggregate() : 함수를 적용할 때 사용 agg() : aggregate의 약자 rename() : 컬럼명 변경 [실습3] [실습4] car_sales.xlsx 파일 데이터 프레임으로 생성 Branch별 매출액 구하기 구한 매출액 결과를 데이트프레임으로 생성 [실습5]

Apply() : Series, DataFrame 둘다 적용 가능 1) 기본 : 행기준 2) sum 3) 열 기준 [실습] 1) 년도 추출 함수만들기 2) 년도를 통해 나이 계산 3) 데이터 결과로 메시지 넣기 [실습] 1) 영어 성적을 80으로 변경 [실습] lambda 함수를 만들고 적용 시킬지, 람다로 만들어서 적용 시킬지 Map() Series 만 적용 가능 key, value 형태로 보낼 수 있음 Applymap() DataFrame만 가능(시리즈 사용 불가) 모든 셀에 동일한 작업할 때 유용

Stack() / Unstack() pivot() 메소드와 밀접하게 연관됨 multiIndex 객체와 함께 작용하도록 설계됨 stack() : 컬럼을 마지막 인덱스로 unstack() : 마지막 인덱스를 컬럼으로 stack & unstack stack:컬럼 레벨에서 인덱스 레벨로 dataframe 변경 즉, 데이터를 쌓아올리는 개념으로 이해하면 쉬움 unstack : 인덱스 레벨에서 컬럼 레벨로 dataframe 변경 stack 의 반대 operation 둘은 역의 관계에 있음 멀티 인덱스 하나의 축에 둘 이상의 인덱스를 지정 순서가 있음 튜플 1) 조회 [실습] 1) stack() 2) unstack() [실습] 1) 멀티 인덱스

1) sort_values() : 특정 컬럼으로 정렬 2) rename() : 컬럼명 변경 3) reset_index() : inedx를 컬럼으로 만들기 4) sort_index() : index를 기준으로 정렬하기 5) drop(columns = ['','','']) : 괄호 안에 있는 컬럼 삭제 / drop(["",""],axis=1) [실습] 1) 인덱스 생성 - 년도 2) 인덱스 제거 3) 컬럼명 변경(중국 -> 홍콩)

Melt 1 개 이상 열들을 식별자 변수 형식으로 재형성 열 축소, 행 확장 1) 모든 컬럼을 행으로 녹여냄(열 축소, 행 확장) id_vars var_name value_name value_vars Pivot pivot 사전적 의미 : 회전 또는 균형을 맞추는 중심축이나 고정점 pivot_table group by를 사용하기 쉽게 해 놓은 게 pivot_table pd.pivot_table( data: 'DataFrame', values=None, index=None, columns=None, aggfunc: 'AggFuncType' = 'mean', fill_value=None, margins: 'bool' = False, dropna: 'bool' = True, margins_name: 'str' ..