| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
- sql연습하기
- Python
- 수업기록
- 주피터노트북
- SQL수업
- 파이썬데이터분석
- 주피터노트북데이터분석
- sql따라하기
- python알고리즘
- 주피터노트북그래프
- python데이터분석
- 주피터노트북판다스
- 판다스그래프
- 판다스데이터분석
- 파이썬알고리즘
- matplotlib
- 주피터노트북맷플롯립
- SQL
- SQLSCOTT
- 파이썬수업
- sql연습
- 팀플기록
- 파이썬크롤링
- 파이썬데이터분석주피터노트북
- python수업
- 파이썬
- 데이터분석시각화
- 파이썬차트
- 맷플롯립
- 파이썬시각화
- Today
- Total
목록수업 기록 (191)
IT_developers
라이브러리 import pandas as pd import numpy as np [퀴즈1] [문제] 다음은 대한민국 영화중에서 관객 수가 가장 많은 상위 10개의 데이터입니다. 1) 전체 데이터 중에서 '영화' 정보만 출력 2) 전체 데이터 중에서 '영화','평점' 정보 출력 3) 2015년 이후에 개봉한 영화 데이터 중에서 '영화', '개봉연도' 정보만 출력 4) 주어진 계산식을 참고하여 '추천점수' 컬럼 추가 5) 전체 데이터를 '개봉 연도' 기준 내림차순으로 출력 [퀴즈2] 1) 현재 생성된 데이트 프레임의 전체 정보 출력 2) 타입변경 [퀴즈3] 1) 컬럼명 변경 : 국어, 영어, 수학, 과학 2) 중복 행 제거한 후 새로운 데이터 프레임 (df2)으로 저장 3) 특정 컬럼값이 중복되면 저게 [퀴..
pandas로 날짜 데이터 다루기 시계열 시간상 여러 지점을 관측하거나 측정할 수 있도록 목록 또는 그래프로 표시한 일련의 데이터 저 일정한 간격의 연속적이고 동등한 점들로 이루어진 시퀀스 빅데이터에서 일반적으로 동등한 시간 간격으로 배치된 연속적 사건으로 나타남 ex) 금융 시장의 주가 예측, 일기 예보, 전력 에너지 소비 추세, 웹 사이트 방문자 수 트렌드 등 시계열 자료과 pandas 년도별, 월별, 일별, 시별, 분별, 초별 등 시간의 흐름에 따라 관측된 자료 pandas에서 시계열 자료를 손쉽게 다룰 수 있도록 datetime(datetime64) 자료형 제공 pd.to_datetime() 함수를 사용해서, 날짜와 시간을 나타내는 문자열을 datetime(datetime64) 자료형으로 변경 라..
데이터 프레임 다른 포맷 형식으로 저장 라이브러리 : import pandas as pd Youtube 댓글 크롤링 후 데이터 프레임 생성 샐레니움 설치 필요 : pip install selenium 설치 Anaconda prompt 관리자 권한 실행 후 설치 pip install selenium pip install beautifulsoup4 pip install lxml pip install requests pip install webdriver-manager ※ 추가 설치 방법 아나콘다 전용 설치 conda install -c anaconda selenium 주피터 노트북에서 직접 설치 ! pip install selenium Chromedriver.exe 파일 다운
str 메소드 pandas.core.strings.StringMethods 의 별칭 호출할 수 없기 때문에 괄호를 사용하지 않음 1) lower() / upper() / len() 2) strip() : 공백제거 3) split() : 문자열 자르기 4) replace() : 대체. 정규식 사용 가능 ^는 입력라인의 시작 .a 는 맨 첫 문자를 포함하고 a로 끝나는 부분을 매칭 | or 의 의미 dog에 해당하는 부분 매칭 case=False 대소문자 구분 안함 regex=True 전달된 패턴이 정규식 5) cat : 텍스트 이어 붙이기 손실값이 있다면 연결 안함 [실습] 일기 형식의 데이터 가공 split() : 기준을 주지 않으면 공백 기준 len : 문자열의 수 파악 contains() : 특정 문..
라이브러리 : import pandas as pd [실습1] 1) 데이터 프레임 생성 2) school을 그룹으로 하여 수학 성적의 평균 구한 결과를 df_s에 담기 3) df와 df_s 두개의 데이트 프레임을 merge 한 후 df_m에 담기 4) transform()을 이용하여 3)과 같은 결과를 출력 5) 함수 grade(num)를 작성 num 이 90보다 크면 grade 는 A num 이 80보다 크면 grade 는 B num 이 70보다 크면 grade 는 C 그 외 grade 는 F 구한 grade 리턴 6) df_m에 grade 컬럼을 생성한 후 Math_s컬럼을 이용하여 함수 grade 적용 7) sort_math() 함수 작성 8) School을 기준으로 그룹을 설정한 후 sort_mat..
Groupby 데이터 그룹 연산 수행 단계 원본 데이터 셋을 그룹별로 분할(split) 분할된 각 그룹에 함수 적용 결과 통합 [실습] groupby() : 그룹화 size() : 개수구하기 == value_counts() mean() : 평균 구하기 특정 평균값 가능 두개 조건으로 평균 구하기 가능 [실습2] sum() : 합계 aggregate() : 함수를 적용할 때 사용 agg() : aggregate의 약자 rename() : 컬럼명 변경 [실습3] [실습4] car_sales.xlsx 파일 데이터 프레임으로 생성 Branch별 매출액 구하기 구한 매출액 결과를 데이트프레임으로 생성 [실습5]
Apply() : Series, DataFrame 둘다 적용 가능 1) 기본 : 행기준 2) sum 3) 열 기준 [실습] 1) 년도 추출 함수만들기 2) 년도를 통해 나이 계산 3) 데이터 결과로 메시지 넣기 [실습] 1) 영어 성적을 80으로 변경 [실습] lambda 함수를 만들고 적용 시킬지, 람다로 만들어서 적용 시킬지 Map() Series 만 적용 가능 key, value 형태로 보낼 수 있음 Applymap() DataFrame만 가능(시리즈 사용 불가) 모든 셀에 동일한 작업할 때 유용
Stack() / Unstack() pivot() 메소드와 밀접하게 연관됨 multiIndex 객체와 함께 작용하도록 설계됨 stack() : 컬럼을 마지막 인덱스로 unstack() : 마지막 인덱스를 컬럼으로 stack & unstack stack:컬럼 레벨에서 인덱스 레벨로 dataframe 변경 즉, 데이터를 쌓아올리는 개념으로 이해하면 쉬움 unstack : 인덱스 레벨에서 컬럼 레벨로 dataframe 변경 stack 의 반대 operation 둘은 역의 관계에 있음 멀티 인덱스 하나의 축에 둘 이상의 인덱스를 지정 순서가 있음 튜플 1) 조회 [실습] 1) stack() 2) unstack() [실습] 1) 멀티 인덱스