Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
Tags
- sql연습하기
- 판다스그래프
- 주피터노트북그래프
- 수업기록
- 주피터노트북판다스
- SQL
- sql따라하기
- 파이썬크롤링
- python데이터분석
- matplotlib
- python수업
- Python
- 파이썬
- 파이썬차트
- 파이썬시각화
- 맷플롯립
- python알고리즘
- SQL수업
- 파이썬수업
- 주피터노트북
- 판다스데이터분석
- 팀플기록
- 주피터노트북맷플롯립
- 데이터분석시각화
- sql연습
- 파이썬알고리즘
- SQLSCOTT
- 파이썬데이터분석
- 주피터노트북데이터분석
- 파이썬데이터분석주피터노트북
Archives
- Today
- Total
IT_developers
Python 데이터 분석(주피터노트북) - 유튜브 랭킹 크롤링 및 데이터 분석 본문
유튜브 랭킹 크롤링
- url : https://youtube-rank.com/board/bbs/board.php?bo_table=youtube&page=1
- 1 ~ 10 페이지 크롤링
- 카테고리명, 채널명, 구독자수, view 수, 동영상 개수 추출
- 추출된 정보는 엑셀 저장
- selenium + soup 사용

1. 라이브러리
- import pandas as pd
- import matplotlib.pyplot as plt
- from selenium import webdriver
- from selenium.webdriver.common.by import By
- from selenium.webdriver.chrome.service import Service
- from bs4 import BeautifulSoup
- import time
2. url

3. 스크롤 내리기

4. 전체 데이터 확인


5. 카테고리명, 채널명, 구독자수, view 수, 동영상 개수 추출

6. 10페이지 끌기

7. 1~10 페이지 유튜브 랭킹 정보 수집

8. 리스트 담기


9. 엑셀 저장

10. 데이터 로드

11. 데이터 탐색

12. 데이터 전처리
1) 구독자 수 컬럼
- "만" --> 숫자 10,000 변경
- 새로운 컬럼 저장 : subscribe

2) subscriber 컬럼 데이터 타입 변경
- object --> int 64

13. 데이터 분석
1) 카테고리별로 구독자 수와 채널 수 알아보기

2) 컬럼명 변경 : '전체 구독자수', '카테고리 수'

3) 인덱스 해제

4) 전체 구독자수를 기준으로 내림차순 정렬

14. 시각화
1) pie 차트 - 카테고리별

2) 카테고리별 채널수

'Python' 카테고리의 다른 글
| Python 데이터 분석(주피터노트북) - Pandas(bar plot) (0) | 2022.11.23 |
|---|---|
| Python 데이터 분석(주피터노트북) - Pandas(plot) (0) | 2022.11.23 |
| Python 데이터 분석(주피터노트북) - 음악 순위 크롤링 및 데이터 분석 (0) | 2022.11.21 |
| Python 데이터 분석(주피터노트북) - 합계 출산율 데이터 분석 (1) | 2022.11.20 |
| Python 데이터 분석(주피터노트북) - 인구현황 데이터 분석 (0) | 2022.11.19 |
Comments