Python
Python 데이터 분석(주피터노트북) - 유튜브 랭킹 크롤링 및 데이터 분석
developers developing
2022. 11. 22. 12:00
유튜브 랭킹 크롤링
- url : https://youtube-rank.com/board/bbs/board.php?bo_table=youtube&page=1
- 1 ~ 10 페이지 크롤링
- 카테고리명, 채널명, 구독자수, view 수, 동영상 개수 추출
- 추출된 정보는 엑셀 저장
- selenium + soup 사용
1. 라이브러리
- import pandas as pd
- import matplotlib.pyplot as plt
- from selenium import webdriver
- from selenium.webdriver.common.by import By
- from selenium.webdriver.chrome.service import Service
- from bs4 import BeautifulSoup
- import time
2. url
3. 스크롤 내리기
4. 전체 데이터 확인
5. 카테고리명, 채널명, 구독자수, view 수, 동영상 개수 추출
6. 10페이지 끌기
7. 1~10 페이지 유튜브 랭킹 정보 수집
8. 리스트 담기
9. 엑셀 저장
10. 데이터 로드
11. 데이터 탐색
12. 데이터 전처리
1) 구독자 수 컬럼
- "만" --> 숫자 10,000 변경
- 새로운 컬럼 저장 : subscribe
2) subscriber 컬럼 데이터 타입 변경
- object --> int 64
13. 데이터 분석
1) 카테고리별로 구독자 수와 채널 수 알아보기
2) 컬럼명 변경 : '전체 구독자수', '카테고리 수'
3) 인덱스 해제
4) 전체 구독자수를 기준으로 내림차순 정렬
14. 시각화
1) pie 차트 - 카테고리별
2) 카테고리별 채널수