IT_developers

Python 데이터 분석(주피터노트북) - 유튜브 랭킹 크롤링 및 데이터 분석 본문

Python

Python 데이터 분석(주피터노트북) - 유튜브 랭킹 크롤링 및 데이터 분석

developers developing 2022. 11. 22. 12:00

유튜브 랭킹 크롤링

 

1. 라이브러리

  • import pandas as pd
  • import matplotlib.pyplot as plt
  • from selenium import webdriver
  • from selenium.webdriver.common.by import By
  • from selenium.webdriver.chrome.service import Service
  • from bs4 import BeautifulSoup
  • import time

2. url

 

3. 스크롤 내리기

 

4. 전체 데이터 확인

 

5. 카테고리명, 채널명, 구독자수, view 수, 동영상 개수 추출

 

6. 10페이지 끌기

 

7. 1~10 페이지 유튜브 랭킹 정보 수집

 

8. 리스트 담기

 

9. 엑셀 저장

 

10. 데이터 로드

 

11. 데이터 탐색

 

12. 데이터 전처리

1) 구독자 수 컬럼

  • "만" --> 숫자 10,000 변경
  • 새로운 컬럼 저장 : subscribe

2) subscriber 컬럼 데이터 타입 변경

  • object --> int 64

 

13. 데이터 분석

1) 카테고리별로 구독자 수와 채널 수 알아보기

2) 컬럼명 변경 : '전체 구독자수', '카테고리 수'

3) 인덱스 해제

4) 전체 구독자수를 기준으로 내림차순 정렬

14. 시각화

1) pie 차트 - 카테고리별

2) 카테고리별 채널수

Comments