IT_developers

Python 데이터 분석(주피터노트북) - 음악 순위 크롤링 및 데이터 분석 본문

Python

Python 데이터 분석(주피터노트북) - 음악 순위 크롤링 및 데이터 분석

developers developing 2022. 11. 21. 12:00

멜론, 벅스, 지니 음악 순위 크롤링

  • 각 음악 사이트의 크롤링 정보를 엑셀 저장
  • 저장된 정보를 읽어온 후 3개의 데이터 합치기
  • TOP 100 - 순위, 노래제목, 가수이름

 

기본 설정

  • Selenium
  • BeautifulSoup
    • from bs4 import BeautifulSoup
  • Pandas
    • import pandas as pd
  • import requests
  • import time

 

1. 멜론 TOP100 음악 정보 가져오기

1) url 

 

2) 전체 데이터 확인

 

3) 크롤링 결과 확인 및 엑셀 저장

  • 서비스 : 멜론
  • 순위, 타이틀, 가수 순으로 저장

 

2. 벅스TOP100 음악 정보 가져오기

1) url

 

2) 데이터 확인

 

3) 크롤링 결과 확인 및 엑셀 저장

  • 서비스 : 벅스
  • 순위, 타이틀, 가수 순으로 저장

 

3. 지니TOP100 음악 정보 가져오기

  • 1위~50위, 50위~100위 페이지 나누기가 되어 있음

1) url

 

2) 전체 데이터 확인 

  • 1위~ 50위
  • 1위 ~ 100위

 

19금 노래는 아이콘이 들어가 있음

 

3) 정적 크롤링

headers 정보 가지고 오기

  • F12
  • Network 탭
  • Headers
  • User-Agent 복사

 

4) 크롤링 결과 확인 및 엑셀 저장

 

4. 수집된 음악 파일 통합

  • 세 개의 엑셀 파일을 읽어와 하나의 데이터 프레임으로 생성

1) 엑셀 파일 읽어오기

 

2) 데이터 프레임으로 생성

 

3) 데이터 정보

 

4) 엑셀 저장

Comments