Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 주피터노트북맷플롯립
- 주피터노트북그래프
- 판다스그래프
- Python
- 판다스데이터분석
- python데이터분석
- SQL수업
- matplotlib
- 주피터노트북판다스
- python알고리즘
- SQLSCOTT
- sql따라하기
- 파이썬
- 파이썬데이터분석주피터노트북
- SQL
- 팀플기록
- 파이썬크롤링
- 주피터노트북
- python수업
- sql연습
- sql연습하기
- 데이터분석시각화
- 파이썬시각화
- 파이썬차트
- 파이썬수업
- 파이썬알고리즘
- 주피터노트북데이터분석
- 수업기록
- 파이썬데이터분석
- 맷플롯립
Archives
- Today
- Total
IT_developers
Python 데이터 분석(주피터노트북) - 음악 순위 크롤링 및 데이터 분석 본문
멜론, 벅스, 지니 음악 순위 크롤링
- 각 음악 사이트의 크롤링 정보를 엑셀 저장
- 저장된 정보를 읽어온 후 3개의 데이터 합치기
- TOP 100 - 순위, 노래제목, 가수이름
기본 설정
- Selenium
- from selenium import webdriver
- from selenium.webdriver.common.by import By
- BeautifulSoup
- from bs4 import BeautifulSoup
- Pandas
- import pandas as pd
- import requests
- import time
1. 멜론 TOP100 음악 정보 가져오기
1) url
2) 전체 데이터 확인
3) 크롤링 결과 확인 및 엑셀 저장
- 서비스 : 멜론
- 순위, 타이틀, 가수 순으로 저장
2. 벅스TOP100 음악 정보 가져오기
1) url
2) 데이터 확인
3) 크롤링 결과 확인 및 엑셀 저장
- 서비스 : 벅스
- 순위, 타이틀, 가수 순으로 저장
3. 지니TOP100 음악 정보 가져오기
- 1위~50위, 50위~100위 페이지 나누기가 되어 있음
1) url
2) 전체 데이터 확인
- 1위~ 50위
- 1위 ~ 100위
19금 노래는 아이콘이 들어가 있음
3) 정적 크롤링
headers 정보 가지고 오기
- F12
- Network 탭
- Headers
- User-Agent 복사
4) 크롤링 결과 확인 및 엑셀 저장
4. 수집된 음악 파일 통합
- 세 개의 엑셀 파일을 읽어와 하나의 데이터 프레임으로 생성
1) 엑셀 파일 읽어오기
2) 데이터 프레임으로 생성
3) 데이터 정보
4) 엑셀 저장
'Python' 카테고리의 다른 글
Python 데이터 분석(주피터노트북) - Pandas(plot) (0) | 2022.11.23 |
---|---|
Python 데이터 분석(주피터노트북) - 유튜브 랭킹 크롤링 및 데이터 분석 (0) | 2022.11.22 |
Python 데이터 분석(주피터노트북) - 합계 출산율 데이터 분석 (1) | 2022.11.20 |
Python 데이터 분석(주피터노트북) - 인구현황 데이터 분석 (0) | 2022.11.19 |
Python 데이터 분석(주피터노트북) - Matplotlib(실습-전체복습) (0) | 2022.11.18 |
Comments