IT_developers

Python 데이터 분석(주피터 노트북) - 쇼핑몰(5)_로그 데이터 본문

Python

Python 데이터 분석(주피터 노트북) - 쇼핑몰(5)_로그 데이터

developers developing 2022. 12. 10. 16:00

쇼핑몰

  • UCI ML Repository (https://archive.ics.uci.edu/ml/datasets/Online+Retail#)
  • 온라인 리테일 사이트의 2010/12 ~ 2011/12 주문 기록 데이터
  • 약 500,000 건 데이터
  • 로그 데이터(웹서버 남겨진 데이터)
    • 접속 IP
    • 세션 아이디
    • 언제접속했는지
    • 어느 경로를 이용했는지 
    • byte 사이즈

 

라이브러리 및 세팅

  • import pandas as pd
  • import numpy as np
  • from plotly import graph_objects as go

 

데이터 로드

  • sep : \s 공백으로 구별하기
  • engine : 파이썬을 외부 DB 연동을 통해 확장시키기 위해서 필요
  • names : 헤더로 쓸 이름 지정

 

데이터 탐색

  • info()
  • head()

 

데이터 전처리

  • datetime 컬럼에서 [ ] 제거
  • datetime 컬럼 데이터 타입 변경

 

데이터 분석 :  사용자가 어디까지 접속하고 나갔는지 확인

1) url 순서 지정

  • product_list : 1
  • product_detail : 2
  • cart : 3
  • order_complete : 4

 

2) session_id, url 을 그룹으로 datetime, step_no 작성

  • url과 step_no merge(grouped의 url == funnel_steps의 인덱스 일치)

 

3) plotly 차트 그리기

  • 동적인 차트
  • 바로 다운로드 가능
  • 줌 가능

 

4)  각 페이지에서 머물렀던 평균시간 계산

  • 각 퍼널별 소요 시간 = 각 단계에서 머물렀던 시간

Comments