IT_developers

Python 데이터 분석(주피터노트북) - Pandas(Series) 본문

Python

Python 데이터 분석(주피터노트북) - Pandas(Series)

developers developing 2022. 10. 21. 12:00

Pandas

  • 개념
    • 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구 포함
    • 테이블 형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리
    • 파이썬 데이터 분석을 위해 기본적으로 사용하는 라이브러리임
    • row data를 데이터 분석 전 과정을 위해 사용할 수 있도록 변환하는 데이터 전처리에도 많이 사용됨
  • 기능
    • 인 메모리 데이터 구조를 가지며 여러 파일 형식 데이터를 읽고 쓰기 위한 도구
    • 데이터 정렬, 손실 데이터를 통합 처리
    • 데이터 셋을 reshaping, 피벗
    • 라벨 기반 슬라이싱, 멀티인덱싱 제공
    • 데이터 셋 merge, join 하기 편함
    • 다양한 시계열 데이터 처리 가능
  • 데이터 구조
    • 시리즈(Series) : 라벨 표시된 1차원의 동일 형태 배열
    • 데이터 프레임(DataFrame) : 동일하지 않은 형태의 열을 가짐, 라벨 표시된 2차원의 크기 변동이 가능한 테이블 형 구조 
  • 데이터 타입
    • pandas 데이터 타입은 파이썬과 다름
      • dtype 으로 불리우며, 주요 데이터 타입은 다음과 같음
        • object 는 파이썬의 str 또는 혼용 데이터 타입 (문자열)
        • int64 는 파이썬의 int (정수)
        • float64 는 파이썬의 float (부동소숫점)
        • bool 는 파이썬의 bool (True 또는 False 값을 가지는 boolean)
        • 이외에 datetime64 (날짜/시간), timedelta[ns] (두 datatime64 간의 차) 도 활용됨
  • 라이브러리 로드 : import pandas as pd

 

Series

  • 명칭 : index, name, values

1. 생성

1) 리스트

  • index를 지정하지 않으면 0,1,2,... 순으로 지정됨

 

2) 딕셔너리

  • key 값은 인덱스로 사용

3) ndarray

4) DataFrame 

 

2. 조회

1) index 조회

2) values 조회

3) name 조회

4) 인덱싱 조회(인덱스 번호 or 라벨명)

5) 전체 구조 파악

 

3. 수정

1) index 수정

2) 특정값 수정

3) 데이터 타입 수정

※ astype 사용 시 주의점 : 변경할 수 없는 데이터가 들어있는 경우

1) 문제 없는 경우

2) 에러 나는 경우

  • ValueError: could not convert string to float: 'test'

4. 삭제

1) 특정 행 삭제

 

Comments