DataFrame 데이터 생성하기

학습목표

  1. 수치해석 라이브러리인 numpy의 이해 및 사용
  2. 데이터 분석 라이브러이인 pandas의 이해 및 사용

DataFrame 생성하기

  • 일반적으로 분석을 위한 데이터는 다른 데이터 소스(database, 외부 파일)을 통해 dataframe을 생성
  • 여기서는 실습을 통해, dummy 데이터를 생성하는 방법을 다룰 예정
import pandas as pd

dictionary로 부터 생성하기

  • dict의 key -> column
data = {'a' : 100, 'b' : 200, 'c' : 300}
pd.DataFrame(data, index=['x', 'y', 'z'])
a b c
x 100 200 300
y 100 200 300
z 100 200 300
data = {'a' : [1, 2, 3], 'b' : [4, 5, 6], 'c' : [10, 11, 12]}
pd.DataFrame(data, index=[0, 1, 2])
a b c
0 1 4 10
1 2 5 11
2 3 6 12

Series로 부터 생성하기

  • 각 Series의 인덱스 -> column
a = pd.Series([100, 200, 300], ['a', 'b', 'c'])
b = pd.Series([101, 201, 301], ['a', 'b', 'c'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])

pd.DataFrame([a, b, c], index=[100, 101, 102])
a b c
100 100 200 300
101 101 201 301
102 110 210 310
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])

pd.DataFrame([a, b, c], index=[100, 101, 102])
a b d k c
100 100.0 200.0 300.0 NaN NaN
101 101.0 201.0 NaN 301.0 NaN
102 110.0 210.0 NaN NaN 310.0