DataFrame 데이터 생성하기
학습목표
- 수치해석 라이브러리인 numpy의 이해 및 사용
- 데이터 분석 라이브러이인 pandas의 이해 및 사용
DataFrame 생성하기
- 일반적으로 분석을 위한 데이터는 다른 데이터 소스(database, 외부 파일)을 통해 dataframe을 생성
- 여기서는 실습을 통해, dummy 데이터를 생성하는 방법을 다룰 예정
import pandas as pd
dictionary로 부터 생성하기
- dict의 key -> column
data = {'a' : 100, 'b' : 200, 'c' : 300}
pd.DataFrame(data, index=['x', 'y', 'z'])
a | b | c | |
---|---|---|---|
x | 100 | 200 | 300 |
y | 100 | 200 | 300 |
z | 100 | 200 | 300 |
data = {'a' : [1, 2, 3], 'b' : [4, 5, 6], 'c' : [10, 11, 12]}
pd.DataFrame(data, index=[0, 1, 2])
a | b | c | |
---|---|---|---|
0 | 1 | 4 | 10 |
1 | 2 | 5 | 11 |
2 | 3 | 6 | 12 |
Series로 부터 생성하기
- 각 Series의 인덱스 -> column
a = pd.Series([100, 200, 300], ['a', 'b', 'c'])
b = pd.Series([101, 201, 301], ['a', 'b', 'c'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])
pd.DataFrame([a, b, c], index=[100, 101, 102])
a | b | c | |
---|---|---|---|
100 | 100 | 200 | 300 |
101 | 101 | 201 | 301 |
102 | 110 | 210 | 310 |
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])
pd.DataFrame([a, b, c], index=[100, 101, 102])
a | b | d | k | c | |
---|---|---|---|---|---|
100 | 100.0 | 200.0 | 300.0 | NaN | NaN |
101 | 101.0 | 201.0 | NaN | 301.0 | NaN |
102 | 110.0 | 210.0 | NaN | NaN | 310.0 |