DataFrame 구조 이해하기

학습목표

인덱스와 컬럼의 이해

import pandas as pd

# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('./train.csv')

train_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

인덱스(index)

index 속성
각 아이템을 특정할 수 있는 고유의 값을 저장
복잡한 데이터의 경우, 멀티 인덱스로 표현 가능

train_data.index

RangeIndex(start=0, stop=891, step=1)

컬럼(column)

columns 속성
각각의 특성(feature)을 나타냄
복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능

train_data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

학습목표

인덱스(index)

컬럼(column)

Search Big Data