*본 게시물은 한양대학교 컴퓨터소프트웨어학과 정소희 교수님의 <창의적 프로그래밍> 수업 수강 후,
그 일부를 재구성하여 작성된 게시물입니다. *
[DataFrame의 구조]
데이터프레임(DataFrame)은 행과 열로 이루어진 2차원 배열 구조로 이루어져 있다.
시리즈(Series)가 여러개 모여 구성되었다고 보면 편할 것 같다.
즉, 인덱스만을 기준으로 데이터가 분류되었던 시리즈와 달리,
데이터 프레임은 가로 행을 나타내는 '행인덱스(Row Index)' 와, 새로 열을 나타내는 '컬럼명(Columns)'을 기준으로 데이터가 분류된다.
(따라서 2차원 배열 구조..)
[DataFrame 예시]
다음과 같은 DataFrame을 생성하려고 한다.
[Pandas 모듈 임포트]
import pandas as pd
:역시나 동일하게 Pandas 모듈을 import해주었다.
[01. 데이터프레임(DataFrame) 생성 ]
데이터 프레임 생성 코드는 다음과 같다.
pd.DataFrame(data = {'column0' : ['Data0', 'Data1','Data2'],
'column1' : ['Data0', 'Data1','Data2'],
'column2' : ['Data0', 'Data1','Data2']})
위의 예시에 대입해보자면..
menu = pd.DataFrame(data = {'제품명' : ['커피', '주스','밀크티'],
'가격' : [5000, 6000, 6500],
'판매량' : [60, 45, 30]})
이렇게 되겠지. 그 결과는 다음과 같다.
(이후에 나올 예시들을 위해 'menu'라는 변수로 지정해두었다.)
행 인덱싱은 따로 지정해주지 않았는데, (기본값으로 Integer Position이 부여됨을 알 수 있다.)
이는 후에 행 인덱싱을 수정하면서 살펴보도록 하겠다.
[02. 데이터프레임(DataFrame) 정보 추출]
02-1) 데이터프레임 의 index 출력
변수명.index
기본적인 Integer Position의 인덱스이기에,, 그 범위를 나타내주는 RangeIndex가 출력됨을 알 수 있다.
하나씩 해석해보자면,
start = 0(0부터), stop = 3(3 전까지, 즉, 2까지), step = 1(1씩 증가)
02-2) 데이터프레임의 columns 출력
변수명.columns
menu 데이터프레임의 컬럼명인 '제품명', '가격', '판매량' 이 리스트(List)형으로 출력됨을 알 수 있다.
02-3) 데이터프레임의 data 출력
변수명.values
이 역시 menu 데이터프레임의 데이터 정보가 배열 형태로 출력됨을 알 수 있다.
02-4) 데이터프레임의 모양 출력
변수명.shape
해당 데이터프레임이 몇행, 몇열인지 그 모양을 추출해준다.
위의 데이터프레임은 3행 3열임을 알 수 있다.
만약, 행과 열 중 하나만 알고싶다면, 인덱싱 기법으로 알아낼 수도 있다. 다음처럼..
02-5) 데이터프레임 각 열들의 타입(type) 출력
변수명.dtypes
각 열들의 타입을 출력해준다.
위에 따르면, '제품명' 열의 타입은 object(문자열), '가격'과 '판매량' 열의 타입은 int(정수형)임을 알 수 있다.
02-6) 데이터프레임 각 열들의 요약정보 추출
변수명.info()
데이터 프레임 각 열들의 요약정보를 나타내준다.
예시로, '가격' 열을 살펴보면,
컬럼명은 '가격'으로, 3개의 유효한(3 non-null) 정수형(int64) 데이터로 구성됨을 알 수 있다.
'데이터 관리) Pandas' 카테고리의 다른 글
[Pandas] 자료구조(3): 데이터프레임(DataFrame) 정보 수정, 정렬 (0) | 2022.11.29 |
---|---|
[Pandas] 자료구조(1): 시리즈(Series) 제어 명령어 모음 (2) | 2022.11.29 |
[Pandas] Pandas란 무엇이고, 왜 쓰는것일까? (2) | 2022.11.12 |