데이터프레임 활용

핀테크 교육/금융데이터 활용

데이터프레임 활용

nauung_always 2022. 7. 4. 11:34

728x90

# 인덱스의 범위 확인

drink_df.index

# 각 컬럼의 타입 출력

drink_df.dtypes

# 데이터프레임의 행과 열의 개수 출력

drink_df.shape

# Numpy 타입으로 출력

drink_df.values

# 첫번째 행 출력

drink_df.values[0]

for element in drink_df.values[0]:

print(element)

2차원 테이블 형태 -> 데이터프레임이라고 부른다.
특정 하나의 열만을 불러올 경우에는 데이터프레임이 아니라 데이터 타입이 판다스(Pandas)에서 제공하는 또 다른 데이터 타입인 '시리즈(Series)'가 된다.

# 데이터를 파악하기 위한 열의 특성(feature) 데이터 프레임의 정보 보여준다.

drink_df.info()

# 해당 데이터프레임의 각 열에서 Null 데이터가 총 몇 개인지를 출력한다.

print(drink_df.isnull().sum())

데이터의 최솟값, 최댓값, 평균값 등을 파악하는 방법

drink_df.describe()

describe() : 데이터프레임의 총 데이터의 수(count), 평균(mean), 표준편차(std), 분위수(25%, 50%, 75%)를 파악하여 출력숫자. 즉, 수치 정보에 국한되어서 계산, 문자열 타입의 데이터열들은 제외된다.

# 데이터프레임 조건 만족하는 값 추출
# drink_df 데이터프레임 열 beer_servings의 값이 158보다 큰 경우

drink_df[drink_df.beer_servings > 158]
drink_df[drink_df['beer_servings'] > 158]

데이터프레임의 AND, OR, NOT은 각각 &, |, ~에 해당된다.

& : AND
- A조건 & B조건 : A조건과 B조건 모두 만족하는 경우
| : OR
- A조건 | B조건 : A조건 또는 B조건 둘 중 하나를 만족하는 경우
~ : NOT
- ~A조건 : A조건을 만족하는 경우의 반대. 즉, A조건을 만족하지 않는 경우.

정렬하기

# 특정 컬럼을 기준으로 정렬 (오름차순)

drink_df.sort_values('beer_servings')

# 내림차순으로 정렬

drink_df.sort_values('beer_servings', ascending=False)

# 2개의 컬럼 기준으로 정렬

drink_df.sort_values(['beer_servings', 'wine_servings'])

728x90

'핀테크 교육 > 금융데이터 활용' 카테고리의 다른 글

탐색적 분석, Bar chart (0)	2022.07.04
상관관계 분석 (0)	2022.07.04
FinanceDataReader (0)	2022.07.04
시계열데이터 파이썬 (날짜와 시간 - pandas) (0)	2022.07.04
시계열데이터 파이썬 (날짜와 시간 - numpy) (0)	2022.07.04

현재글데이터프레임 활용

as_always