728x90
# 인덱스의 범위 확인
drink_df.index
# 각 컬럼의 타입 출력
drink_df.dtypes
# 데이터프레임의 행과 열의 개수 출력
drink_df.shape
# Numpy 타입으로 출력
drink_df.values
# 첫번째 행 출력
drink_df.values[0]
for element in drink_df.values[0]:
print(element)
2차원 테이블 형태 -> 데이터프레임이라고 부른다.
특정 하나의 열만을 불러올 경우에는 데이터프레임이 아니라 데이터 타입이 판다스(Pandas)에서 제공하는 또 다른 데이터 타입인 '시리즈(Series)'가 된다.
# 데이터를 파악하기 위한 열의 특성(feature) 데이터 프레임의 정보 보여준다.
drink_df.info()
# 해당 데이터프레임의 각 열에서 Null 데이터가 총 몇 개인지를 출력한다.
print(drink_df.isnull().sum())
데이터의 최솟값, 최댓값, 평균값 등을 파악하는 방법
drink_df.describe()
describe() : 데이터프레임의 총 데이터의 수(count), 평균(mean), 표준편차(std), 분위수(25%, 50%, 75%)를 파악하여 출력숫자. 즉, 수치 정보에 국한되어서 계산, 문자열 타입의 데이터열들은 제외된다.
# 데이터프레임 조건 만족하는 값 추출
# drink_df 데이터프레임 열 beer_servings의 값이 158보다 큰 경우
# drink_df 데이터프레임 열 beer_servings의 값이 158보다 큰 경우
drink_df[drink_df.beer_servings > 158]
drink_df[drink_df['beer_servings'] > 158]
데이터프레임의 AND, OR, NOT은 각각 &, |, ~에 해당된다.
- & : AND
- A조건 & B조건 : A조건과 B조건 모두 만족하는 경우
- | : OR
- A조건 | B조건 : A조건 또는 B조건 둘 중 하나를 만족하는 경우
- ~ : NOT
- ~A조건 : A조건을 만족하는 경우의 반대. 즉, A조건을 만족하지 않는 경우.
정렬하기
# 특정 컬럼을 기준으로 정렬 (오름차순)drink_df.sort_values('beer_servings')
# 내림차순으로 정렬
drink_df.sort_values('beer_servings', ascending=False)
# 2개의 컬럼 기준으로 정렬
drink_df.sort_values(['beer_servings', 'wine_servings'])
728x90
'핀테크 교육 > 금융데이터 활용' 카테고리의 다른 글
탐색적 분석, Bar chart (0) | 2022.07.04 |
---|---|
상관관계 분석 (0) | 2022.07.04 |
FinanceDataReader (0) | 2022.07.04 |
시계열데이터 파이썬 (날짜와 시간 - pandas) (0) | 2022.07.04 |
시계열데이터 파이썬 (날짜와 시간 - numpy) (0) | 2022.07.04 |