always_here

지식을 공유하고 함께 성장하는 엔지니어 as_always 입니다

AS_ALWAYS

핀테크 교육/금융데이터 활용

데이터프레임 활용

nauung_always 2022. 7. 4. 11:34
728x90
# 인덱스의 범위 확인
drink_df.index
 
# 각 컬럼의 타입 출력
drink_df.dtypes
 
# 데이터프레임의 행과 열의 개수 출력
drink_df.shape
 
# Numpy 타입으로 출력
drink_df.values
 
# 첫번째 행 출력
drink_df.values[0]
 
for element in drink_df.values[0]:
  print(element)

2차원 테이블 형태 -> 데이터프레임이라고 부른다.
특정 하나의 열만을 불러올 경우에는 데이터프레임이 아니라 데이터 타입이 판다스(Pandas)에서 제공하는 또 다른 데이터 타입인 '시리즈(Series)'가 된다.

# 데이터를 파악하기 위한 열의 특성(feature) 데이터 프레임의 정보 보여준다.
drink_df.info()
 
# 해당 데이터프레임의 각 열에서 Null 데이터가 총 몇 개인지를 출력한다.
print(drink_df.isnull().sum())
 
 
데이터의 최솟값, 최댓값, 평균값 등을 파악하는 방법
drink_df.describe()
 
describe() : 데이터프레임의 총 데이터의 수(count), 평균(mean), 표준편차(std), 분위수(25%, 50%, 75%)를 파악하여 출력숫자. 즉, 수치 정보에 국한되어서 계산, 문자열 타입의 데이터열들은 제외된다.

 

# 데이터프레임 조건 만족하는 값 추출 
# drink_df 데이터프레임 열
beer_servings의 값이 158보다 큰 경우

 

drink_df[drink_df.beer_servings > 158]
drink_df[drink_df['beer_servings'] > 158]

데이터프레임의 AND, OR, NOT은 각각 &, |, ~에 해당된다.

  • & : AND
    • A조건 & B조건 : A조건과 B조건 모두 만족하는 경우
  • | : OR
    • A조건 | B조건 : A조건 또는 B조건 둘 중 하나를 만족하는 경우
  • ~ : NOT
    • ~A조건 : A조건을 만족하는 경우의 반대. 즉, A조건을 만족하지 않는 경우.

정렬하기

# 특정 컬럼을 기준으로 정렬 (오름차순)
drink_df.sort_values('beer_servings'
# 내림차순으로 정렬
drink_df.sort_values('beer_servings', ascending=False)
 
# 2개의 컬럼 기준으로 정렬
drink_df.sort_values(['beer_servings''wine_servings'])
728x90