always_here

지식을 공유하고 함께 성장하는 엔지니어 as_always 입니다

AS_ALWAYS

핀테크 교육/금융데이터 활용

탐색적 분석, Bar chart

nauung_always 2022. 7. 4. 13:20
728x90

결측값 처리

결측값은 아예 제거를 해주거나, 특정 값으로 채워주게 된다.

 

파이 차트 그리기

파이 차트를 그리기 위해서는 

  • 파이 차트로 사용할 데이터의 이름이 담긴 리스트,
  • 그리고 해당 이름에 해당하는 데이터의 값이 담긴 리스트

이 두 가지가 필요하다.

value_counts()
특정 열의 값들이 각각 몇개 씩 있는지 count 하는 함수
결과로 index와 value가 나오게 된다. -> Series 형식
우리는 리스트가 필요하기 때문에!
->
pie_labels = drink_df['continent'].value_counts().index.tolist()
pie_values = drink_df['continent'].value_counts().values.tolist()

plt.pie(pie_values, labels=pie_labels, autopct='%.02f%%')
plt.title('Percentage of each continent')
plt.show()

GroupBy를 이용한 통계 확인

특정 값을 기준으로 그룹핑한 후에 그룹 별로 통계적인 수치 정보를 구할 수 있도록 하는 방법

데이터프레임의 이름.groupby('그룹으로 묶겠다 하는 열')['출력하고 싶은 열'].통계 함수

# 전체 평균보다 많은 A 하는 B 를 구한다.
total_mean = drink_df.total_litres_of_pure_alcohol.mean()
A_mean = drink_df.groupby('A)['B'].mean()
A_over_mean = continent_mean[continent_mean >= total_mean]
print(A_over_mean)
 
 
# 평균 B이 가장 높은 대륙을 구합니다.
beer_continent = drink_df.groupby('A').wine_servings.mean().idxmax()
print(beer_continent)
 
 
drink_df.groupby('A').wine_servings.agg(['mean''min''max''sum'])
 

Bar Chart

plt.bar()

바 차트를 그리기 위해서는

  • 바의 위치를 결정하는 인덱스
  • 바 차트로 사용할 데이터의 이름이 담긴 리스트(레이블)
  • 해당 이름에 해당하는 데이터의 값이 담긴 리스트(실질적인 데이터)

이 세 가지가 필요하다.

데이터의 개수가 n개라면 arange(n)을 사용하고, 이를 index로 저장해서 차트를 그리면 편하다.

index = np.arange(3)
years = ['2017''2018''2019']
values = [100400900]

plt.bar(index, values, width=0.2, color='g')
plt.xticks(index, years)
plt.show()
728x90

'핀테크 교육 > 금융데이터 활용' 카테고리의 다른 글

크롤링 (네이버 기사 크롤링)  (0) 2022.07.05
크롤링 (네이버 금융 크롤링)  (0) 2022.07.05
상관관계 분석  (0) 2022.07.04
데이터프레임 활용  (0) 2022.07.04
FinanceDataReader  (0) 2022.07.04