728x90
결측값 처리
결측값은 아예 제거를 해주거나, 특정 값으로 채워주게 된다.
파이 차트 그리기
파이 차트를 그리기 위해서는
- 파이 차트로 사용할 데이터의 이름이 담긴 리스트,
- 그리고 해당 이름에 해당하는 데이터의 값이 담긴 리스트
이 두 가지가 필요하다.
value_counts()
특정 열의 값들이 각각 몇개 씩 있는지 count 하는 함수
결과로 index와 value가 나오게 된다. -> Series 형식
우리는 리스트가 필요하기 때문에!
->
pie_labels = drink_df['continent'].value_counts().index.tolist()
pie_values = drink_df['continent'].value_counts().values.tolist()
plt.pie(pie_values, labels=pie_labels, autopct='%.02f%%')
plt.title('Percentage of each continent')
plt.title('Percentage of each continent')
plt.show()
GroupBy를 이용한 통계 확인
특정 값을 기준으로 그룹핑한 후에 그룹 별로 통계적인 수치 정보를 구할 수 있도록 하는 방법
데이터프레임의 이름.groupby('그룹으로 묶겠다 하는 열')['출력하고 싶은 열'].통계 함수
# 전체 평균보다 많은 A 하는 B 를 구한다.
total_mean = drink_df.total_litres_of_pure_alcohol.mean()
A_mean = drink_df.groupby('A)['B'].mean()
A_over_mean = continent_mean[continent_mean >= total_mean]
print(A_over_mean)
beer_continent = drink_df.groupby('A').wine_servings.mean().idxmax()
print(beer_continent)
drink_df.groupby('A').wine_servings.agg(['mean', 'min', 'max', 'sum'])
Bar Chart
plt.bar()
바 차트를 그리기 위해서는
- 바의 위치를 결정하는 인덱스
- 바 차트로 사용할 데이터의 이름이 담긴 리스트(레이블)
- 해당 이름에 해당하는 데이터의 값이 담긴 리스트(실질적인 데이터)
이 세 가지가 필요하다.
데이터의 개수가 n개라면 arange(n)을 사용하고, 이를 index로 저장해서 차트를 그리면 편하다.
index = np.arange(3)
years = ['2017', '2018', '2019']
values = [100, 400, 900]
plt.bar(index, values, width=0.2, color='g')
plt.xticks(index, years)
plt.show()
728x90
'핀테크 교육 > 금융데이터 활용' 카테고리의 다른 글
크롤링 (네이버 기사 크롤링) (0) | 2022.07.05 |
---|---|
크롤링 (네이버 금융 크롤링) (0) | 2022.07.05 |
상관관계 분석 (0) | 2022.07.04 |
데이터프레임 활용 (0) | 2022.07.04 |
FinanceDataReader (0) | 2022.07.04 |