상관 분석이란,
두 변수 간의 선형적 관계를 상관 계수로 표현하는 것을 말한다.
상관 계수를 구하는 것은 공분산의 개념을 포함하는데,
공분산은 2개의 변수에 대한 상관 정도. 2개의 변수 중 하나의 값이 상승하는 경향을 보이면 다른 값도 상승하는 경향을 수치로 표현한 것.
하지만 공분산만으로 두 확률 변수의 상관 관계를 구한다면 두 변수의 단위 크기에 영향을 받을 수 있다.
따라서 -1과 1 사이 값으로 변환하고 이를 상관 계수라 한다.
만약 상관 계수가 1에 가깝다면 서로 강한 양의 상관 관계가 있는 것이고, -1에 가깝다면 음의 상관 관계가 있는 것이다.
0이면 상관 관계가 없다.
Matplotlib : 파이썬에서 자료를 차트나 플롯으로 시각화하는 패키지
Seaborn : Matplotlib을 기반으로 다양한 테마와 기능을 추가한 시각화 패키지
일반적으로 상관계수 차트를 그릴 때는 seaborn에서 제공하는 heatmap()을 주로 사용한다.
sns.heatmap(데이터프레임의 상관계수 데이터)
상관 분석을 시각화 할 수 있는 또 다른 방법을 산점도(scatter plot)를 그리는 것이다.
산점도는 좌표상에 점들을 표시하는 방법으로 두 개 변수 간의 관계를 나타내는 그래프 방법이다.
pairplot은 각 열의 조합에 대해서 산점도를 그리고, 같은 데이터가 만나는 대각선 영역에는 해당 데이터의 히스토그램을 그린다.
sns.pairplot(데이터프레임)
데이터프레임.corr(method = 'pearson')
피어슨의 상관계수는 일반적으로, 값이 -1.0 ~ -0.7 이면, 강한 음적 상관관계
값이 -0.7 ~ -0.3 이면, 뚜렷한 음적 상관관계 , 값이 -0.3 ~ -0.1 이면, 약한 음적 상관관계
값이 -0.1 ~ +0.1 이면, 없다고 할 수 있는 상관관계 , 값이 +0.1 ~ +0.3 이면, 약한 양적 상관관계
값이 +0.3 ~ +0.7 이면, 뚜렷한 양적 상관관계 , 값이 +0.7 ~ +1.0 이면, 강한 양적 상관관계
pairplot은 데이터프레임을 인수로 받아 그리드(grid) 형태로 각 데이터 열의 조합에 대해 산점도를 그린다.
같은 데이터가 만나는 대각선 영역에는 해당 데이터의 히스토그램을 그린다.
산점도를 그렸을 때 우상향을 보인다는 것은 강한 양적 상관관계를 가지고 있다는 것을 의미한다.
'핀테크 교육 > 금융데이터 활용' 카테고리의 다른 글
크롤링 (네이버 금융 크롤링) (0) | 2022.07.05 |
---|---|
탐색적 분석, Bar chart (0) | 2022.07.04 |
데이터프레임 활용 (0) | 2022.07.04 |
FinanceDataReader (0) | 2022.07.04 |
시계열데이터 파이썬 (날짜와 시간 - pandas) (0) | 2022.07.04 |