728x90
Random Forest
의사결정트리의 단점(제한성이 많고 때때로 과최적화 발생) 을 개선하기 위해 만들어진 알고리즘
여러개의 나무가 모여서 하나의 숲을 형성한다는 의미
과정
과정1) 데이터셋에서 x개의 데이터를 추출, 새로운 샘플 데이터 선택
과정2) 새로 생성된 샘플 데이터셋을 이용 새로운 의사결정 트리 생성
1,2 n번 반복
n개의 의사결정트리를 이용해 예측
Random forest 데이터 예측 모듈 생성
여기에 테스트 데이터가 입력이 되면 각각 의사결정트리에 입력해 결과를 구해보고 가장 많이 나온 결과를 선택해서 최종 결과로 결정
Random forest의 성능평가 방법
Bagging
63%의 데이터 이용 -> 매개 tree 생성
나머지 37%의 데이터 이용 -> 매개 tree의 성능 평가
매개 tree에 입력하는 데이터는 다름
Out-of-bagging(OOB)
성능통계에서 많이 사용됨
OOB 데이터 이용 -> tree의 성능 교정
Random forest 예측 모듈의 성능을 평가하기 위해서 sklearn.metrics라고 하는 패키지 사용
특히 이 중에서 accuracy_score 모듈 import.
sklearn.metrics는 성능 평가를 제공하는 패키지, accuracy_score는 예측 결과의 accurcy(정확도) 계산하는 모듈
728x90
'AI > 기계학습' 카테고리의 다른 글
SVM(2) (0) | 2022.01.22 |
---|---|
KNN (0) | 2021.02.11 |
K-means (0) | 2021.02.08 |
텍스트 데이터 분석 (0) | 2021.02.05 |
Naive Bayes (0) | 2021.02.04 |