always_here

지식을 공유하고 함께 성장하는 엔지니어 as_always 입니다

AS_ALWAYS
728x90

AI/기계학습 8

SVM(2)

SVM 분류기 - 이진 분류기 - 딥러닝 이전 널리 사용되던 기법 - 선형 SVM ( Hard Margin SVM - 선형 분리 가능한 문제 / Soft Margin SVM - 선형 분리 불가능 문제 - 학습데이터의 에러가 0이 되도록 완벽하게 나누는 것은 불가능 -> 에러를 허용하자) - 비선형 SVM : kernel SVM SVM - 널리 사용되는 기계학습 방법론 - 패턴인식, 자료 분석을 위한 지도학습 모델 - 분류와 회귀 문제에 사용 ( 주로 분류 문제에 사용) - 커널 트릭을 활용하여 비선형 분류 문제에도 사용 가능 SVM 학습 방향 : 마진의 최대화 - 결정 경계 (Hyperplane : 서로 다른 클래스를 완벽하게 분류하는 기준) 는 주변 데이터와의 거리가 최대가 되어야 함 - 결정 경계 근..

AI/기계학습 2022.01.22

Random Forest

Random Forest 의사결정트리의 단점(제한성이 많고 때때로 과최적화 발생) 을 개선하기 위해 만들어진 알고리즘 여러개의 나무가 모여서 하나의 숲을 형성한다는 의미 과정 과정1) 데이터셋에서 x개의 데이터를 추출, 새로운 샘플 데이터 선택 과정2) 새로 생성된 샘플 데이터셋을 이용 새로운 의사결정 트리 생성 1,2 n번 반복 n개의 의사결정트리를 이용해 예측 Random forest 데이터 예측 모듈 생성 여기에 테스트 데이터가 입력이 되면 각각 의사결정트리에 입력해 결과를 구해보고 가장 많이 나온 결과를 선택해서 최종 결과로 결정 Random forest의 성능평가 방법 Bagging 63%의 데이터 이용 -> 매개 tree 생성 나머지 37%의 데이터 이용 -> 매개 tree의 성능 평가 매개 ..

AI/기계학습 2021.02.24

KNN

KNN(K Nearest Neighbor) 머신러닝 지도학습의 한 종류 라벨이 있는 훈련데이터를 학습하여 한수를 추론 학습에 사용되는 데이터의 결과가 정해져있는 경우에 사용 분류(Classification) 라벨이 있는 데이터를 학습 새로운 데이터가 들어왔을 때 학습된 데이터를 라벨을 붙여 분류 KNN 알고리즘 주어진 데이터로부터 가장 거리가 가까운 K개의 다른 데이터를 참조하여 라벨링 K개 데이터들의 라벨들 중 가장 많은 비율을 차지하는 라벨로 분류 데이터 간의 거리는 일반적으로 유클리드 거리 측정법 사용 알고리즘이 간단하여 구현하기 쉽고 정확도가 좋은 편 사례기반 알고리즘의 한 종류 –데이터의 양이 많아지면 수행속도가 느려짐 사례기반 알고리즘(Instance-based Algorithms) 학습과정이..

AI/기계학습 2021.02.11

K-means

K-means 비지도학습의 한 종류인 클러스터링을 위한 알고리즘 중 하나 비지도학습(Unsupervised Learning) 데이터들과 각 클러스터와의 거리 차이의 분산을 최소화 클러스터링(군집) 라벨 데이터 없이 데이터 각각의 특성을 고려해 주어진 데이터를 가장 잘 설명하는 집단을 찾아 속하게 하는 것 K-means 주어진 데이터로 K개의 클러스터를 묶는 알고리즘 데이터들과 각 클러스터와의 거리차이의 분산을 최소화함 유사도를 기반으로 데이터들 간의 유사성을 판단함 K-means 알고리즘 원리 클러스터 내 응집도 최소화 클러스터 간 분리도 최대화 거리측정법 유클리드 거리 측정법 유클리드 거리가 큰 값을 가지면 사용자 간의 거리가 멀다는 의미, 사용자 간 유사성이 떨어짐 K-means 알고리즘 수행 단계 ..

AI/기계학습 2021.02.08

텍스트 데이터 분석

텍스트 데이터 분석 텍스트 (비정형데이터로부터) 정보를 추출해 내는 작업 자연어처리(NLP,Natural Language Processing)에 기반 전처리과정 텍스트 분석 텍스트 정규화(Text Normalization) 텍스트의 형태를 일관되게 변형하는 작업 토큰화(Tokenization) 텍스트를 의미단위(토큰)로 분할하는 작업 어간추출(Stemming) 형태가 변형된 단어로부터 어간을 부누리하는 작업 형태소 분석(POS-Tagging) 토큰의 형태소를 파악하는 작업 텍스트분석의 종류 정보 추출 : 문서내의 정형데이터를 추출하는 작업 문서 분류 : 문서들을 특정 분류 체계에 따라 분류하는 작업 감성 분석 : 문서에 내포되어있는 감정과 의견을 추출하는 작업 토큰화 텍스트를 의미단위로 분할하는 작업 단..

AI/기계학습 2021.02.05

Naive Bayes

Naive Bayes 기계학습에서 지도학습(supervised learning) 알고리즘 분류(classification)의 목적으로 사용 베이즈 정리를 적용한 확률적 분류기법 베이즈 정리(Bayes theorem) 두 확률변수의 사전확률과 사후확률 사이의 관계를 설명하는 수학적 정리 사전확률 가정 : 어떤 사건에 대한 원인과 결과 발생 -> 원인이 있을 때 결과가 발생할 확률 사후 확률 가정 : 결과발생 -> 결과가 발생했다는 조건에서 원인이 발생했을 확률 사후 확률 계산시 발생하는 문제 해결 기법 라플라스 스무딩 조건부확률이 0이 되어 정상적으로 분류되지 않는 경우를 방지하기 위해, 확률 값 보정시 사용되는 기법 로그 변환 underflow 현상을 해결하기 위해 조건부확률 계산식에 로그를 적용해 조건..

AI/기계학습 2021.02.04

SVM(1)

SVM(Support Vector Machine) 분류 또는 회귀문제에 사용할 수 있는 기계학습 알고리즘 대부분의 분류문제에 사용 각 데이터 항목을 n차원 공간 상 하나의 점으로 표시 최상의 분류선을 찾는 것이 문제 SVM은 최적의 초평면을 찾는 방법을 제공 Margin(초평면 가까이에 있는 Support Vector에서 초평면까지의 거리의 합) SVM은 분류를 더 잘하는 것을 Margin에 우선해서 선택한다는 특징을 고려해야한다 선형SVM Outlier를 어느정도 무시하며 최선의 선택을 함 비선형분류 선형으로 풀 수 없는 경우 차원을 변경하여 비선형으로 분류 이때 커널 함수 활용 Kernel 함수 각각의 커널에는 최적화를 도와주는 파라미터들이 따로 존재함 최상의 커널 파라미터를 자동적으로 알려주는 방법..

AI/기계학습 2021.02.03

인공신경망

인공신경망 인간의 뇌는 1000억개의 뉴런으로 구성 뇌신경세포 작동원리 모델 가지돌기->신경세포체->축색 가지돌기(다른 뉴런으로부터 여러 개의 입력을 받는 역할) 신경세포체(가지돌기로부터 입력 받은 값을 통합) 축색(앞에서 만들어진 신호를 다른 뉴런으로 전달하는 역할) 인공신경망 인간의 신경망 구조를 모방해 만든 알고리즘 입력층 하나 또는 다수의 노드로 구성 각 노드에 데이터 입력 (입력된 데이터에는 각 입력층의 노드, 출력층의 노드사이에 존재하는 가중치가 있다.) 이 가중치를 곱해서 합산을 한 다음 출력층의 노드에 전달 출력층에 도착한 데이터는 활성함수의 연산을 거쳐 출력값으로 배출 활성화 함수 출력값을 내보낼 때 사용하는 함수 (f로 표기) 선형,계단,임계논리,시그모이드함수 등이 사용됨 인공신경망 단..

AI/기계학습 2021.02.02
728x90