머신러닝스터디/2015_10_28 (rev. 1.1)
- 집단지성 프로그래밍 7장: 데이터마이닝
- 진행: 원준연
Datamining
- 수학
- 통계학
- 기계학습
- 인공지능
- etc.
데이터의 속성
- Numerical -> Discretize
- Ordinal
- Nominal(Categorical)
association rule / attribute importance
supervised / unsupervised
- 결과값을 활용하는가의 여부
- supervised: 결정트리, 베이지언 네트워크, 회귀분석, 신경망
- unsupervised: K-means, 계층적 클러스터링, 밀도기반
결정트리
- Categorical
K-means
- 임의의 클러스터 중심을 K개 설정하고, 가장 가까운 클러스터로 이동, 클러스터 구성 값들의 평균으로 중심 수정
계층적 클러스터링
- 데이터가 초기 클러스터 -> 가까운 데이터를 모아 부모 노드로 설정
밀도 기반
- 저밀도 지역을 노이즈로 판단하고 생략
회귀분석
- 데이터를 표현하는 가장 적합한 직선의 방정식을 구함 -> 오차제곱합의 최소화
다중 퍼셉트론
- 입력된 값(-1~1로 변환됨)의 가중치를 계산, 출력값과 가중치의 곱의 총합
원형 기준 함수
- K-means로 생성된 클러스터가 네트워크 노드, 입력과 중심의 근접도가 곧 가중치
SVM
- 우리가 아는 그것
베이지언
- 저는 이게 뭔 소린지 아직도 모릅니다
마이닝 프로세스
- 모델링과 속성 선택
- 학습 셋 만들기
- 정규화화 데이터 정제
- 데이터 분석
- 예측 모델의 품질 측정
- 예측 모델 상용
K 분할교차 검증
- 데이터를 K 개로 나누어 K-1개에 대한 예측 모델을 만들고 나머지 하나에 대해 시험해 본다.
WEKA / JDM(DEPRECATED!)