[[TableOfContents]] = 참여 = [이병윤], [권영기], [원준연], [이원준] = 활동개요 = * 집단지성 프로그래밍 7장: 데이터마이닝 * 진행: [원준연] = 내용 = {{{ Datamining - 수학 - 통계학 - 기계학습 - 인공지능 - etc. 데이터의 속성 - Numerical -> Discretize - Ordinal - Nominal(Categorical) association rule / attribute importance supervised / unsupervised - 결과값을 활용하는가의 여부 - supervised: 결정트리, 베이지언 네트워크, 회귀분석, 신경망 - unsupervised: K-means, 계층적 클러스터링, 밀도기반 결정트리 - Categorical K-means - 임의의 클러스터 중심을 K개 설정하고, 가장 가까운 클러스터로 이동, 클러스터 구성 값들의 평균으로 중심 수정 계층적 클러스터링 - 데이터가 초기 클러스터 -> 가까운 데이터를 모아 부모 노드로 설정 밀도 기반 - 저밀도 지역을 노이즈로 판단하고 생략 회귀분석 - 데이터를 표현하는 가장 적합한 직선의 방정식을 구함 -> 오차제곱합의 최소화 다중 퍼셉트론 - 입력된 값(-1~1로 변환됨)의 가중치를 계산, 출력값과 가중치의 곱의 총합 원형 기준 함수 - K-means로 생성된 클러스터가 네트워크 노드, 입력과 중심의 근접도가 곧 가중치 SVM - 우리가 아는 그것 베이지언 - 저는 이게 뭔 소린지 아직도 모릅니다 마이닝 프로세스 - 모델링과 속성 선택 - 학습 셋 만들기 - 정규화화 데이터 정제 - 데이터 분석 - 예측 모델의 품질 측정 - 예측 모델 상용 K 분할교차 검증 - 데이터를 K 개로 나누어 K-1개에 대한 예측 모델을 만들고 나머지 하나에 대해 시험해 본다. WEKA / JDM(DEPRECATED!) }}} = 다음 활동 = * 8장 by [권영기] ---- [활동지도/2015], [머신러닝스터디]