U E D R , A S I H C RSS

머신러닝스터디/2015_09_23


2. 활동개요

  • 집단지성 프로그래밍 2장: 사용자 교류 정보를 통한 학습
  • 진행: 이병윤

3. 내용

2.2 집단지성 적용을 위한 알고리즘 기초

 사용자와 콘텐츠, 사용자와 사용자, 콘텐츠와 콘텐츠끼리 연결하려고함. 
이를 위해서 관련성을 계산할 수 있는 언어가 필요함( 유사도 계산 알고리즘 등?)

콘텐츠 기반의 관련성 계산: 콘텐츠 내의 정보 이용
협업 기반의 관련성 계산: 사용자 교류 데이터 이용




2.2.1 사용자와 아이템
서비스는 대부분 사용자와 아이템으로 구성됨
사용자: 일반 유저들,
아이템: 영상(유튜브), 기사(뉴스사이트), 사람(페이스북) 등.   *사람도 아이템이 될 수 있음

메타데이터: 속성 기반, 콘텐츠 기반, 사용자 행동 기반
속성기반: 사용자 속성- 나이 성별 주소 등 | 상품 속성 - 가격 제조업자 저자 판매 장소 생산일자 등

콘텐츠 기반: 사용자의 리뷰, 설명 등(일반적으로 비정형 자연어 데이터)

사용자 행동 기반: 구매 목록, 찜?, 투표, 추천 등


2.2.2 사용자 정보 표현

속성: 숫자형, 항목형( 서열형, 범주형) - 나이 등 등
사용자 교류 정보: 트랜잭션 이력, 방문 콘텐츠 , 피드백, 태깅 등급 등




2.2.3 콘텐츠 기반의 분석과 협업 필터링
목적: 사용자에게 다른 아이템을 추천해주기 위함임. 전자는 콘텐츠 기반, 후자는 사용자 교류 정보 기반

콘텐츠 기반: 콘텐츠의 속성을 추출해서 분석.  텀벡터등을 이용
(아이템간의 연관성은 측정할 수 있지만 가치는 측정 못함-인기 있는지, 선호하는지 등)

협업 필터링: 사용자 교류 정보 이용. 사용자들이 아이템에 등급을 매긴 패턴등을 이용.
	메모리 기반: 
	모델 기반


https://ko.wikipedia.org/wiki/TF-IDF
TF-IDF : 
정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나,검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다.
TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다.
IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다.


2.2.4 비 구조적 텍스트에서 지능형 정보 추출
Term: 단어 하나
Term vector  = 각 Term 의 TF-IDF 값의 벡터

	- 텍스트 분석 과정
1. 토큰화
2. 정규화
3. 불용어 제거
4. 스테밍

2.2.5 유사도 계산


2.3 사용자 교류 정보의 형태



2.4 사용자 
Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2021-02-07 05:29:26
Processing time 0.0328 sec