2.2 집단지성 적용을 위한 알고리즘 기초
사용자와 콘텐츠, 사용자와 사용자, 콘텐츠와 콘텐츠끼리 연결하려고함.
이를 위해서 관련성을 계산할 수 있는 언어가 필요함( 유사도 계산 알고리즘 등?)
콘텐츠 기반의 관련성 계산: 콘텐츠 내의 정보 이용
협업 기반의 관련성 계산: 사용자 교류 데이터 이용
2.2.1 사용자와 아이템
서비스는 대부분 사용자와 아이템으로 구성됨
사용자: 일반 유저들,
아이템: 영상(유튜브), 기사(뉴스사이트), 사람(페이스북) 등. *사람도 아이템이 될 수 있음
메타데이터: 속성 기반, 콘텐츠 기반, 사용자 행동 기반
속성기반: 사용자 속성- 나이 성별 주소 등 | 상품 속성 - 가격 제조업자 저자 판매 장소 생산일자 등
콘텐츠 기반: 사용자의 리뷰, 설명 등(일반적으로 비정형 자연어 데이터)
사용자 행동 기반: 구매 목록, 찜?, 투표, 추천 등
2.2.2 사용자 정보 표현
속성: 숫자형, 항목형( 서열형, 범주형) - 나이 등 등
사용자 교류 정보: 트랜잭션 이력, 방문 콘텐츠 , 피드백, 태깅 등급 등
2.2.3 콘텐츠 기반의 분석과 협업 필터링
목적: 사용자에게 다른 아이템을 추천해주기 위함임. 전자는 콘텐츠 기반, 후자는 사용자 교류 정보 기반
콘텐츠 기반: 콘텐츠의 속성을 추출해서 분석. 텀벡터등을 이용
(아이템간의 연관성은 측정할 수 있지만 가치는 측정 못함-인기 있는지, 선호하는지 등)
협업 필터링: 사용자 교류 정보 이용. 사용자들이 아이템에 등급을 매긴 패턴등을 이용.
메모리 기반:
모델 기반
https://ko.wikipedia.org/wiki/TF-IDF
TF-IDF :
정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나,검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다.
TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다.
IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다.
2.2.4 비 구조적 텍스트에서 지능형 정보 추출
Term: 단어 하나
Term vector = 각 Term 의 TF-IDF 값의 벡터
- 텍스트 분석 과정
1. 토큰화
2. 정규화
3. 불용어 제거
4. 스테밍
2.2.5 유사도 계산
2.3 사용자 교류 정보의 형태
2.4 사용자