[[TableOfContents]] = 참여 = [이병윤], [권영기], [원준연], [이원준] = 활동개요 = * 집단지성 프로그래밍 2장: 사용자 교류 정보를 통한 학습 * 진행: [이병윤] = 내용 = {{{ 2.2 집단지성 적용을 위한 알고리즘 기초 사용자와 콘텐츠, 사용자와 사용자, 콘텐츠와 콘텐츠끼리 연결하려고함. 이를 위해서 관련성을 계산할 수 있는 언어가 필요함( 유사도 계산 알고리즘 등?) 콘텐츠 기반의 관련성 계산: 콘텐츠 내의 정보 이용 협업 기반의 관련성 계산: 사용자 교류 데이터 이용 2.2.1 사용자와 아이템 서비스는 대부분 사용자와 아이템으로 구성됨 사용자: 일반 유저들, 아이템: 영상(유튜브), 기사(뉴스사이트), 사람(페이스북) 등. *사람도 아이템이 될 수 있음 메타데이터: 속성 기반, 콘텐츠 기반, 사용자 행동 기반 속성기반: 사용자 속성- 나이 성별 주소 등 | 상품 속성 - 가격 제조업자 저자 판매 장소 생산일자 등 콘텐츠 기반: 사용자의 리뷰, 설명 등(일반적으로 비정형 자연어 데이터) 사용자 행동 기반: 구매 목록, 찜?, 투표, 추천 등 2.2.2 사용자 정보 표현 속성: 숫자형, 항목형( 서열형, 범주형) - 나이 등 등 사용자 교류 정보: 트랜잭션 이력, 방문 콘텐츠 , 피드백, 태깅 등급 등 2.2.3 콘텐츠 기반의 분석과 협업 필터링 목적: 사용자에게 다른 아이템을 추천해주기 위함임. 전자는 콘텐츠 기반, 후자는 사용자 교류 정보 기반 콘텐츠 기반: 콘텐츠의 속성을 추출해서 분석. 텀벡터등을 이용 (아이템간의 연관성은 측정할 수 있지만 가치는 측정 못함-인기 있는지, 선호하는지 등) 협업 필터링: 사용자 교류 정보 이용. 사용자들이 아이템에 등급을 매긴 패턴등을 이용. 메모리 기반: 모델 기반 https://ko.wikipedia.org/wiki/TF-IDF TF-IDF : 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나,검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다. TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다. 2.2.4 비 구조적 텍스트에서 지능형 정보 추출 Term: 단어 하나 Term vector = 각 Term 의 TF-IDF 값의 벡터 - 텍스트 분석 과정 1. 토큰화 2. 정규화 3. 불용어 제거 4. 스테밍 2.2.5 유사도 계산 2.3 사용자 교류 정보의 형태 2.4 사용자 }}} ---- [활동지도/2015], [머신러닝스터디]