머신러닝스터디/2015_09_30 (rev. 1.1)
- 집단지성 프로그래밍 3장: 태그
- 진행: 원준연
아이템 양 증가 -> 정적 카테고리 분류 비용이 증가 -> 사용자에게 정적 카테고리 대신 아이템에 대해 동적인 내비게이션 링크나 관련된 아이템 제공
* 정적 카테고라이징에서 나오는 비용 절감
* 사용자의 행동에 따른 방대한 정보 수집 용이
3.1
태깅: 자유로운 형태의 텍스트를 아이템에 추가하는 것 - 텀벡터에서의 차원으로서 활용
활용
* 유사도 측정 - 메타데이터 모델의 구축
* 링크 제공으로 사용자 접근을 용이하게 함
* 개인화 밑 타 사용자와 연결되는 메타데이터 사용
* 어플리케이션 내 사용되는 어휘사전 구축
* 타 사용자와 공유 가능한 아이템 북마크
3.1.1
태그는 메타데이터의 용어 데이터셋을 제공
-> 컨텐츠 기반 / 협업 기반 메타데이터
컨텐츠 기반: 아이템 그 자체의 정보
협업 기반: 사용자의 행동 기반
태그의 분류
-> 전문가 생성 태그 / 사용자 생성 태그 / 기계 생성 태그
3.1.2
전문가 생성의 경우
* 텍스트 관련된 개념
* 본문에 없을 수 있음
* UI에 보이도록 인위적 작성(?)
* 컨텐츠의 흥미보다는 거시적 관점에 치중
* 동의어 사용
* phrase로 표현할 수 있음
* 내부에서 편집한 용어사전을 기준으로 사용되는 단어 결정 <- 이거 헷갈릴 수 있음
* COST가 커서 자동화를 필요로 하게 됨
3.1.3
사용자 생성의 경우
* 사용자가 느낀 바를 자유롭게
* 태깅 자체가 사용자의 흥미의 척도가 됨
* 사용자에게 친숙
* 텍스트와 관련된 개념
* 본문에 없을 수 있음
* phrase 표현 가능
* 사용자-아이템 협업 정보 제공
* 의미가 비슷한 다양한 term 포함
* 복수형을 단수형으로 맞추는 등의 정리 필요(stemming and filtering)
3.1.4
기계 생성의 경우
* 텍스트 본문에 사용된 표현
* 단일 어절 사용(추출 난이도)
* 문맥에 따른 의미 변화 떄문에 노이즈태그가 발생
3.1.5
* 태그 사전을 만들어서 is-a 관계를 활용
* stemming
* 노이즈 주의
* 전문가 태그만을 사용할 경우 태그의 가중치가 다른 태그의 수와 역문헌 빈도수에 영향을 받는다 -> 태그를 다양하개 쓸수록 태그의 가중치가 내려간다
* 섞어써라(...)
3.1.6
why?
* 묶어 관리한다
* 묶어 기억한다
* 묶어 쓴다
* 노출도 상승
* 검색 용이
* 유사 태그
3.2
태그의 활용
* 메타데이터를 통한 관심사 분석
* 내비게이션과 검색
* Folksonomy
3.2.1
동적 내비게이션
* 태그 클라우드
3.2.2
태그 클라우드의 활용
* 본질적으로는 텀벡터의 시각화
3.2.3
타겟 검색
* PageRank vs. MyRank
* 태그와 문맥과 사용자 정보를 적용하여 검색 엔진에 검색 인자로서 던져줌
3.2.4
폭소노미
* 사용자 생성 태그의 결과물 이라고 봐도 무방?
* 온톨로지 참조
* 모두가 보고 느끼는 것을 말하되, 모두가 동의할 수 있는 진리여야 한다
3.3
태깅을 통한 지능 정보 추출
* item to item
* user to item
* item to user
3.5.2
태그 클라우드 구현
* 태그 목록과 빈도수 확보
* 최대, 최소 빈도수 확보
* 폰트 크기
* 폰트 범위
* CSS 스타일 시트로 보여주자
* 뭐야 이게....
3.6
유사 태그 찾기
* stemming
* co-occurrence
4. 다음 활동 ¶
- 4장, 컨텐츠에서 지능정보 추출하기 by 권영기