U E D R , A S I H C RSS

머신러닝스터디/2015_09_30


2. 활동개요

  • 집단지성 프로그래밍 3장: 태그
  • 진행: 원준연

3. 내용

아이템 양 증가 -> 정적 카테고리 분류 비용이 증가 -> 사용자에게 정적 카테고리 대신 아이템에 대해 동적인 내비게이션 링크나 관련된 아이템 제공
 * 정적 카테고라이징에서 나오는 비용 절감
 * 사용자의 행동에 따른 방대한 정보 수집 용이

3.1
 태깅: 자유로운 형태의 텍스트를 아이템에 추가하는 것 - 텀벡터에서의 차원으로서 활용
  활용
   * 유사도 측정 - 메타데이터 모델의 구축
   * 링크 제공으로 사용자 접근을 용이하게 함
   * 개인화 밑 타 사용자와 연결되는 메타데이터 사용
   * 어플리케이션 내 사용되는 어휘사전 구축
   * 타 사용자와 공유 가능한 아이템 북마크

3.1.1
 태그는 메타데이터의 용어 데이터셋을 제공
  -> 컨텐츠 기반 / 협업 기반 메타데이터
   컨텐츠 기반: 아이템 그 자체의 정보
   협업 기반: 사용자의 행동 기반

  태그의 분류
   -> 전문가 생성 태그 / 사용자 생성 태그 / 기계 생성 태그

3.1.2
    전문가 생성의 경우
     * 텍스트 관련된 개념
     * 본문에 없을 수 있음
     * UI에 보이도록 인위적 작성(?)
     * 컨텐츠의 흥미보다는 거시적 관점에 치중
     * 동의어 사용
     * phrase로 표현할 수 있음
     * 내부에서 편집한 용어사전을 기준으로 사용되는 단어 결정 <- 이거 헷갈릴 수 있음

     * COST가 커서 자동화를 필요로 하게 됨

3.1.3
    사용자 생성의 경우
     * 사용자가 느낀 바를 자유롭게
     * 태깅 자체가 사용자의 흥미의 척도가 됨
     
     * 사용자에게 친숙
     * 텍스트와 관련된 개념
     * 본문에 없을 수 있음
     * phrase 표현 가능
     * 사용자-아이템 협업 정보 제공
     * 의미가 비슷한 다양한 term 포함

     * 복수형을 단수형으로 맞추는 등의 정리 필요(stemming and filtering)
3.1.4
    기계 생성의 경우
     * 텍스트 본문에 사용된 표현
     * 단일 어절 사용(추출 난이도)
     * 문맥에 따른 의미 변화 떄문에 노이즈태그가 발생

3.1.5
 * 태그 사전을 만들어서 is-a 관계를 활용
 * stemming
 * 노이즈 주의
 * 전문가 태그만을 사용할 경우 태그의 가중치가 다른 태그의 수와 역문헌 빈도수에 영향을 받는다 -> 태그를 다양하개 쓸수록 태그의 가중치가 내려간다
 * 섞어써라(...)

3.1.6
 why?
  * 묶어 관리한다
  * 묶어 기억한다
  * 묶어 쓴다
  
  * 노출도 상승
  * 검색 용이
  * 유사 태그

3.2
 태그의 활용
  * 메타데이터를 통한 관심사 분석
  * 내비게이션과 검색
  * Folksonomy

 3.2.1
  동적 내비게이션
   * 태그 클라우드
 3.2.2
  태그 클라우드의 활용
   * 본질적으로는 텀벡터의 시각화

 3.2.3
  타겟 검색
   * PageRank vs. MyRank
   * 태그와 문맥과 사용자 정보를 적용하여 검색 엔진에 검색 인자로서 던져줌

 3.2.4
  폭소노미
   * 사용자 생성 태그의 결과물 이라고 봐도 무방?
   * 온톨로지 참조
    * 모두가 보고 느끼는 것을 말하되, 모두가 동의할 수 있는 진리여야 한다

 3.3
  태깅을 통한 지능 정보 추출
   * item to item
   * user to item
   * item to user

 3.5.2
  태그 클라우드 구현
   * 태그 목록과 빈도수 확보
   * 최대, 최소 빈도수 확보
   * 폰트 크기
   * 폰트 범위
   * CSS 스타일 시트로 보여주자

   * 뭐야 이게....

  3.6
   유사 태그 찾기
    * stemming
    * co-occurrence

4. 다음 활동

  • 4장, 컨텐츠에서 지능정보 추출하기 by 권영기

Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2015-09-30 05:27:46
Processing time 10.0631 sec