[[TableOfContents]] = 참여 = [이병윤], [권영기], [원준연], [이원준] = 활동개요 = * 집단지성 프로그래밍 3장: 태그 * 진행: [원준연] = 내용 = {{{ 아이템 양 증가 -> 정적 카테고리 분류 비용이 증가 -> 사용자에게 정적 카테고리 대신 아이템에 대해 동적인 내비게이션 링크나 관련된 아이템 제공 * 정적 카테고라이징에서 나오는 비용 절감 * 사용자의 행동에 따른 방대한 정보 수집 용이 3.1 태깅: 자유로운 형태의 텍스트를 아이템에 추가하는 것 - 텀벡터에서의 차원으로서 활용 활용 * 유사도 측정 - 메타데이터 모델의 구축 * 링크 제공으로 사용자 접근을 용이하게 함 * 개인화 밑 타 사용자와 연결되는 메타데이터 사용 * 어플리케이션 내 사용되는 어휘사전 구축 * 타 사용자와 공유 가능한 아이템 북마크 3.1.1 태그는 메타데이터의 용어 데이터셋을 제공 -> 컨텐츠 기반 / 협업 기반 메타데이터 컨텐츠 기반: 아이템 그 자체의 정보 협업 기반: 사용자의 행동 기반 태그의 분류 -> 전문가 생성 태그 / 사용자 생성 태그 / 기계 생성 태그 3.1.2 전문가 생성의 경우 * 텍스트 관련된 개념 * 본문에 없을 수 있음 * UI에 보이도록 인위적 작성(?) * 컨텐츠의 흥미보다는 거시적 관점에 치중 * 동의어 사용 * phrase로 표현할 수 있음 * 내부에서 편집한 용어사전을 기준으로 사용되는 단어 결정 <- 이거 헷갈릴 수 있음 * COST가 커서 자동화를 필요로 하게 됨 3.1.3 사용자 생성의 경우 * 사용자가 느낀 바를 자유롭게 * 태깅 자체가 사용자의 흥미의 척도가 됨 * 사용자에게 친숙 * 텍스트와 관련된 개념 * 본문에 없을 수 있음 * phrase 표현 가능 * 사용자-아이템 협업 정보 제공 * 의미가 비슷한 다양한 term 포함 * 복수형을 단수형으로 맞추는 등의 정리 필요(stemming and filtering) 3.1.4 기계 생성의 경우 * 텍스트 본문에 사용된 표현 * 단일 어절 사용(추출 난이도) * 문맥에 따른 의미 변화 떄문에 노이즈태그가 발생 3.1.5 * 태그 사전을 만들어서 is-a 관계를 활용 * stemming * 노이즈 주의 * 전문가 태그만을 사용할 경우 태그의 가중치가 다른 태그의 수와 역문헌 빈도수에 영향을 받는다 -> 태그를 다양하개 쓸수록 태그의 가중치가 내려간다 * 섞어써라(...) 3.1.6 why? * 묶어 관리한다 * 묶어 기억한다 * 묶어 쓴다 * 노출도 상승 * 검색 용이 * 유사 태그 3.2 태그의 활용 * 메타데이터를 통한 관심사 분석 * 내비게이션과 검색 * Folksonomy 3.2.1 동적 내비게이션 * 태그 클라우드 3.2.2 태그 클라우드의 활용 * 본질적으로는 텀벡터의 시각화 3.2.3 타겟 검색 * PageRank vs. MyRank * 태그와 문맥과 사용자 정보를 적용하여 검색 엔진에 검색 인자로서 던져줌 3.2.4 폭소노미 * 사용자 생성 태그의 결과물 이라고 봐도 무방? * 온톨로지 참조 * 모두가 보고 느끼는 것을 말하되, 모두가 동의할 수 있는 진리여야 한다 3.3 태깅을 통한 지능 정보 추출 * item to item * user to item * item to user 3.5.2 태그 클라우드 구현 * 태그 목록과 빈도수 확보 * 최대, 최소 빈도수 확보 * 폰트 크기 * 폰트 범위 * CSS 스타일 시트로 보여주자 * 뭐야 이게.... 3.6 유사 태그 찾기 * stemming * co-occurrence }}} = 다음 활동 = * 4장, 컨텐츠에서 지능정보 추출하기 by [권영기] ---- [활동지도/2015], [머신러닝스터디]