KBJD

1. 개요
2. 참가자
3. Big Picture
4. 세부 목표
5. 관련 기술
6. 비고

[edit]

1. 개요 ¶

데블스캠프2016/넷째날의 첫번째 세션 '트위터 봇 만들기' 의 연장. 원래 이때까지 하려던걸 못 끝내서 프로젝트로 선회
Twitter4J를 이용해 Java로 트위터 봇 만들기 프로젝트
KBJD는 Kawaii_Bot_to_Java_Dosue!의 약자. 뭔 소린지 모르는게 정상이니 신경 안쓰셔도 됩니다.

[edit]

2. 참가자 ¶

권준혁
오시면 받습니다만,,, 씹덕스럽게 할거라서 + 제가 자알못이라 스파게티 뷔페를 보실수도 있습니다. 일단은 혼자

[edit]

3. Big Picture ¶

웹으로 만드는 트위터 봇보다는 많은 기능을 구현하는 것이 목표
AWS에 올려서 잘 돌아가게 냅두는 것이 목표
프밍 모르는 사람도 기본적인 건 할 수 있게 개조

[edit]

4. 세부 목표 ¶

멘션에 답하기 - 멘션을 자연어처리로 분석해서 알맞은 대답 하기
이미지 합성해서 반환하기 - 아카리다이스키　이런거처럼
트렌드 분석하기 - 트렌드 분석해서 뭔가 씨부리기

[edit]

5. 관련 기술 ¶

트렌드 분석하기 - 트렌드 분석해서 뭔가 씨부리기
- 트렌드 분석을 위해 사용 가능한 유명한 머신러닝 알고리즘: LDA
- LDA는 주어진 문서들로부터 자동으로 topic을 찾고, 해당 topic들에 속하는 단어들을 추출해냄.
- 자세한 설명은 Latent Dirichlet Allocation으로 검색해보면 찾을 수 있긴 하지만... 이해하기는 쉽지 않을 것으로 보임.
- http://parkcu.com/blog/latent-dirichlet-allocation/
- 일단 주어진 파이썬 라이브러리를 사용해보고 "음... 트위터 데이터를 이렇게 긁어서 이렇게 넣어주면 트렌드 분석이 가능하겠구나..." 정도의 느낌을 잡아보면 좋을 것 같기도 하고...
  - 오오! 감사합니다. 근데 파이썬이네요,,, 어떻게 자바랑 잘 엮던가 하던가 파이썬으로 개발을 틀던가 방법을 모색해봐야겠습니다 - 권준혁
자연언어 처리: 한국어
- 원래 자연언어 처리 라이브러리로 유명한 것으로 nltk라는 것이 있음
- 하지만 이건 영어용이라 한국어에 적용하기는 쉽지 않음
- KoNLPy와 gensim을 사용하는 것을 추천함
  - KoNLPy: 한국어 문장으로부터 형태소(명사, 조사, 관형사 등)를 뽑아낼 수 있음. 일반적으로 문장 분석을 위해서는 명사의 추출이 필수적이기 때문에 문장의 전처리 단계에서 많이 사용됨. 실제 nltk는 더 많은 기능들을 제공하지만... 한글용으로는 기능 지원이 미흡함.
  - gemsim-word2vec: 단어를 벡터화 하여 단어간 유사도를 비교할 수 있게 만들어줌. 또한 단어 벡터간의 연산이 가능해짐. (e.g. king - man + woman == queen)
- https://www.lucypark.kr/courses/2015-dm/text-mining.html

[edit]

6. 비고 ¶

프로듀서는 어디 구단의 팬이려나? 나는 강호 캣츠야!

KBJD (rev. 1.14)

Contents

1. 개요 ¶

2. 참가자 ¶

3. Big Picture ¶

4. 세부 목표 ¶

5. 관련 기술 ¶

6. 비고 ¶