E D R , A S I H C RSS

KBJD (rev. 1.14)

KBJD



1. 개요

  • 데블스캠프2016/넷째날의 첫번째 세션 '트위터 봇 만들기' 의 연장. 원래 이때까지 하려던걸 못 끝내서 프로젝트로 선회
  • Twitter4J를 이용해 Java로 트위터 봇 만들기 프로젝트
  • KBJD는 Kawaii_Bot_to_Java_Dosue!의 약자. 뭔 소린지 모르는게 정상이니 신경 안쓰셔도 됩니다.

2. 참가자

  • 권준혁
  • 오시면 받습니다만,,, 씹덕스럽게 할거라서 + 제가 자알못이라 스파게티 뷔페를 보실수도 있습니다. 일단은 혼자

3. Big Picture

  • 웹으로 만드는 트위터 봇보다는 많은 기능을 구현하는 것이 목표
  • AWS에 올려서 잘 돌아가게 냅두는 것이 목표
  • 프밍 모르는 사람도 기본적인 건 할 수 있게 개조

4. 세부 목표

  • 멘션에 답하기 - 멘션을 자연어처리로 분석해서 알맞은 대답 하기
  • 이미지 합성해서 반환하기 - 아카리다이스키 이런거처럼
  • 트렌드 분석하기 - 트렌드 분석해서 뭔가 씨부리기

5. 관련 기술

  • 트렌드 분석하기 - 트렌드 분석해서 뭔가 씨부리기
    • 트렌드 분석을 위해 사용 가능한 유명한 머신러닝 알고리즘: LDA
    • LDA는 주어진 문서들로부터 자동으로 topic을 찾고, 해당 topic들에 속하는 단어들을 추출해냄.
    • 자세한 설명은 Latent Dirichlet Allocation으로 검색해보면 찾을 수 있긴 하지만... 이해하기는 쉽지 않을 것으로 보임.
    • http://parkcu.com/blog/latent-dirichlet-allocation/
    • 일단 주어진 파이썬 라이브러리를 사용해보고 "음... 트위터 데이터를 이렇게 긁어서 이렇게 넣어주면 트렌드 분석이 가능하겠구나..." 정도의 느낌을 잡아보면 좋을 것 같기도 하고...
      • 오오! 감사합니다. 근데 파이썬이네요,,, 어떻게 자바랑 잘 엮던가 하던가 파이썬으로 개발을 틀던가 방법을 모색해봐야겠습니다 - 권준혁
  • 자연언어 처리: 한국어
    • 원래 자연언어 처리 라이브러리로 유명한 것으로 nltk라는 것이 있음
    • 하지만 이건 영어용이라 한국어에 적용하기는 쉽지 않음
    • KoNLPygensim을 사용하는 것을 추천함
      • KoNLPy: 한국어 문장으로부터 형태소(명사, 조사, 관형사 등)를 뽑아낼 수 있음. 일반적으로 문장 분석을 위해서는 명사의 추출이 필수적이기 때문에 문장의 전처리 단계에서 많이 사용됨. 실제 nltk는 더 많은 기능들을 제공하지만... 한글용으로는 기능 지원이 미흡함.
      • gemsim-word2vec: 단어를 벡터화 하여 단어간 유사도를 비교할 수 있게 만들어줌. 또한 단어 벡터간의 연산이 가능해짐. (e.g. king - man + woman == queen)
    • https://www.lucypark.kr/courses/2015-dm/text-mining.html

6. 비고

  • 프로듀서는 어디 구단의 팬이려나? 나는 강호 캣츠야!
Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2021-02-07 05:23:35
Processing time 0.0264 sec