- 데블스캠프2016/넷째날의 첫번째 세션 '트위터 봇 만들기' 의 연장. 원래 이때까지 하려던걸 못 끝내서 프로젝트로 선회
- Twitter4J를 이용해 Java로 트위터 봇 만들기 프로젝트
- KBJD는 Kawaii_Bot_to_Java_Dosue!의 약자. 뭔 소린지 모르는게 정상이니 신경 안쓰셔도 됩니다.
- 권준혁
- 오시면 받습니다만,,, 씹덕스럽게 할거라서 + 제가 자알못이라 스파게티 뷔페를 보실수도 있습니다. 일단은 혼자
3. Big Picture ¶
- 웹으로 만드는 트위터 봇보다는 많은 기능을 구현하는 것이 목표
- AWS에 올려서 잘 돌아가게 냅두는 것이 목표
- 프밍 모르는 사람도 기본적인 건 할 수 있게 개조
4. 세부 목표 ¶
- 멘션에 답하기 - 멘션을 자연어처리로 분석해서 알맞은 대답 하기
- 이미지 합성해서 반환하기 - 아카리다이스키 이런거처럼
- 트렌드 분석하기 - 트렌드 분석해서 뭔가 씨부리기
5. 관련 기술 ¶
- 트렌드 분석하기 - 트렌드 분석해서 뭔가 씨부리기
- 트렌드 분석을 위해 사용 가능한 유명한 머신러닝 알고리즘: LDA
- LDA는 주어진 문서들로부터 자동으로 topic을 찾고, 해당 topic들에 속하는 단어들을 추출해냄.
- 자세한 설명은 Latent Dirichlet Allocation으로 검색해보면 찾을 수 있긴 하지만... 이해하기는 쉽지 않을 것으로 보임.
- http://parkcu.com/blog/latent-dirichlet-allocation/
- 일단 주어진 파이썬 라이브러리를 사용해보고 "음... 트위터 데이터를 이렇게 긁어서 이렇게 넣어주면 트렌드 분석이 가능하겠구나..." 정도의 느낌을 잡아보면 좋을 것 같기도 하고...
- 오오! 감사합니다. 근데 파이썬이네요,,, 어떻게 자바랑 잘 엮던가 하던가 파이썬으로 개발을 틀던가 방법을 모색해봐야겠습니다 - 권준혁
- 자연언어 처리: 한국어
- 원래 자연언어 처리 라이브러리로 유명한 것으로 nltk라는 것이 있음
- 하지만 이건 영어용이라 한국어에 적용하기는 쉽지 않음
- KoNLPy와 gensim을 사용하는 것을 추천함
- KoNLPy: 한국어 문장으로부터 형태소(명사, 조사, 관형사 등)를 뽑아낼 수 있음. 일반적으로 문장 분석을 위해서는 명사의 추출이 필수적이기 때문에 문장의 전처리 단계에서 많이 사용됨. 실제 nltk는 더 많은 기능들을 제공하지만... 한글용으로는 기능 지원이 미흡함.
- gemsim-word2vec: 단어를 벡터화 하여 단어간 유사도를 비교할 수 있게 만들어줌. 또한 단어 벡터간의 연산이 가능해짐. (e.g. king - man + woman == queen)
- https://www.lucypark.kr/courses/2015-dm/text-mining.html
- 헉 자세한 정보 감사합니다 위키페어리가 또,,,!(감격) 살짝 읽어봤는데 확실히 내용이 가볍게 이해될거 같진 않네요,,, 말해주신대로 일단 사용하면서 감을 잡아봐야겠습니다.
- 프로듀서는 어디 구단의 팬이려나? 나는 강호 캣츠야!
8. 그래서 무슨 문제를 알았냐 ¶
- 트위터 계정을 새로 만들어서 테스트 하려 했지만 자꾸 트위터에서 스팸계정으로 판단해서 블락을 걸어버림.
- 이 경우 아에 알림창에도 안뜨는걸 발견. 어떤 상황에서 자꾸 일어나는지 찾아봐야 될 거 같음
- 1시간 간격으로 날리는 트윗이 오작동함. 고쳐야함
- 깃허브에 토큰을 올리지 맙시다 깃허브 레포를 날렸습니다. 알려주신 민관선배 감사,,,
- 내가 살아서 돌아가면 나랑 공부하면서 이거나 하자 - 서민관