== == OMS == * [이병윤] 학우의 '''질의 응답 시스템''' * SW Maestro 프로젝트 * Question Answering * 난 질문할테니 너는 답을 내놔라 * 심심이, 에밀리(신의탑) * 동기 * "서울에서 가장 높은 산은?"은 네이버에서 답을 알려주지는 않는다. * 답을 바로 알려주는 뭔가를 만들자! * 어떻게 답을 찾아낼까? 1. 많은 검색 결과에는 답을 포함하고 있다. * 여러 자료를 모아서 가장 많이 나오는 단어를 찾아낸다. * But, 가장 많은 단어 'ㅋ' * 다음으로 은, 는, 이, 가 2. 형태소를 분석하자 * 각각 요소들이 어떤 형태를 가지고 있는지 분석 * 명사, 동사, 형용사 ... 등등등 * 테스트 결과 * 북한산 20 / 도봉산 17 / 청계산 ... * 그래서! 그런 답에 가까운 답을 돌려주었다. * 데모를 하려고 준비하려고 했는데 * 형태소 분석기가 되지 않아 보여주지는 못함 * 발표가 끝났다. * 안녕 * 목표 * 단답형으로 답으로 나올 수 있는 질문이다. * 상위 5개에서 정확한 답이 있을 확률은 약 70%정도 * 기능셋 * Crawling * Information Retrieve * NLP * Indexing * Etc... * 목적 * 검색엔진이 발전하고 (구글, 네이버, 등에서는 데이터 센터도 짓고)해서 많은 자료들 중에서 * 사용자들이 원하는 정보를 찾기는 쉽지가 않다. * 그래서 이 프로젝트에서는 데이터를 가공하여 사람들이 실제로 원하는 정보를 사용자에게 전달하자. * Q. [질문을 놓쳤습니다] * A. 6천만건 정도의 문서를 크롤링하여 데이터를 직접 가지고 있었다. * Q. 답을 내는데 어느정도 시간이 걸렸나? * A. 질문하나에 대해서 데이터를 찾아내는 시간은 3초정도? * Q. 데이터 관리는 어떻게 하고 있었나? * A. 블로그 데이터를 중점적으로 크롤링하였는데, 일단 DB에 데이터를 넣었다. 그 정보를 다시 루씬을 이용하여 인덱싱/검색을 통해 데이터를 찾아내었다. * Q. DB는 RDBMS? * A. ㅇㅇ RDBMS썼다. == 예정 == * OMS: [이병윤] 학우 * ZeroPager여러분 모두 [OMS] 페이지에 추후 발표 주제를 적어주세요. * 안내 * 독서대 나눔 * [위시리스트] * 회원 활동 조사 * HDMI 케이블 구매 * 공대 해오름제 부스 - 일정? * Devils Camp - [데블스캠프/2013/조언] : All the thing you needed is included. * ZeroPage 그룹 * TOPCIP 안내 * 진행 사항 공유 * 스터디 및 프로젝트 ([활동지도/2014]) ---- [정모], [활동지도/2014]