U E D R , A S I H C RSS

정모/2022.08.24



2. 회식

정모 전에 수요조사를 통해 회식 참여자를 모집하였습니다.

장소 : 고깃집(서울 동작구 서달로14길 46)

1차는 동아리 회비가 지원되었으며, 2차는 더치페이 합니다.

3. OMS

PSAI 미국 한 달 생존기 - 연사자: 최민준 임지민


3.1. People space 인턴 모집

  • 스타트업을 시작하기 전에 우리가 무엇을 해야하는지 배웠다고 생각함
  • 비즈니스 모델, 프로그래밍을 했음
  • 11명이서 갔고, 3팀으로 나눠 세부 주제를 다르게 진행했음
  • 어드밴스드 임플로이를 위한 이력서 제작 어시스턴트
  • nlp를 사용

3.2. natural language processing

데이터 생성, 인공지능 모델 학습이 필요

1.0.1. data 수집

resume, job description from Kaggle
annotation with Doccano (특정 단어들이 무엇을 의미하는지 모델에게 알려주는 역할)

1.1.1. Doccano

머신러닝을 위한 annotation 툴
#NER 어떤 단어를 어떤 라벨로 분류할 건지
이력서 110개, 잡 설명 160개
어노테이션을 하면 json 파일로 return됨

1.1.1. spaCy

파이썬의 자연어 처리를 위한 라이브러리
#Loss Function
Java라는 단어를 skill 라벨로 분류하고 싶을때 다른 라벨로 분류하게 된다면 이 차이가 함수값이 되는 것임
모든 단어를 벡터로 바꿔서 학습시킴
단어 사이의 연관관계를 찾기 좋음
king <-> queen, man <-> woman 같은 관계를 학습
잘못 라벨링을 했을 때 그 차이값을 함수값으로 가짐
#Optimizer
Loss가 최소가 되도록 weight, bias를 조정하는 것이 필요
Gradient Descent, 등등의 방법이 있음
#Gradient Descent
n차원 이상의 그래프에서 나타나는 기울기
최소값에 가까워 질 수록 기울기가 줄어드는 것을 이용한 optimizer 기법임
bias가 무엇인지? weight가 무엇인지?
사람의 뉴런들을 인공지능은 레이어의 셀로 이루어져 있음
우리가 수능점수를 예측하는 인공지능을 만들고자 하고, input으로 모의고사 점수를 넣는다고 가정. 근데 중요한건 3, 6월 등일 것임. 인풋을 받을 때 모든 데이터를 같은 비중을 두는 것이 아닌, 특정 중요한 데이터에게 가중치를 부여하는 것이 weight임.
bias, 활성화 함수를 예로 먼저 들어보겠음. 사람이 의사결정을 내릴때도, 임계점 기준으로 의사결정함. 컴퓨터도 이 임계점으로 의사결정함. 레이어 속에서 처리할 때 레이어에서 weight를 곱해지는 등의 작업을 하는데, 특정 데이터가 발현이 안될때, bias가 개입해서 이게 중요하니 활성화하는 등의 작업을 도와줌

#spaCy
이미 trained model이 있음
annotated data를 넣어주면 자체 model로 분석을 함 -> 답지의 역할을 하게 됨
이를 비교하면 Loss가 발생, 이를 줄이기 위해 Optimizer가 나오게 됨
gradient와 backpropagation을 통해 model에서 사용하는 w, b를 조정하게 됨
#result
#limits
annotated Data가 너무 주관적임
spaCy model의 학습과정을 알 수 없음
단어의 위치로 파악하지 않고, annotation의 빈도로 파악했었다

up to here is by. 최민준

1.2. 인턴 후기 (임지민)


기업명 : people space
캘리포니아 비영리 단체로, 일주일 3~4번 출근
Discussion으로 토론을 통해 영어로 의견을 표현하는 법을 배웠음
비즈니스 파트 : 비즈니스 모델 분석 > 페르소나 작성
기술 파트 : Docker > wordpress 설치 > 와이어 프레임 작성 > 데이터셋 라벨링, spacy를 통해 NLP 모델구현
비즈니스 파트 : 홍보영상 제작

약 한 달 진행

프로젝트 테마 : 이력서
ai resume writer

한 달 과정을 보고서로 작성해서 제출하게 됨
작성했던 페르소나들, 프로우차트 등을 추가해서 넣게 됨
기술만 생각하는 것이 아니라 어떤 타겟층을 계산해야 하는지에 대해서도 고안해볼 수 있는 기회였다고 생각함

와이어프레임
ai resume writer
사람의 인적사항을 받고, 어떤 직업을 구하고 싶은지를 작성하면 매칭률, 어떤 부분이 필요한지에 대해서 알려주는것이 wireframe

일만 하고 싶은거라면 해외까지 갈 필요는 없음
일과 미국여행을 둘 다 즐기고 싶을 때 추천함
현지 문화도 같이 경험해볼 수 있는 프로그램 구성
한 달 기간동안 다른 사람들의 마인드, 문화, 언어 등을 새로이 접해 볼 수 있는 기회였음
다양한 오픈소스 프레임들을 사용해봤는데, 새롭게 접하는 것, 익숫ㄱ치 않은 것을 활용하는 법을 배워왔음
작업하는게 이걸 해야된다기 보단 하지 말아야 할 것들을 주로 알려줌
방임으로 보일 만큼의 자유로운 환경이었다


1.3. QnA

인턴십이면 돈도 받는 것인가?
- 다소원에서 지원금을 주기는 하는데, 여기는 돈을 줘서 교육을 받음
인턴쉽이라기 보다는 단기 연수 프로그램이라고 생각하는게 더 나을듯
학교에서 경비가 부담되다보니 주는 지원금일 뿐임
프론트도 원래는 Vue로 했다했는데, 두달 기간이 아니라 한달로 줄어들고 프로젝트가 간단하게 바뀌었음
활동할 수 있는게 줄긴 했으니 다음붜는 이 점 고려해볼것

annotation을 11명이서 했다고 했는데?
- 원래는 3, 4, 4명 팀으로 따로 annotation 하다가, 그정도 데이터로는 학습이 안되겠다 싶어서 11명 전부 했음

중앙대만 가는가?
- 원래는 다른 학교도 오는데 이번에는 우리 학교만 했다
이번에 지원하는 학생 학년이 낮다보니 깊게 안들어갔고, 고학년이거나 더 깊은 작업을 원하면 말하라고 하라고 했음

it, ai 등 종류가 있던데 이건 선택한건가?
- ps가 ai 주제로 섭외한 것이기 때문에 그거로 선택해야 했던 것임
원래는 ai에 관심이 없었는데, 가서 해보니까 흥미가 생기긴 했음. 근데 왜 학교들이 ai를 위한 데이터를 만드는데 알바를 만드는지 왜그런지 알게 된 계기가 되기도 했음

원래 있던것이 kaggle이 데이터가 안좋았는가?
- 어노테이션이 된 방식이 원하는 방식이 아니어서 raw data를 뽑아서 직접 annotation 했음
kaggle에 있다고 해도 문장 단위로 있음. 이걸 학습시키기 위해선 단어 단위로 해야하다보니 우리가 따로 검수하는게 더 좋았음

Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2022-09-24 00:59:19
Processing time 0.0252 sec