9/28 (화) 피어세션 정리

TO-DO

DAYCON base line 확인
- 전처리 필요 (뉴스 관련된 전처리 - 이메일 제거, 참조문구제거 등)
- 모델
  - 인코더: 임베딩 layer + 3중 LSTM
  - 디코더: 임베딩 layer + 단일 LSTM
    - input으로 attention output concat한 것을 사용
- pytorch - hugging face 기반으로 다시 짜기
스페셜미션 1
- 참고할만한 블로그 : https://gocoding.tistory.com/93
실습 - 챗봇구현
- QA pair 데이터 셋에서 가장 유사한 Question을 찾고, 그 Question에 맞는 Answer를 답으로 출력
- get_cls_token(text)
  - CLS 토큰을 활용해 task를 수행하기 때문에 활용도가 높을 것
- Chatbot QA data
  - 하나의 질문에 모든 쿼리와 유사도를 비교해야 되기 때문에 굉장히 오래 걸린다. (약 30분) → 서비스하기는 불가능
    - 모든 Question의 임베딩 벡터를 미리 저장해두면 시간 Save 가능 → 비교는 약 1초정도 소요
  - 답변도 애매
  - argsort를 이용해 top-5 확인
    - 후보들이 사람이 보기에는 유사도가 매우 적음
    - 유사도 기반 챗봇은 사용할 이유가 없음
    - 추가적으로 라벨을 주면 성능이 개선될 여지가 있어 보임
대회코드 실험 결과 공유
- 로스 조합하는 법 - 경현님꺼 git branch 참조
- Custom Loss 활용
  - Trainer class 상속받아서, compute_loss 정의