9/6 월 회의록

NLP 1~2강 실습 코드 리뷰 ⇒ 질문
- [필수1] 데이터 전처리
  1. avengers의 표제어가 avenger가 아닌 avengers로 출력되는 이유
  ⇒ 문장 tokenization은 tokenizer 규칙에 따라 결과가 다른데, nlp 패키지의 특정 규칙에 따라서 문장 내의 avengers가 명사가 아닌 -s 붙어있는 고유명사로 인식하여 표제어를 추출하여도 원래 형태를 유지함
- 1_naive_bayes
  1. likelihood 계산 시 분모에 len(self.w2i)*self.k를 더해주는 이유
  ⇒ 특정 label이 존재하지만 빈 문장인 경우 해당 label의 token 빈도수는 0이 된다. 이 때 분모가 0이 되는 zero count problem이 발생합니다. 따라서 이를 방지하기 위해 분모에 특정 값을 더해주는데 이 경우 w2i의 길이와 임의의 상수값을 곱해준 것이며, 이를 smoothing 이라고 합니다.
- Word2Vec
  1. CBoW나 SkipGram에서 처음이나 끝 단어의 경우 주변 단어가 일부 없는데 이 경우는 어떻게 작동되는지
    
    ⇒ CBoW를 예를 들면, windows=2일 경우
    - 예측 단어 위치 index=2 : 0,1,3,4 번째 token이 input으로 사용
    - 예측 단어 위치 index=0 : 1,2 번째 totken이 input으로 사용
[필수과제] Data Processing 과제 리뷰
피어세션 그라운드 룰

⇒ notion our rules 참고
다음 학습 목표
1. 논문 선택(~9/7)
2. NLP 3~4강 학습
3. [필수 과제] RNN-based Language Model 풀기