• NLP 1~2강 실습 코드 리뷰 ⇒ 질문

    • [필수1] 데이터 전처리

      1. avengers의 표제어가 avenger가 아닌 avengers로 출력되는 이유

      ⇒ 문장 tokenization은 tokenizer 규칙에 따라 결과가 다른데, nlp 패키지의 특정 규칙에 따라서 문장 내의 avengers가 명사가 아닌 -s 붙어있는 고유명사로 인식하여 표제어를 추출하여도 원래 형태를 유지함

      Untitled

    • 1_naive_bayes

      1. likelihood 계산 시 분모에 len(self.w2i)*self.k를 더해주는 이유

      Untitled

      ⇒ 특정 label이 존재하지만 빈 문장인 경우 해당 label의 token 빈도수는 0이 된다. 이 때 분모가 0이 되는 zero count problem이 발생합니다. 따라서 이를 방지하기 위해 분모에 특정 값을 더해주는데 이 경우 w2i의 길이와 임의의 상수값을 곱해준 것이며, 이를 smoothing 이라고 합니다.

    • Word2Vec

      1. CBoW나 SkipGram에서 처음이나 끝 단어의 경우 주변 단어가 일부 없는데 이 경우는 어떻게 작동되는지

        ⇒ CBoW를 예를 들면, windows=2일 경우

        • 예측 단어 위치 index=2 : 0,1,3,4 번째 token이 input으로 사용
        • 예측 단어 위치 index=0 : 1,2 번째 totken이 input으로 사용
  • [필수과제] Data Processing 과제 리뷰

  • 피어세션 그라운드 룰

    ⇒ notion our rules 참고

  • 다음 학습 목표

    1. 논문 선택(~9/7)
    2. NLP 3~4강 학습
    3. [필수 과제] RNN-based Language Model 풀기