NLP 1~2강 실습 코드 리뷰 ⇒ 질문
[필수1] 데이터 전처리
⇒ 문장 tokenization은 tokenizer 규칙에 따라 결과가 다른데, nlp 패키지의 특정 규칙에 따라서 문장 내의 avengers가 명사가 아닌 -s 붙어있는 고유명사로 인식하여 표제어를 추출하여도 원래 형태를 유지함
1_naive_bayes
⇒ 특정 label이 존재하지만 빈 문장인 경우 해당 label의 token 빈도수는 0이 된다. 이 때 분모가 0이 되는 zero count problem이 발생합니다. 따라서 이를 방지하기 위해 분모에 특정 값을 더해주는데 이 경우 w2i의 길이와 임의의 상수값을 곱해준 것이며, 이를 smoothing 이라고 합니다.
Word2Vec
CBoW나 SkipGram에서 처음이나 끝 단어의 경우 주변 단어가 일부 없는데 이 경우는 어떻게 작동되는지
⇒ CBoW를 예를 들면, windows=2일 경우
[필수과제] Data Processing 과제 리뷰
피어세션 그라운드 룰
⇒ notion our rules 참고
다음 학습 목표