16:00~17:00 Peer Session

여러 언어를 지원하지 않는 tokenizer의 경우 한자를 [UNK] 토큰으로 만듦.
- multilingual model(xlm-roberta, multilingual-bert) 사용시 UNK 토큰 수가 줄어들 것
pytorch training 방식? Trainer 사용?
- Trainer 사용으로 결론
Text data augmentation 관련 (자료는 아래 정보 공유 참고)
- 번역시 entity도 바뀔 가능성 多
대분류(3개)로 먼저 분류한 후 하위 라벨로 분류하는 파이프라인 제안

오늘의 정보 공유

Back Translation
- 파파고 API 사용: https://developers.naver.com/docs/papago/papago-nmt-example-code.md#python
- 파파고 크롤링(크롤링 과정에서 한자가 문제 되는 경우가 있어 pororo도 사용): https://dacon.io/competitions/official/235747/codeshare/3054?page=1&dtype=recent
- 1기분들의 결과(?): https://github.com/bcaitech1/p3-mrc-team-ikyo/wiki/Back_Translation

To-Do list

tokenizer
klue/roberta(창용님), xlm-roberta(예빈님), koeletra(상하님), bert-multi(유석님)
- 1. vocab 사이즈랑 언어구성
- 1. 토크나이징 결과 + [UNK]
- 3-1. special token [Entity] 추가
- 3-2. 음절 단위 tokenizing 시도
전처리: 범진님, 기성님
- 특수기호 통일
- 범진님 - EDA 통합해서 올리기
Trainer : 명철님

멘토링 후 모델 돌려보기로 한 것

AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru
unitary/multilingual-toxic-xlm-roberta
xlm-roberta-large