16:00~17:00 Peer Session
- 여러 언어를 지원하지 않는 tokenizer의 경우 한자를 [UNK] 토큰으로 만듦.
- multilingual model(xlm-roberta, multilingual-bert) 사용시 UNK 토큰 수가 줄어들 것
- pytorch training 방식? Trainer 사용?
- Text data augmentation 관련 (자료는 아래 정보 공유 참고)
- 대분류(3개)로 먼저 분류한 후 하위 라벨로 분류하는 파이프라인 제안
오늘의 정보 공유
To-Do list
- tokenizer
- klue/roberta(창용님), xlm-roberta(예빈님), koeletra(상하님), bert-multi(유석님)
-
- vocab 사이즈랑 언어구성
-
- 토크나이징 결과 + [UNK]
- 3-1. special token [Entity] 추가
- 3-2. 음절 단위 tokenizing 시도
- 전처리: 범진님, 기성님
- 특수기호 통일
- 범진님 - EDA 통합해서 올리기
- Trainer : 명철님
멘토링 후 모델 돌려보기로 한 것
- AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru
- unitary/multilingual-toxic-xlm-roberta
- xlm-roberta-large