16:00~18:00 Peer Session

전체적인 회의 방향

각자의 코드를 병합하는 과정
dev Branch 에서 병합하고 각자의 실험 환경을 통합
1. 상하님, 유석님 코드는 각자 병합하고 Pull Request 진행하기
2. 창용님은 팀 학습 환경에 알맞는 Custom Trainer 제작 및 테스트해서 병합 진행하기
3. 예빈님의 아이디어로 action을 이용해서 여러 flag argument를 전달
전처리
1. 범진님 : UNK를 없애는 방향으로 전처리 전달
2. 기성님 : Mecab을 활용해서 문장의 구조를 적절하게 변형

실험 및 가설 검증

유석님의 K-Fold Validation 방법을 이용해서 성능을 향상된 것을 실험을 통해서 검증
유석님의 Typed Entity Marker(Punct)을 활용해서 성능이 향상된 것을 실험을 통해서 검증
1. 실험 환경 : PER은 인물, ORG는 기관, LOC는 위치 등으로 한글로 변형해서 넘김
2. 기성님 아이디어 : 기관, 위치가 아닌 PER, ORG, LOC 등으로 한글이 아닌 영어 토큰을 넘겨준다.

과제

Trainer를 Custom으로 상속함으로써 여러 Loss Function을 사용해보기 - 유석님 진행
실험의 방향을 설정
1. 어떠한 전처리가 성능을 높이는지 체크하기
  1. Base
  2. 기성님 전처리 방식
  3. 범진님 전처리 방식
  4. Type Entity Marker 영어, 한국어 방식 비교
2. Data Augmentation 알아보기 - 창용님이 진행
3. 우리 Data로 Pretraining(MLM) 알아보기 - 예빈님이 진행

오피스 아워 정리 (창용님 제공)

[테스트 중]

언어모델 - klue-roberta / mbert / kobert / kogpt2 / kobart / koelectra
Entity position embedding

[앞으로 해볼 것]

additional output layer
language model domain adaptation
validation은 downstram task로
data augmentation
AEDA, backtranslation
entity list를 생성 후 random하게 섞는 방법