16:00~18:00 Peer Session
전체적인 회의 방향
- 각자의 코드를 병합하는 과정
- dev Branch 에서 병합하고 각자의 실험 환경을 통합
- 상하님, 유석님 코드는 각자 병합하고 Pull Request 진행하기
- 창용님은 팀 학습 환경에 알맞는 Custom Trainer 제작 및 테스트해서 병합 진행하기
- 예빈님의 아이디어로 action을 이용해서 여러 flag argument를 전달
- 전처리
- 범진님 : UNK를 없애는 방향으로 전처리 전달
- 기성님 : Mecab을 활용해서 문장의 구조를 적절하게 변형
실험 및 가설 검증
- 유석님의 K-Fold Validation 방법을 이용해서 성능을 향상된 것을 실험을 통해서 검증
- 유석님의 Typed Entity Marker(Punct)을 활용해서 성능이 향상된 것을 실험을 통해서 검증
- 실험 환경 : PER은 인물, ORG는 기관, LOC는 위치 등으로 한글로 변형해서 넘김
- 기성님 아이디어 : 기관, 위치가 아닌 PER, ORG, LOC 등으로 한글이 아닌 영어 토큰을 넘겨준다.
과제
- Trainer를 Custom으로 상속함으로써 여러 Loss Function을 사용해보기 - 유석님 진행
- 실험의 방향을 설정
- 어떠한 전처리가 성능을 높이는지 체크하기
- Base
- 기성님 전처리 방식
- 범진님 전처리 방식
- Type Entity Marker 영어, 한국어 방식 비교
- Data Augmentation 알아보기 - 창용님이 진행
- 우리 Data로 Pretraining(MLM) 알아보기 - 예빈님이 진행
오피스 아워 정리 (창용님 제공)
- [테스트 중]
- 언어모델 - klue-roberta / mbert / kobert / kogpt2 / kobart / koelectra
- Entity position embedding
- [앞으로 해볼 것]
- additional output layer
- language model domain adaptation
- validation은 downstram task로
- data augmentation
- AEDA, backtranslation
- entity list를 생성 후 random하게 섞는 방법