16:00~18:00 Peer Session

창용: 로버타 라지 3에폭 이후 약간 오버피팅

UNK 토큰을 전부지우면 안될것 같다. 노이지 형태로 좀 남겨둬야 할것같다.
엔티티 위치 바꿈으로써 어그멘테이션 시도.
마이크로 f1로스로 로스를 바꾸고 진행해야 할것 같다.
독일어에서 unk나온거는 그냥 삭제해도 상관 없을것 같다.

상하: 전처리 안한게 성능이 좋았다. 특수문자 그대로 사용한게 성능이 더 좋았다.

전처리에 엔티티 마커, 타입 엔티티 넣고 돌렸으나 큰 차이는 없었다.

기성: 엔티티에 한자가 전처리후에 사라져서 성능이 나쁜듯 하다.

중복되는 데이터 삭제
내용및 엔티티가 같은데 라벨이 다른것에 대한 삭제
기존의 전처리 부분은 삭제해야 할것같다.
메켑 사용해서 기본 형태소 분리후 모델 돌리면 unknown 이 줄어들지 않을까 싶다.

klue/roberta로 모델 통일하는게 좋을것 같다.

klue/roberta-small 로 테스트를 하는게 좋겠다.

오늘의 정보 공유