bert-ko-pretrained
한국어 텍스트로 사전학습된 BERT (Masked Language Model) 입니다.
모델 정보
| 항목 | 값 |
|---|---|
| Architecture | BertForMaskedLM |
| Hidden Size | 256 |
| Layers | 4 |
| Attention Heads | 4 |
| Intermediate Size | 1024 |
| Vocab Size | 32,000 |
| Max Length | 256 tokens |
| Parameters | 11,515,904 |
| Total Steps | 50,000 |
사전학습 성능 (MLM)
| Split | Loss | Perplexity |
|---|---|---|
| Eval | 3.6679 | 39.17 |
학습 코퍼스
| 코퍼스 | 크기 | 설명 |
|---|---|---|
| injection_corpus.txt | 65MB | 프롬프트 인젝션 데이터 |
| external_all.txt | 9.6MB | KoSBi v2 + K-MHaS + BEEP! |
| all_combined.txt | 15MB | 전체 통합 코퍼스 |
총 ~90MB 한국어 텍스트
사용 방법
Fill-Mask
분류 모델 백본으로 사용
학습 설정
- Tokenizer: WordPiece (vocab_size=32,000)
- Optimizer: AdamW
- Scheduler: Cosine with warmup
- MLM Probability: 15%
라이선스
GPL-3.0 License
- Downloads last month
- 9
Evaluation results
- Eval Lossself-reported3.668
- Eval Perplexityself-reported39.170