🇰🇷↔️🇺🇸 LFM2-v8-rl-10k-merged

LiquidAI LFM2-1.2B 기반 한영/영한 번역 SOTA 모델

GRPO (Group Relative Policy Optimization) 강화학습으로 400 Step 학습 완료된 최종 버전.

📊 성능 (Flores-200 En→Ko, 1012 Samples)

Model	CHrF++	BLEU	Params
LFM2-v8-rl-10k-merged 🏆	34.61	13.21	1.2B
LFM2-v6.1-curriculum	33.80	12.60	1.2B
Gemma-3-4B-it	32.83	11.36	4B

✅ 1.2B 모델로 4B 모델 능가!

🔬 양자화 실험 결과 (1012개 수동 분석)

결론: 4/5/8/32비트 모두 사실상 차이 없음!

Quantization	CHrF++	BLEU	Size	비고
fp32 (원본)	34.32	13.10	4.68G	간헐적 반복 버그
Q8_0 🏆	34.39	12.93	1.25G	가장 안정적
Q5_K_M	34.08	12.78	843M	균형
Q4_K_M	33.97	12.56	731M	경량화

수동 분석 핵심 발견

1012개 예제 수동 검토 결과:

90% 이상: 모든 버전에서 의미적으로 동일한 번역
차이점: 단어 선택 차이만 존재 (예: "제안했다" vs "말했다")
환각 패턴: 모든 버전에서 동일하게 발생
- "George W. Bush" → "조지 워싱턴" (역대 대통령 혼동)
- "cheetahs" → "기린" 또는 "호랑이" (동물명 혼동)

버전별 특이사항:

현상	Q4	Q5	Q8	fp32	adapter
반복 버그	❌	❌	❌	⚠️	❌
번역 품질	✅	✅	✅	✅	✅
안정성	✅	✅	✅✅	⚠️	✅

⚠️ fp32 merged 모델에서 0.1% 미만 확률로 반복 출력 버그 발견 (예: "파고 파고 파고..." 무한 반복)

시나리오	추천 버전	이유
프로덕션 서빙	Q8_0 GGUF	안정적, 3.7배 작음
모바일/엣지	Q5_K_M GGUF	크기 대비 성능 최적
추가 학습	fp32 merged	전체 파라미터 필요

🚀 사용법

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "gyung/lfm2-1.2b-koen-mt-v8-rl-10k-merged",
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(
    "gyung/lfm2-1.2b-koen-mt-v8-rl-10k-merged",
    trust_remote_code=True
)

def translate(text, direction="en2ko"):
    if direction == "en2ko":
        prompt = "Translate the following text to Korean."
    else:
        prompt = "Translate the following text to English."
    
    messages = [
        {"role": "system", "content": prompt},
        {"role": "user", "content": text}
    ]
    
    inputs = tokenizer.apply_chat_template(
        messages, return_tensors="pt", add_generation_prompt=True
    ).to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_new_tokens=256,
            do_sample=True,
            temperature=0.3,
            min_p=0.15,
            repetition_penalty=1.05,  # 반복 방지
            pad_token_id=tokenizer.eos_token_id
        )
    
    return tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True).strip()

# 사용 예시
print(translate("Hello, how are you today?"))
# → 안녕하세요, 오늘 기분이 어떠세요?

print(translate("오늘 날씨가 정말 좋네요.", "ko2en"))
# → The weather is really nice today.

📦 GGUF 버전 (추천)

경량화 + 안정성을 위해 GGUF 버전 사용 권장:

👉 gyung/lfm2-1.2b-koen-mt-v8-rl-10k-merged-GGUF

🔗 관련 링크

프로젝트: GitHub - LFM2-KoEn-Tuning
GGUF 버전: gyung/lfm2-1.2b-koen-mt-v8-rl-10k-merged-GGUF

📜 라이선스

Base Model: LiquidAI/LFM2-1.2B (LFM Open License v1.0)
Developed by: Gyung (Kiwoong)

Downloads last month: 25

Safetensors

Model size

1B params

Tensor type

F32

Model tree for gyung/lfm2-1.2b-koen-mt-v8-rl-10k-merged

Base model

LiquidAI/LFM2-1.2B

Finetuned

(55)

this model

Quantizations

1 model

gyung
/

lfm2-1.2b-koen-mt-v8-rl-10k-merged