Back to Models
Visit Website
FINAL-Bench/Darwin-2B-Opus
FINAL-Bench โข general๐ง Darwin-2B-Opus
Darwin V8 ์๋ฆฌ์ฆ์ 2B ๊ฒฝ๋ ๋ชจ๋ธ Claude Opus 4.5/4.6 ๋ฐ Sonnet 4.6์ ์ถ๋ก ์คํ์ผ์ ์ฃผ์ ํ Qwen3.5-2B ๊ธฐ๋ฐ ๋ชจ๋ธ.
๐งฌ ๊ฐ๊ณ๋ (Pedigree)
- ๐จ Father (Base):
Qwen/Qwen3.5-2B - ๐ฉ Mother (LoRA Adapter):
FINAL-Bench/Darwin-2B-Opus-LoRA - ๐ถ Child (This model):
FINAL-Bench/Darwin-2B-Opusโ merged full-weight standalone
๐ Darwin V8 ์๋ฆฌ์ฆ ์ ๋ณด
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ๋ชจ๋ธ ํฌ๊ธฐ | 2.3B ํ๋ผ๋ฏธํฐ |
| ์ํคํ ์ฒ | Qwen3.5 (hybrid attention) |
| ํ์ต ๋ฐฉ์ | SFT with LoRA (all-linear, rank=16) |
| ํ์ต ๋ฐ์ดํฐ | 9,762 ์ํ (Claude Opus/Sonnet + ํ๊ตญ์ด reasoning) |
| ํ์ต ์๊ฐ | 29๋ถ (8รB200 GPU) |
| ์ต์ข Loss | 0.837 |
| Token Accuracy | 76.6% |
๐ ๋ฒค์น๋งํฌ (GPQA Diamond 198)
- ์ ํ๋: 37.37% (74/198)
- ๋ต๋ณ ์ถ์ถ ์ฑ๊ณต๋ฅ ๊ธฐ์ค ์ ๋ต๋ฅ : 50.7%
๐ ๋น ๋ฅธ ์ฌ์ฉ๋ฒ
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "FINAL-Bench/Darwin-2B-Opus"
tok = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True
)
messages = [
{"role": "user", "content": "2024๋
ํ๊ตญ ์ต์ ์๊ธ 9,860์์ด๋ค. ์ฃผ 40์๊ฐ ร 4์ฃผ ์๊ธ์?"}
]
prompt = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=800,
do_sample=False,
pad_token_id=tok.eos_token_id,
)
print(tok.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
๐งฌ Darwin V8 ํ์ต ํ์ดํ๋ผ์ธ
[Qwen/Qwen3.5-2B] โโโโ Base ๋ชจ๋ธ (๋๊ฒฐ)
+
[9,762 Claude Opus/Sonnet + ํ๊ตญ์ด Reasoning ์ํ]
โ
[SFT Training]
- LoRA (all-linear, r=16, ฮฑ=32)
- Learning rate: 2e-4 (V8 rule: ร10 FullFT)
- 2 epochs, bf16, 8รB200 DDP
- Loss: 0.991 โ 0.837 (-15%)
- Token accuracy: 73.9% โ 76.6% (+2.7%p)
โ
[LoRA merge into base weights]
โ
[Darwin-2B-Opus] โ ์ด ๋ชจ๋ธ
๐ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
| ์นดํ ๊ณ ๋ฆฌ | ์ํ ์ | % | ์ถ์ฒ |
|---|---|---|---|
| General Reasoning | 4,422 | 45% | Opus 4.5/4.6, Sonnet 4.6 |
| Math (English) | 1,960 | 20% | DeepSeek-v3.2 OpenR1-Math |
| Code (English) | 1,680 | 17% | DeepSeek-v3.2 CodeReasoning + GPT-5 Codex |
| Korean Thinking | 200 | 2% | Multilingual-Thinking-Korean |
| Korean Math | 1,500 | 15% | orca-math-word-problems-korean |
| ํฉ๊ณ (ํํฐ ํ) | 9,762 | 100% | - |
๐ฏ Darwin V8 ์ค๊ณ ์ฒ ํ
- LoRA Without Regret โ
all-lineartarget, LR ร 10, rank=16์ผ๋ก ์ถฉ๋ถ - Response Distillation โ Pre-generated Opus traces๋ก ๋น์ฉ ํจ์จ์ ์ฆ๋ฅ
- ํ๊ตญ์ด Reasoning ๊ฐํ โ KoAlpaca ๊ฐ๋จ QA ๋์ Claude ์ถ๋ก ๊ถค์ ์ฌ์ฉ
- Merge-and-Deploy โ LoRA ์ด๋ํฐ ํตํฉ ํ ์ถ๊ฐ ์์กด์ฑ ์์ด ๋ฐฐํฌ
๐ ์ํ ํ ์คํธ ๊ฒฐ๊ณผ (5๋ฌธ์ )
| ์ ํ | ์ ๋ต | ๋น๊ณ |
|---|---|---|
| ์์ด ์ํ (๊ธฐ์ฐจ ์๋) | โ 80 km/h | LaTeX ๋จ๊ณ๋ณ ํ์ด |
| ์์ด ๋ ผ๋ฆฌ (ํค ๋น๊ต) | โ Carol | ์ถ์ด์จ ๋ช ์ |
| ์์ด ์ฝ๋ (์์ ํ๋ณ) | โ ์ ํ | docstring + ๋ณต์ก๋ ๋ถ์ |
| ํ๊ตญ์ด ์๊ธ ๊ณ์ฐ | โ 1,577,600์ | ๋จ๊ณ๋ณ ํ๊ตญ์ด ์ค๋ช |
| ํ๊ตญ์ด ์ฐ๋ฆฝ๋ฐฉ์ ์ | โ 1,200์ | ์ ์ ํ์ด + ๊ฒ์ฆ |
5/5 ์ ๋ต โ ์์ด+ํ๊ตญ์ด ๋ชจ๋ ์๋ฒฝ โญ
โ ๏ธ ์ ํ ์ฌํญ
- ๊ท๋ชจ: 2.3B ํ๋ผ๋ฏธํฐ (Darwin ์๋ฆฌ์ฆ ์ต์)
- GPQA Diamond: 37.37% (๋ํ ๋ชจ๋ธ ๋๋น ๋ฎ์ง๋ง 2B ์ค ์ต๊ณ ์์ค)
- ๊ธด ์ปจํ
์คํธ: ํ์ต ์
max_length=4,096๋ก ํ์ต๋จ - ์ง์ ํ๊ณ: 2B ๋ชจ๋ธ์ ๋ฐฑ๊ณผ์ฌ์ ์ ์ง์ ํ๊ณ ์์
๐ ๊ด๋ จ ๋ชจ๋ธ
- ๐งฉ
FINAL-Bench/Darwin-2B-Opus-LoRAโ ์ด ๋ชจ๋ธ์ LoRA ์ด๋ํฐ ๋จ๋ ๋ฒ์ (67MB) - โก
FINAL-Bench/Darwin-2B-Opus-ONNXโ ๋ธ๋ผ์ฐ์ /WebGPU์ฉ ONNX ์์ํ ๋ฒ์ (์์ )
๐ Darwin ์๋ฆฌ์ฆ
Darwin-31B-Opusโ GPQA 85.9%Darwin-27B-Opusโ GPQA 86.9%Darwin-9B-OpusDarwin-4B-Opus- Darwin-2B-Opus (์ด ๋ชจ๋ธ) โญ ์ต๊ฒฝ๋
๐ชช ๋ผ์ด์ ์ค
- Base model: Apache 2.0 (Qwen)
- ํ์ต ๋ฐ์ดํฐ: ๊ฐ ๋ฐ์ดํฐ์ ๊ฐ๋ณ ๋ผ์ด์ ์ค ์ฐธ์กฐ
- ์ด ๋ชจ๋ธ: Apache 2.0
๐ ํฌ๋ ๋ง
- Base: Qwen team (Alibaba)
- Teacher: Anthropic (Claude Opus 4.5/4.6, Sonnet 4.6)
- ๋ฐ์ดํฐ ๊ณต๊ฐ: nohurry, TeichAI, kuotient, PoSTMEDIA
- Training & Release: FINAL-Bench / VIDRAFT_LAB
Darwin V8 ยท Part of the evolutionary model series by FINAL-Bench