DiffusionGemma ของ Google - โมเดลข้อความที่สร้างทั้งก้อนพร้อมกัน เร็วทะลุพันโทเคนต่อวินาที
สารบัญ
สรุปให้ไว
สร้างข้อความแบบ diffusion
เกลาทั้งก้อน 256 โทเคนพร้อมกัน ไม่ใช่ไล่ทีละตัว
เคลมเกิน 1,000 tokens/วินาที
บน H100 และเกิน 700 บน RTX 5090
open-weight Apache 2.0 บน Hugging Face
ต่อยอด/รันเองได้
เทรดคุณภาพแลกความเร็ว
งานคุณภาพสูงสุดยังใช้ Gemma 4 ปกติ
01มันคืออะไร
DiffusionGemma คือโมเดลภาษาที่ Google ปล่อยออกมา โดยสร้างข้อความด้วยวิธี diffusion แทนการไล่ทำนายทีละโทเคนจากซ้ายไปขวาแบบที่โมเดลทั่วไปทำ
ภาพจำคือ โมเดลปกติเหมือนพิมพ์ดีดทีละตัวอักษร พิมพ์เสร็จก็ต่อยอดจากของเดิม ส่วน diffusion เริ่มจาก "ผ้าใบ" ขนาด 256 โทเคนที่เป็นมั่ว ๆ แล้วค่อย ๆ เกลาทั้งก้อนหลายรอบจนกลายเป็นข้อความจริง ข้อดีคือมันมองเห็นทั้งก้อนพร้อมกัน ถ้าตอนท้ายเปลี่ยนความหมาย มันย้อนไปแก้ส่วนต้นได้ด้วย
ตัวโมเดลสร้างบนฐาน Gemma 4 ขนาดราว 26B แบบ MoE (activate ประมาณ 3.8B ต่อครั้ง) แล้วเสริม diffusion head จากงานวิจัย Gemini diffusion ของ Google เอง
02เร็วแค่ไหน และเหมาะกับงานอะไร
จุดขายคือความเร็ว Google เคลมว่าเร็วได้ถึง 4 เท่าบน GPU เฉพาะทาง ทำได้เกิน 1,000 tokens ต่อวินาทีบน H100 และเกิน 700 บน RTX 5090 ส่วนแบบ quantized กินแรมการ์ดราว 18GB
เหตุผลที่เร็วคือ ตอนรันโมเดลปกติบนเครื่องเดียว GPU มักนั่งว่างรอโหลด weight ระหว่างปั๊มแต่ละโทเคน (memory-bound) แต่ diffusion เอาช่วงว่างนั้นมาทำนายหลายโทเคนพร้อมกัน ความเร็วเลยพุ่งเป็นพิเศษกับงาน local แบบผู้ใช้คนเดียว
แต่ต้องเข้าใจว่ามันเทรดคุณภาพแลกความเร็ว Google บอกตรง ๆ ว่างานคุณภาพสูงสุดให้ใช้ Gemma 4 ปกติ ส่วน DiffusionGemma เหมาะกับงานเติมโค้ดกลางบรรทัด แก้อินไลน์ OCR และงานที่หลายส่วนต้องประกอบกัน เช่น sudoku ที่หลังจาก fine-tune แล้วทำถูกขึ้นจากเกือบ 0% เป็นราว 80%
จุดที่ควรรู้ก่อนลอง
- ★
ใบอนุญาต Apache 2.0
weight เปิดบน Hugging Face ใช้เชิงพาณิชย์ได้
- ★
รองรับหลาย runtime
MLX, VLLM, transformers, unsloth, Nvidia Nemo
- ★
NVFP4 4-bit
ช่วยเร่งความเร็วโดยความแม่นยำแทบไม่ลด
- ★
llama.cpp ยังไม่มา
ถ้าจะรันเครื่องเล็กต้องรอ
- ★
ผลจริงอาจต่ำกว่าโฆษณา
ทดสอบอิสระบน H100 ได้ราว 700 tokens/วินาที
03เกี่ยวอะไรกับเรา
สำหรับทีมที่ทำงาน local และต้องการ throughput สูง เช่น เติมโค้ด แก้ข้อความอินไลน์ พาร์สเอกสารทีละกอง DiffusionGemma เปิดความเป็นไปได้ใหม่ที่ใช้ GPU ได้เต็มเครื่องแทนปล่อยให้นั่งว่าง
ฟันธง: ลองถ้ามี GPU แรง (ระดับ H100 หรือ RTX 5090) และงานเน้นความเร็ว/การโต้ตอบไว มากกว่าคุณภาพสูงสุด ส่วนงานเขียนคุณภาพยังให้ Gemma 4 ปกติทำ ถ้าเครื่องเล็กก็รอ llama.cpp ก่อน
ต่อยอด: ใช้เป็น worker ความเร็วสูงในระบบ ให้รับงานเบา ๆ ที่ปล่อยให้เร็วได้ แล้วส่งงานยาก/งานคุณภาพไปให้โมเดลใหญ่ เป็นการแบ่งงานตามต้นทุนและความเร็วที่เข้ากับ workflow ของทีมพอดี