puzzleOpen Source

DiffusionGemma ของ Google - โมเดลข้อความที่สร้างทั้งก้อนพร้อมกัน เร็วทะลุพันโทเคนต่อวินาที

13 มิ.ย. 2026อ่าน 5 นาที

สารบัญ

สรุปให้ไว

สร้างข้อความแบบ diffusion

เกลาทั้งก้อน 256 โทเคนพร้อมกัน ไม่ใช่ไล่ทีละตัว

เคลมเกิน 1,000 tokens/วินาที

บน H100 และเกิน 700 บน RTX 5090

open-weight Apache 2.0 บน Hugging Face

ต่อยอด/รันเองได้

เทรดคุณภาพแลกความเร็ว

งานคุณภาพสูงสุดยังใช้ Gemma 4 ปกติ

01มันคืออะไร

DiffusionGemma คือโมเดลภาษาที่ Google ปล่อยออกมา โดยสร้างข้อความด้วยวิธี diffusion แทนการไล่ทำนายทีละโทเคนจากซ้ายไปขวาแบบที่โมเดลทั่วไปทำ

ภาพจำคือ โมเดลปกติเหมือนพิมพ์ดีดทีละตัวอักษร พิมพ์เสร็จก็ต่อยอดจากของเดิม ส่วน diffusion เริ่มจาก "ผ้าใบ" ขนาด 256 โทเคนที่เป็นมั่ว ๆ แล้วค่อย ๆ เกลาทั้งก้อนหลายรอบจนกลายเป็นข้อความจริง ข้อดีคือมันมองเห็นทั้งก้อนพร้อมกัน ถ้าตอนท้ายเปลี่ยนความหมาย มันย้อนไปแก้ส่วนต้นได้ด้วย

ตัวโมเดลสร้างบนฐาน Gemma 4 ขนาดราว 26B แบบ MoE (activate ประมาณ 3.8B ต่อครั้ง) แล้วเสริม diffusion head จากงานวิจัย Gemini diffusion ของ Google เอง

02เร็วแค่ไหน และเหมาะกับงานอะไร

จุดขายคือความเร็ว Google เคลมว่าเร็วได้ถึง 4 เท่าบน GPU เฉพาะทาง ทำได้เกิน 1,000 tokens ต่อวินาทีบน H100 และเกิน 700 บน RTX 5090 ส่วนแบบ quantized กินแรมการ์ดราว 18GB

เหตุผลที่เร็วคือ ตอนรันโมเดลปกติบนเครื่องเดียว GPU มักนั่งว่างรอโหลด weight ระหว่างปั๊มแต่ละโทเคน (memory-bound) แต่ diffusion เอาช่วงว่างนั้นมาทำนายหลายโทเคนพร้อมกัน ความเร็วเลยพุ่งเป็นพิเศษกับงาน local แบบผู้ใช้คนเดียว

แต่ต้องเข้าใจว่ามันเทรดคุณภาพแลกความเร็ว Google บอกตรง ๆ ว่างานคุณภาพสูงสุดให้ใช้ Gemma 4 ปกติ ส่วน DiffusionGemma เหมาะกับงานเติมโค้ดกลางบรรทัด แก้อินไลน์ OCR และงานที่หลายส่วนต้องประกอบกัน เช่น sudoku ที่หลังจาก fine-tune แล้วทำถูกขึ้นจากเกือบ 0% เป็นราว 80%

จุดที่ควรรู้ก่อนลอง

★
ใบอนุญาต Apache 2.0
weight เปิดบน Hugging Face ใช้เชิงพาณิชย์ได้
★
รองรับหลาย runtime
MLX, VLLM, transformers, unsloth, Nvidia Nemo
★
NVFP4 4-bit
ช่วยเร่งความเร็วโดยความแม่นยำแทบไม่ลด
★
llama.cpp ยังไม่มา
ถ้าจะรันเครื่องเล็กต้องรอ
★
ผลจริงอาจต่ำกว่าโฆษณา
ทดสอบอิสระบน H100 ได้ราว 700 tokens/วินาที

03เกี่ยวอะไรกับเรา

สำหรับทีมที่ทำงาน local และต้องการ throughput สูง เช่น เติมโค้ด แก้ข้อความอินไลน์ พาร์สเอกสารทีละกอง DiffusionGemma เปิดความเป็นไปได้ใหม่ที่ใช้ GPU ได้เต็มเครื่องแทนปล่อยให้นั่งว่าง

ฟันธง: ลองถ้ามี GPU แรง (ระดับ H100 หรือ RTX 5090) และงานเน้นความเร็ว/การโต้ตอบไว มากกว่าคุณภาพสูงสุด ส่วนงานเขียนคุณภาพยังให้ Gemma 4 ปกติทำ ถ้าเครื่องเล็กก็รอ llama.cpp ก่อน

ต่อยอด: ใช้เป็น worker ความเร็วสูงในระบบ ให้รับงานเบา ๆ ที่ปล่อยให้เร็วได้ แล้วส่งงานยาก/งานคุณภาพไปให้โมเดลใหญ่ เป็นการแบ่งงานตามต้นทุนและความเร็วที่เข้ากับ workflow ของทีมพอดี