Gemma 4 รันในเครื่องเร็วขึ้นเกือบเท่าตัว — บิลด์ MLX ลง Ollama บน Apple Silicon แล้ว
สารบัญ
สรุปให้ไว
เร็วขึ้นเกือบเท่าตัว
บิลด์ MLX ใหม่ทำให้ Gemma 4 บน Apple Silicon เร็วขึ้นราว 90% ในเคสที่ดีที่สุด
จากราว 50 เป็น 95 tokens/วิ
ตัวเลขก่อน-หลังที่เทียบให้เห็น (งานทั่วไปเร็วขึ้นราว 60%)
ลง Ollama ได้เลย
มีโมเดล MLX ให้โหลดใน Ollama ไม่ต้องติดตั้ง MLX แยกเอง
ฟรีและรันออฟไลน์
ข้อมูลอยู่บนเครื่องตัวเอง หรือถ้าไม่มี Mac ก็ใช้ฟรี API 31B บน OpenRouter ได้
01มันคืออะไร
MLX คือเฟรมเวิร์กสำหรับรันโมเดลบนชิป Apple โดยเฉพาะ ที่ผ่านมาถ้ารันโมเดลในเครื่องแบบไม่มี MLX มักช้ามาก ล่าสุด Ollama เพิ่มบิลด์ MLX ของ Gemma 4 เข้าไปแล้ว แปลว่าโหลด Ollama ตัวเดียว (ฟรี) ก็ได้ Gemma 4 แบบเร่งความเร็วมาเลย ไม่ต้องไปตั้ง MLX เอง
หลักที่ทำให้เร็วขึ้นคือเทคนิคเดาล่วงหน้า (speculative decoding) — โมเดลจะร่างและเดาผลถัดไปราว 3–5 สเต็ป แล้วเก็บอันที่เดาถูก ทำให้ได้ผลลัพธ์ไวขึ้นโดยจูนเองว่าจะเดากี่ token เพื่อไม่ให้ช้าลง
02เร็วขึ้นแค่ไหน จริงไหม
ตัวเลขที่วัดได้คือจากราว 50 tokens ต่อวินาที ขยับเป็นราว 95 tokens ต่อวินาที ซึ่งคิดเป็นเกือบเท่าตัว งานสายโค้ดดิ้งเห็นผลชัด แต่ต้องเข้าใจตรงกันว่าเลข 90% เป็นเคสดีที่สุด ไม่ใช่ทุกงาน หลายงานจริงเร็วขึ้นราว 60%
และต้องตั้งความคาดหวังให้ถูก: นี่เป็นโมเดลฟรีขนาดเล็ก ไม่ใช่ระดับ frontier งานเบา ๆ อย่าง to-do app, landing page, ดราฟต์คอนเทนต์ ทำได้ดี แต่งานที่ต้องกราฟิกเยอะหรือซับซ้อนมากยังต้องพึ่งโมเดลตัวใหญ่อยู่
สรุปสเปกที่ต้องรู้
- ★
ที่มา
Gemma 4 โมเดลฟรีจาก Google ออกแบบให้รันได้แม้บนอุปกรณ์เล็ก
- ★
ตัวเร่งความเร็ว
บิลด์ MLX ใน Ollama บนชิป Apple Silicon
- ★
ความเร็ว
ราว 50 → 95 tokens/วิ (สูงสุดราว 90%, งานทั่วไปราว 60%)
- ★
ทางเลือกถ้าไม่มี Mac
ฟรี API รุ่น 31B บน OpenRouter
- ★
เหมาะกับงาน
งานซ้ำ ๆ งานเบา, ไม่เหมาะงานภาพ/3D หรืองานซับซ้อนสูง
03เกี่ยวอะไรกับเรา
ฟันธง: ถ้ามีเครื่อง Apple Silicon อยู่แล้ว อันนี้ลองได้ เพราะเปลี่ยนโมเดลในเครื่องจาก "ช้าจนแทบใช้ไม่ได้" มาเป็นพอใช้งานประจำได้จริง และช่วยประหยัด token เพราะไม่ต้องยิง API ทุกครั้ง
จุดที่ต้องระวัง: คุณภาพยังไม่เท่าโมเดล frontier งานยาก ๆ อย่าฝากไว้กับมันทั้งหมด ต่อยอด: ตั้ง Gemma 4 เป็นเครื่องยนต์งานประจำในเครื่องสำหรับงานซ้ำ ๆ แล้วส่งเฉพาะงานยากไปให้โมเดลตัวใหญ่ วิธีนี้ได้ทั้งความเร็ว ความเป็นส่วนตัว (ข้อมูลไม่ออกจากเครื่อง) และประหยัดค่าใช้จ่าย