"รวมโมเดลและงานวิจัย AI เปิดใหม่สัปดาห์นี้: ภาพ open-source ตัวแรง โมเดลเทรนบนชิป AMD และผล AlphaEvolve"
สารบัญ
- HiDream-O1 (Vivago AI): โมเดลสร้าง/แก้ภาพ open-source ระดับท็อป ความละเอียดถึง 2K, VAE-free เคลม benchmark ชนะ Qwen Image, Z-Image Turbo และ Nano Banana 2
Zaya-1 8B (Zyphra): โมเดลตัวแรกที่เทรนบนสแตก AMD Instinct ทั้งหมด ไม่พึ่ง Nvidia, Apache 2.0, เป็น MoE
Gemma 4 ได้ multi-token prediction (speculative decoding) เร็วขึ้น ~3.1x โดยไม่เสียคุณภาพ
Google AlphaEvolve มีผลจริงหลายด้าน ตั้งแต่ลด error ตรวจ DNA ไปจนถึงช่วยออกแบบ TPU
01ภาพรวมสัปดาห์นี้
สัปดาห์นี้ของใหม่ฝั่ง open-source มากันหลายตัว และจุดร่วมคือ "ไล่กวด" ของฝั่งปิดได้ใกล้ขึ้นเรื่อย ๆ ทั้งงานสร้างภาพ งานภาษา ไปจนถึง robotics ที่น่าสนใจกว่าคือมีโมเดลที่เทรนเสร็จโดยไม่ต้องพึ่งชิป Nvidia เลย ซึ่งเป็นหมุดหมายที่หลายคนรอดูมานาน รอบนี้เราคัดตัวเด่นมาให้ดูทีละตัวว่าใครทำอะไรได้ ก่อนจะมาดูว่าตัวไหนน่าจับตาเป็นพิเศษ
โมเดลและงานวิจัยเด่น
- ★
HiDream-O1 (Vivago AI): โมเดลสร้าง/แก้ภาพ open-source ระดับท็อป ความละเอียดถึง 2K, VAE-free, benchmark เคลมชนะ Qwen Image, Z-Image Turbo และ Nano Banana 2
- ★
Zaya-1 8B (Zyphra): โมเดลตัวแรกที่เทรนบนสแตก AMD Instinct ทั้งหมด (ไม่ใช่ Nvidia), Apache 2.0, สถาปัตยกรรม MoE และแข่งกับโมเดลที่ใหญ่กว่ามาก
- ★
Gemma 4: ได้ multi-token prediction (speculative decoding) เร็วขึ้น ~3.1x (~80 tokens/s) โดยไม่เสียคุณภาพ และปล่อย drafter บน HuggingFace
- ★
Google AlphaEvolve: ผลจริง ลด error ตรวจ DNA 30%, เพิ่มความเป็นไปได้ optimize กริดจาก 14% เป็น 88%, ลด error วงจรควอนตัมบน Willow 10 เท่า และช่วยออกแบบ TPU
- ★
MolmoAct 2 (Allen AI): โมเดล robotics open-source, action call ~180ms (จากรุ่นก่อนที่ ~6,700ms)
02ตัวไหนน่าจับตา
ถ้าให้เลือกสองตัวที่ควรจับตาก่อน ตัวแรกคือ HiDream-O1 สำหรับสายภาพ จุดเด่นคือเป็น open-source ที่ดันความละเอียดถึง 2K และเป็น VAE-free โดย benchmark เคลมว่าชนะทั้ง Qwen Image, Z-Image Turbo และ Nano Banana 2 ถ้าตัวเลขเหล่านี้ยืนได้จริง นี่คือทางเลือกฝั่งเปิดที่ขยับเข้าใกล้ของฝั่งปิดมากขึ้น
ตัวที่สองคือ Zaya-1 8B ของ Zyphra ที่น่าสนใจไม่ใช่เพราะขนาด แต่เพราะมันเป็นโมเดลตัวแรกที่เทรนบนสแตก AMD Instinct ทั้งหมด ไม่ได้พึ่ง Nvidia เลย ตัวโมเดลใช้สถาปัตยกรรม MoE ปล่อยภายใต้ Apache 2.0 และยังแข่งกับโมเดลที่ใหญ่กว่ามากได้ จึงเป็นหมุดหมายเรื่องชิปมากกว่าจะเป็นแค่โมเดลใหม่อีกตัว
03เกี่ยวอะไรกับเรา
ภาพรวมของสัปดาห์นี้บอกสองเรื่องที่กระทบงานเราตรง ๆ เรื่องแรกคือฝั่ง open-source ไล่กวดได้เร็วขึ้นจริง ทั้งงานภาพ (HiDream-O1) และงานภาษาที่ทำให้ inference เร็วขึ้นอย่าง Gemma 4 หมายความว่าตัวเลือกที่เอามาใช้เองหรือ self-host ได้เริ่มมีของให้เลือกมากขึ้นโดยไม่ต้องผูกกับเจ้าเดียว
เรื่องที่สองคือ Zaya-1 ที่พิสูจน์ว่าเทรนโมเดลได้โดยไม่ต้องพึ่งชิป Nvidia ในระยะยาวนี่คือสัญญาณว่าต้นทุนและตัวเลือกฮาร์ดแวร์ฝั่งเทรนอาจเปิดกว้างขึ้น ส่วน AlphaEvolve และ MolmoAct 2 ยังเป็นงานวิจัยและ robotics ที่ไกลจากงานประจำวันอยู่ จึงจัดเป็นของน่าจับตาไว้ก่อน ยังไม่ต้องรีบเอามาเข้า workflow ตอนนี้