wrenchเครื่องมือ

OpenRouter Fusion มีตัวเลขแล้ว — panel ราคาประหยัดเข้าใกล้ Fable 5 แต่ช้ากว่า

15 มิ.ย. 2026อ่าน 4 นาที

สารบัญ

สรุปให้ไว

มีตัวเลขจริงแล้ว

Fusion ถูกวัดบนเบนช์มาร์ก Draco (งานวิจัยลึก 100 ข้อ 10 หมวด) โดย Fable 5 เดี่ยว ๆ ได้ 65.3%

panel ถูก เข้าใกล้ตัวท็อป

รวมโมเดลราคาประหยัด (Gemini 3.5 Flash + Kimi K2.6 + DeepSeek V4 Pro) เข้าใกล้ Fable 5 แค่ราว 1% ที่ราคาประมาณครึ่งเดียว

ตัวสังเคราะห์คือพระเอก

ราว 3 ใน 4 ของผลที่ดีขึ้นมาจาก judge ที่รวมคำตอบ ไม่ใช่แค่จำนวนโมเดลที่หลากหลาย

แลกด้วยความช้า

งานเดียวกัน Opus 4.8 เดี่ยวจบใน 104 วินาที แต่ Fusion ใช้ 407 วินาที (ราว 4 เท่า)

01ทบทวนสั้น ๆ ว่า Fusion คืออะไร

Fusion คือ compound API ของ OpenRouter ไม่ใช่โมเดลตัวเดียว แปลเป็นภาพจำคือ "ส่งคำถามเดียวให้คณะกรรมการหลายโมเดลช่วยกันคิด" — มันยิงคำถามไปให้โมเดลหลายตัวพร้อมกัน (รับได้ถึง 8 ตัวต่อ panel) แต่ละตัวเปิด web search กับ bash tool ได้ จากนั้นมี judge model อ่านคำตอบทั้งหมด ดึงจุดที่ตรงกัน จุดที่ขัดกัน และจุดที่ขาด แล้วให้ Opus 4.8 เป็นกรรมการรอบสุดท้ายเขียนคำตอบเดียวออกมา

รอบนี้ของใหม่คือ "ตัวเลข" OpenRouter เปิดผลทดสอบจริงออกมาแล้ว หลังจากรอบก่อนพูดถึงแค่แนวคิด คราวนี้เห็นชัดว่ามันเก่งแค่ไหน คุ้มแค่ไหน และจุดอ่อนอยู่ตรงไหน

02ตัวเลขจากเบนช์มาร์ก Draco

เบนช์มาร์กที่ใช้คือ Draco ของ Perplexity เป็นงานวิจัยลึก 100 ข้อ ครอบคลุม 10 หมวด วัดทั้งการให้เหตุผลและการเรียกใช้เครื่องมือ ตัวตั้งต้นคือ Fable 5 เดี่ยว ๆ ได้ 65.3%

จุดที่น่าสนใจคือ panel ราคาประหยัด — เอา Gemini 3.5 Flash, Kimi K2.6 และ DeepSeek V4 Pro มารวมกัน วิ่งเข้าใกล้ Fable 5 แค่ราว 1% (คอนฟิกหนึ่งวัดได้ 64.7% เทียบกับ 65.3%) ที่ค่าใช้จ่ายสูงสุดราวครึ่งเดียว อีกมุมที่แปลกตาคือเอา Opus 4.8 มาจับคู่กับตัวมันเอง (สองอินสแตนซ์) แล้วผลดีขึ้นราว 6.7% จากเดี่ยว ๆ ที่ราว 58.8% ขยับขึ้นไปแตะ ~65.5-65.7% เกือบเท่า Fable 5

OpenRouter ยังบอกด้วยว่าราว 3 ใน 4 ของผลที่ดีขึ้นมาจากขั้นตอนสังเคราะห์ (ตัว judge) ไม่ใช่แค่ความหลากหลายของโมเดล แปลว่าหัวใจอยู่ที่ "การรวมคำตอบให้ดี" มากกว่า "จำนวนโมเดล"

ราคาต่อคำถามหนึ่งครั้ง (ตัวอย่าง ~$0.63)

★
Gemini 3.5 Flash
ราว $0.003 ต่อการเรียก
★
Opus 4.8
ราว $0.0014 ต่อการเรียก
★
DeepSeek V4 Pro
ราว $0.001 ต่อการเรียก
★
Kimi K2.6
ราว $0.0007 ต่อการเรียก
★
รวมทั้ง panel
ราว $0.63 ต่อหนึ่งคำถามวิจัยลึก

03ข้อจำกัดที่ต้องรู้ก่อนใช้

สองเรื่องที่ต้องชั่งน้ำหนัก เรื่องแรกคือความช้า งานเดียวกัน Opus 4.8 เดี่ยวจบใน 104 วินาที แต่ Fusion ใช้ราว 407 วินาที คือช้ากว่าราว 4 เท่า เพราะต้องรอหลายโมเดลคิดเสร็จแล้วค่อยสังเคราะห์ ของแบบนี้เหมาะกับงานที่รอได้ ไม่ใช่ถามตอบเร็ว ๆ

เรื่องที่สองคือเบนช์มาร์กมีแค่ตัวเดียว Draco วัดงานวิจัยลึกอย่างเดียว ไม่ได้ครอบคลุมงาน long-horizon (งานยาวหลายขั้นที่ต้องทำต่อเนื่อง) ซึ่ง OpenRouter เองก็ยอมรับว่า Fable 5 ยังเหนือกว่าในด้านนี้ ฉะนั้นคำว่า "เท่า Fable 5" ใช้ได้เฉพาะกับงานแนววิจัย/ตรวจข้อเท็จจริง อย่าเหมารวมทุกงาน

ตัว Fusion เรียกผ่าน API ได้ มี playground ให้ลอง และเสียบเข้า harness อย่าง Claude Code ได้ เลือก panel เองได้ทั้งแบบประหยัด แบบคุณภาพ และแบบกำหนดเอง จุดขายหลักคือมันโผล่มาเป็นทางเลือกตอนที่ Fable 5 ถูกถอดออกไป

04เกี่ยวอะไรกับเรา

ฟันธง: "ลองได้แบบรู้ขีดจำกัด" จุดที่คุ้มจริงคืองานวิจัยลึกหรือตรวจข้อเท็จจริงที่อยากได้คำตอบรอบด้าน — การให้หลายโมเดลช่วยกันคิดแล้วมี judge สรุป ช่วยลดโอกาสที่โมเดลตัวเดียวจะมั่นใจผิด ๆ ได้จริง และ panel ถูก ๆ ก็ให้คุณภาพใกล้ของแพงที่ราคาประหยัดกว่า

แต่อย่าเอาไปใช้กับทุกงาน งานที่ต้องการความเร็วหรือเป็นงานยาวหลายขั้นต่อเนื่อง Fusion ยังเสียเปรียบ และค่าใช้จ่ายต่อครั้งก็สูงกว่าเพราะยิงหลายโมเดลพร้อมกัน ก่อนตัดสินใจให้ลองคำนวณว่า "คุณภาพที่เพิ่มขึ้นนิดเดียว" คุ้มกับ "เวลาและเงินที่จ่ายเพิ่มหลายเท่า" ไหม

มุมต่อยอด: วาง Fusion เป็นชั้น "ขอความเห็นที่สอง" ในระบบของเรา — งานทั่วไปใช้โมเดลเดี่ยวให้เร็วและถูก เฉพาะคำตอบที่ความถูกต้องสำคัญมาก (เช่น ตัวเลขการเงิน ข้อมูลลูกค้า ข้อสรุปที่จะส่งให้หัวหน้า) ค่อยส่งเข้า Fusion ให้หลายโมเดลช่วยกันตรวจ และไม่ว่าผลจะออกมาดีแค่ไหน Human Gate คือจุดที่คนต้องตรวจรอบสุดท้ายเสมอ อย่าปล่อยให้คณะกรรมการ AI ตัดสินใจแทนเราทั้งหมด