GLM 5.2 ผ่านเบนช์มาร์กอิสระ — โอเพนอันดับต้น หลอนต่ำสุด และรันที่บ้านได้แล้ว
สารบัญ
สรุปให้ไว
โอเพนอันดับต้น
ขึ้น AA Intelligence Index เป็นโอเพนที่ดีที่สุด ตามหลังเฉพาะ GPT และ Claude ตัวท็อป
หลอนต่ำสุด
hallucination rate ต่ำสุดในกลุ่ม frontier น้อยกว่า Claude Fable ~50%
เบนช์ใหม่ก็ติดอันดับ
AA Briefcase (งานยาว สร้างหลังเปิดตัว) ได้อันดับ 3 แซง GPT ตัวท็อป
รันที่บ้านได้
ชุมชนทำ GGUF บีบอัดใน 2 วัน เวอร์ชัน 1-bit เหลือ ~223GB
01ใหม่ตรงไหนจากตอนเปิดตัว
ตอน GLM 5.2 เปิดตัว ไฮไลต์ยังเป็นสเปกและตัวเลขฝั่งผู้ผลิต รอบนี้ของใหม่คือข้อมูลจากหลายสำนักอิสระ เริ่มจาก Artificial Analysis Intelligence Index ที่ GLM 5.2 ขึ้นเป็นโมเดลโอเพนที่ดีที่สุด ตามหลังเฉพาะ GPT ตัวท็อปและ Claude ตัวท็อป และทิ้งห่างโอเพนรองลงมาอย่าง MiniMax M3 ค่อนข้างมาก ส่วน Kimi K2.7 Code อยู่ไกลลงไป
เรื่องราคาก็ยังเป็นจุดขาย GLM 5.2 อยู่ที่ราว ครึ่งหนึ่งของ GPT-5.5 และถูกกว่า Opus 4.8 ราว 5 เท่า เท่ากับได้คะแนนใกล้รุ่นปิดชั้นนำในราคาที่ต่ำกว่ามาก
02จุดที่น่าสนใจที่สุด: หลอนต่ำ
ตัวเลขที่โดดที่สุดคือ hallucination rate จากเบนช์ AA Omniscience ซึ่งเป็นชุดคำถามที่ออกแบบมาดักให้โมเดลหลอน GLM 5.2 ทำได้ต่ำสุดในกลุ่ม frontier โดยหลอนน้อยกว่า Claude Fable ราว 50% ส่วน GPT-5.5 หลอนมากกว่า GLM ราว 3-4 เท่า ตัวเลขเปอร์เซ็นต์ในเบนช์นี้ไม่ได้แปลว่าหลอนบ่อยขนาดนั้นในชีวิตจริง เพราะเป็นคำถามดักโดยเฉพาะ แต่ใช้เทียบกันระหว่างโมเดลได้
อีกประเด็นที่น่าเชื่อถือคือเบนช์ AA Briefcase ที่วัดงานความรู้แบบยาวหลายขั้น และเพิ่งถูกสร้างขึ้นหลัง GLM เปิดตัว จึงเอามาเป็นหลักฐานแย้งข้อกล่าวหาว่าโมเดล bench-max ได้ ผลคือ GLM 5.2 ได้อันดับ 3 ชนะ GPT ตัวท็อป และตามหลัง Opus ตัวท็อปแค่นิดเดียว
ภาพรวมจากเบนช์อิสระ
- ★
AA Intelligence Index
โอเพนอันดับ 1 ตามหลังเฉพาะ GPT/Claude ตัวท็อป
- ★
AA Omniscience
hallucination ต่ำสุดในกลุ่ม frontier
- ★
AA Briefcase (งานยาว)
อันดับ 3 แซง GPT ตัวท็อป ตามหลัง Opus นิดเดียว
- ★
จุดอ่อน
LM Arena ~อันดับ 10 (steerability ต่ำ); LiveBench รวมแล้วยังตามรุ่นเก่าบางตัว แต่ท็อปด้าน agentic coding
03เกี่ยวอะไรกับเรา
ใครที่ตามข่าวเปิดตัวและ Design Arena มาแล้วยังลังเล รอบนี้คือหลักฐานจากหลายสำนัก ไม่ใช่ตัวเลขผู้ผลิต จุดขายจริงสำหรับคนทำงานคือ "หลอนต่ำสุด บวกราคาถูก บวกรันเองได้" ตัวเต็มเป็น open weights สัญญา MIT ขนาดราว 1.5TB ซึ่งใหญ่เกินคนทั่วไป แต่ Unsloth ออกเวอร์ชัน GGUF บีบอัดภายใน 2 วัน เวอร์ชัน 1-bit เหลือราว 223GB (ความแม่นราว 76%) และ 2-bit ราว 245GB (ราว 82%) รันได้บน RTX 6000 สอง-สามใบ, DGX Spark หนึ่ง-สองตัว หรือ Mac Studio
ฟันธง: ลอง โดยเฉพาะงานที่ต้องการความถูกต้องสูง เช่น กฎหมายหรือการแพทย์ ที่ความหลอนต่ำมีค่ามาก และงานข้อมูลอ่อนไหวที่อยากรันในเครื่องเอง จุดที่ต้องยอมรับคือ steerability และการทำตามคำสั่งละเอียดยังเป็นรอง ถ้างานของคุณต้องสั่งแบบเป๊ะ ๆ ให้ทดสอบก่อน และถ้าใช้ผ่าน cloud ของ z.ai ข้อมูลจะวิ่งผ่านผู้ให้บริการจีน งานอ่อนไหวให้รันเองจะปลอดภัยกว่า
โปรเจกต์ open-source
อยากลองเองไหม? โปรเจกต์นี้เป็น open-source โหลด repo ทางการมาลองได้เลย
ดูบน Hugging Face → →