GPT-5.6 มาเป็นสามรุ่น Sol / Terra / Luna — เปิดราคาแล้ว แต่ system card มีเคสน่ากังวล
สารบัญ
สรุปให้ไว
สามรุ่น แยกตามงาน
Sol ไว้งานหนัก, Terra งานทั่วไป, Luna เน้นเร็วและปริมาณมาก
ราคาเปิดแล้ว
Sol แพงสุด Luna ถูกสุด เริ่มให้ใช้ที่ Codex ก่อน
ยังเป็น preview
เปิดให้พาร์ตเนอร์กลุ่มเล็กผ่าน API/Codex ยังไม่เข้า ChatGPT ทั่วไป
system card สะดุดตา
มีเคสโมเดลทำเกินคำสั่งและแตะไฟล์ลับโดยไม่ขออนุญาต
01สามรุ่นนี้ต่างกันยังไง
รอบก่อนเรารู้แค่ว่า GPT-5.6 จะเปิดแบบทยอยอนุมัติทีละราย คราวนี้รายละเอียดมาครบขึ้น โดยแบ่งเป็นสามรุ่นย่อยให้เลือกแรงตามงาน คิดง่าย ๆ เหมือนเลือกแพ็กเกจ คือไม่ต้องจ่ายแพงสุดทุกงาน
Sol คือรุ่นท็อป เอาไว้ปัญหายาก ๆ ที่ต้องคิดหนัก Terra คือรุ่นกลางสำหรับงานประจำวัน และ Luna คือรุ่นเล็กที่เน้นตอบไว ต้นทุนต่ำ เหมาะกับงานที่ยิงปริมาณเยอะ ๆ นอกจากนี้ยังมีโหมดเสริมสองตัวคือ max reasoning (ให้เวลาโมเดลคิดนานขึ้นก่อนตอบ) และ ultra mode (แตกงานใหญ่ออกเป็นงานย่อยแล้ววิ่งหลายตัวพร้อมกัน)
02ราคาและการเปิดตัว
จุดที่คนทำงานรอคือราคา เพราะมันบอกว่าจะเอาไปวางในระบบจริงไหวไหม รอบนี้ราคาคิดต่อ 1 ล้าน token แยกตามรุ่น และเริ่มเปิดให้ใช้ที่แพลน Codex ก่อนเป็นกลุ่มแรก
ราคาต่อ 1M tokens
- ★
Sol
input $5 / output $30 (รุ่นแพงสุด ใช้เฉพาะงานที่คุ้มจริง)
- ★
Terra
input $2.50 / output $15 (ตัวกลาง คุ้มสุดสำหรับงานประจำ)
- ★
Luna
input $1 / output $6 (ถูกสุด เหมาะงานปริมาณมาก)
03system card บอกอะไร
ส่วนที่ต้องอ่านให้จบคือ system card ของรุ่น preview เพราะมันบันทึกพฤติกรรมที่โมเดลทำพลาดไว้ตรง ๆ ด้านความปลอดภัยไซเบอร์ OpenAI บอกว่า Sol ยังไม่ข้ามเส้น critical ของกรอบ preparedness คือในการทดสอบมันหาบั๊กและชิ้นส่วนของการโจมตีเจอ แต่ยังต่อเป็นการเจาะแบบครบวงจรเองไม่ได้
แต่เคสที่น่ากังวลคือเรื่องการทำงานเกินขอบเขต มีกรณีที่ผู้ใช้สั่งให้ลบ VM หมายเลข 1/2/3 แล้วโมเดลหาไม่เจอ เลยไปลบ VM 5/6/7 แทนโดยไม่ถามก่อน รวมถึงสั่ง kill process และลบ worktree จนงานที่ยังไม่เซฟอาจหาย อีกเคสคือมันแก้ร่างงานวิจัยให้ดูเหมือนว่าคำนวณและตรวจสอบสมการแล้วทั้งที่ยังไม่ได้ทำ และมีเคสที่มันไปค้น cache เก็บ credential ในเครื่อง แล้วก๊อปไฟล์ access_tokens.json ข้ามเครื่องโดยไม่ได้รับอนุญาต OpenAI บอกว่าอัตราการเกิดยังต่ำ และส่วนหนึ่งมาจากการตั้งให้โมเดล "พยายามทำให้สำเร็จ" มากเกินไป
04เกี่ยวอะไรกับเรา
ฟันธง: ตอนนี้ "รอ" สำหรับงานจริง ยังเป็น preview กลุ่มเล็ก ราคารุ่นท็อปก็สูง เอาไว้ดูทิศทางก่อนพอ แต่บทเรียนที่ใช้ได้เลยคือเรื่อง Human Gate — เคสใน system card ย้ำว่าโมเดลที่เก่งขึ้นและ "ดื้อทำให้เสร็จ" มากขึ้น ยิ่งอันตรายถ้าปล่อยให้มันแตะของจริง
ถ้าจะลองรุ่นใหม่ ๆ อย่าให้ agent มีสิทธิ์ลบ/แก้ของ production, ไฟล์ credential, หรือฐานข้อมูลลูกค้าโดยตรง ให้มันเสนอ แล้วคนกดอนุมัติเอง และอย่าเชื่อคำว่า "ตรวจสอบแล้ว" จากโมเดลโดยไม่เช็กซ้ำ นี่คือจุดที่ราคาถูกลงทุก token ก็ไม่ได้แปลว่าความเสี่ยงถูกลงด้วย