"OpenAI ปล่อยโมเดลเสียง real-time 3 ตัว คุย แปลสด และถอดเสียงผ่าน API"
สารบัญ
สรุปให้ไว
**โมเดลเสียง real-time 3 ตัว** OpenAI เพิ่มเข้า Realtime API ครอบทั้งคุยโต้ตอบ แปลสด และถอดเสียง
**GPT-Realtime-2 ฉลาดขึ้น** context ขยายจาก 32k เป็น 128k มี reasoning 5 ระดับ และ Big Bench Audio 96.6% จากเดิม 81.4%
**แปล 70 ภาษาเข้า 13 ภาษาออก** ผ่าน GPT-Realtime-Translate ส่วน Whisper ถอดเสียงแบบ streaming
**ราคา audio token ยังสูง** Realtime-2 อยู่ที่ $32/$64 ต่อ 1M token เข้า/ออก ต้องคิดต้นทุนก่อนใช้ scale
01มีอะไรใหม่ 3 โมเดล
OpenAI เพิ่มโมเดลใหม่ 3 ตัวเข้าไปใน Realtime API แยกหน้าที่กันชัดเจน ตัวแรกคือ GPT-Realtime-2 เป็นโมเดลเสียงที่มาพร้อม reasoning ระดับ GPT-5 เอาไว้คุยโต้ตอบแบบเข้าใจบริบท ตัวที่สองคือ GPT-Realtime-Translate เน้นงานแปลสด รับเข้าได้ 70 ภาษาและแปลออกได้ 13 ภาษา ตัวที่สามคือ GPT-Realtime-Whisper สำหรับถอดเสียงเป็นข้อความแบบ streaming คือทยอยออกมาระหว่างพูด ไม่ต้องรอจบประโยค สามตัวนี้แปลว่างานสายเสียงทั้งคุย แปล และถอดเสียง ถูกแยกเป็นเครื่องมือเฉพาะทางให้เลือกหยิบตามงาน
02สเปก ราคา และ benchmark
ฝั่งสเปก GPT-Realtime-2 ขยาย context จาก 32k เป็น 128k token และเพิ่ม reasoning เป็น 5 ระดับให้ปรับความลึกของการคิดได้ ด้าน benchmark ตัว Big Bench Audio ทำได้ 96.6% ในโหมด high เทียบกับรุ่นก่อนที่ 81.4% ถือว่าขยับขึ้นชัด ฝั่งราคาคิดต่างกันตามโมเดล GPT-Realtime-2 อยู่ที่ $32 ต่อ 1M audio token ขาเข้า และ $64 ต่อ 1M token ขาออก ส่วน Translate คิดประมาณ $0.034 ต่อนาที และ Whisper ประมาณ $0.017 ต่อนาที ทั้งชุดมี EU data residency รองรับสำหรับองค์กรที่ต้องคุมเรื่องที่เก็บข้อมูล
- **GPT-Realtime-2** โมเดลเสียง + reasoning ระดับ GPT-5, context 128k, reasoning 5 ระดับ, Big Bench Audio 96.6% (high), ราคา $32/$64 ต่อ 1M audio token เข้า/ออก
- ★
**GPT-Realtime-Translate** แปลสด รับเข้า 70 ภาษา แปลออก 13 ภาษา, ราคาประมาณ $0.034 ต่อนาที
- ★
**GPT-Realtime-Whisper** ถอดเสียงแบบ streaming, ราคาประมาณ $0.017 ต่อนาที
- ★
**รวมทั้งชุด** อยู่ใน Realtime API เดียวกัน มี EU data residency
03เกี่ยวอะไรกับเรา
งานที่เห็นภาพชัดสำหรับธุรกิจไทยคือ call center และการสรุปประชุม เสียง real-time บวกแปลสดทำให้สายคุยลูกค้าข้ามภาษาหรือถอดบทสนทนาเป็นสรุปได้ทันที ไม่ต้องรอประมวลผลทีหลัง ฝั่งงานจริงก็มีสัญญาณว่าใกล้ใช้ได้ Deutsche Telekom กำลังทดสอบเอาไปแปลภาษาในงาน support ฟันธงคือเรื่องนี้น่าจับตาและควรลองในงานนำร่อง แต่จุดที่ต้องคิดให้ขาดก่อนคือต้นทุน audio token ของ Realtime-2 ยังสูง ถ้าจะ scale ขึ้นปริมาณสายหรือชั่วโมงประชุมเยอะ ๆ ให้คิดต้นทุนต่อนาทีต่อสายให้จบก่อน แล้วค่อยขยาย ลองได้แต่อย่าเพิ่งเปิดใช้เต็มสเกลโดยไม่กางตัวเลข