Gemini 3.5 Live Translate - แปลเสียงสด 70+ ภาษาแบบเรียลไทม์ ไม่ต้องรอพูดจบ
สารบัญ
สรุปให้ไว
แปลเสียงเป็นเสียง 70+ ภาษา
แบบ near-real-time ขณะอีกฝ่ายยังพูดอยู่
รักษาน้ำเสียง จังหวะ ระดับเสียง
ไม่ใช่หุ่นยนต์อ่าน subtitle แบน ๆ
ลงหลายช่องทาง
Live API, AI Studio, Google Meet, Translate app
เสียงมีลายน้ำ SynthID
บอกได้ว่าเป็นเสียงที่ AI สร้าง
01มันคืออะไร
Google เปิดตัว Gemini 3.5 Live Translate โมเดลเสียงสำหรับแปลคำพูดแบบ speech-to-speech ในกว่า 70 ภาษา จุดเด่นคือมันไม่รอให้พูดจบก่อนแล้วค่อยแปล แต่ฟังไปแปลไป ตามหลังอยู่แค่ไม่กี่วินาที
ภาพจำคือ ระบบแปลแบบเก่าเหมือนคุยกันแบบหยุดรอ พูดจบ-รอแปล-อีกฝ่ายค่อยตอบ แต่ตัวนี้พยายามให้ลื่นเหมือนคุยจริง ทั้งยังรักษาโทนเสียง จังหวะ และระดับเสียงของผู้พูด ตรวจจับภาษาให้อัตโนมัติ และออกแบบมาให้ทำงานในที่เสียงดังอย่างรถ สนามบิน ออฟฟิศ หรือ video call
02ลงที่ไหนบ้าง
สำหรับนักพัฒนา ได้ public preview ผ่าน Gemini Live API และ Google AI Studio ส่วน Google Meet ได้ private preview ในเดือนนี้ โดยขยับจากเดิมที่รองรับแค่ 5 ภาษาและต้องวิ่งผ่านภาษาอังกฤษ มาเป็นกว่า 70 ภาษาและกว่า 2,000 คู่ภาษาในห้องประชุมเดียว
ฝั่งผู้ใช้ทั่วไปได้ใช้ในแอป Google Translate บน Android และ iOS โดย Android เพิ่มโหมดฟังที่ยกโทรศัพท์แนบหูเหมือนรับสายปกติแล้วฟังเสียงแปลผ่านลำโพงหู เสียงที่ AI สร้างทั้งหมดจะฝังลายน้ำ SynthID ไว้ เพื่อให้ตรวจย้อนได้ว่าเป็นเสียงสังเคราะห์
พาร์ตเนอร์ช่วงแรกมี Grab ที่ทดสอบใช้สื่อสารระหว่างคนขับกับผู้โดยสารตอนรับ (มีสายเสียงผ่านแอปกว่า 10 ล้านครั้งต่อเดือน) รวมถึง Agora, Fish Jam, LiveKit และ Pipecat ที่ต่อยอดบน Live API
จุดที่ควรรู้
- ★
ตามหลังไม่กี่วินาที
ออกแบบให้ลื่นกว่าระบบหยุด-รอ-แปล
- ★
ตรวจภาษาอัตโนมัติ
ไม่ต้องตั้งคู่ภาษาเองทุกครั้ง
- ★
Google Meet ทะลุ 2,000 คู่ภาษา
ในประชุมเดียว ไม่ต้องผ่านอังกฤษ
- ★
SynthID watermark
เสียงระบุได้ว่าสร้างด้วย AI
- ★
ยัง preview
บางช่องทางจำกัดสิทธิ์ก่อนขยายภายหลัง
03เกี่ยวอะไรกับเรา
ทีมไทยที่ต้องคุยกับลูกค้าหรือคู่ค้าต่างชาติได้ประโยชน์ตรง ๆ ประชุมข้ามภาษาได้โดยไม่ต้องหยุดรอล่ามทุกประโยค หรือทำคอนเทนต์/บริการลูกค้าหลายภาษาได้ง่ายขึ้น
ฟันธง: ลองในงานที่ความผิดพลาดเล็กน้อยรับได้ เช่น คุยภายในทีม หรือบริการลูกค้าทั่วไป แต่ Human Gate ให้ชัดในงานสัญญา ตัวเลข ราคา หรือข้อกฎหมาย อย่าปล่อยให้คำแปลสดเป็นคนตัดสินใจแทนเรา และจำไว้ว่าเสียงมีลายน้ำ SynthID ติดอยู่
ต่อยอด: ถ้าทีมใช้ video call เป็นหลัก ลองวางแผนเปิดใช้ตอน Google Meet ขยายสิทธิ์ หรือถ้าทำผลิตภัณฑ์เอง ก็ดูการต่อ Live API ผ่านพาร์ตเนอร์อย่าง LiveKit เพื่อไม่ต้องจัดการ infra เสียงเรียลไทม์เองทั้งหมด