Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงแบบเรียล…

ที่มาภาพ: Ars Technica

AI-อ่าน 6 นาทีArs Technica

Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงแบบเรียล…

⚡ สรุป 30 วิ

Google เปิดตัว Gemini 3.5 Live Translate โมเดลแปลเสียง‑เป็น‑เสียงแบบเรียลไทม์ รองรับกว่า 70 ภาษาและลด latency เหลือไม่กี่วินาที รุ่น Flash พร้อมทดลองใช้ในแอป…

Google เพิ่งเปิดตัว Gemini 3.5 Live Translate ซึ่งเป็นโมเดลแปลเสียง‑เป็น‑เสียงแบบเรียลไทม์ใหม่ล่าสุดของบริษัท การเปิดตัวนี้เพิ่มความเร็วและความคล่องตัวของการแปลหลายภาษา ทำให้ผู้ใช้สามารถสนทนาได้โดยไม่ต้องรอคอยหลายวินาทีและเป็นก้าวสำคัญต่อการทำให้การสื่อสารข้ามภาษากลายเป็นเรื่องธรรมชาติยิ่งขึ้น

Overview

Google ได้มุ่งเน้นการพัฒนาเทคโนโลยีแปลแบบเรียลไทม์มาหลายปี โดยอ้างว่าเป็นหนึ่งใน “การทดลองแมชชีนเลิร์นนิงเชิงบุกเบิก” ของบริษัทที่ผ่านมา การสาธิตครั้งแรกมักต้องอาศัยอุปกรณ์เฉพาะของ Google เช่น สมาร์ทโฟนรุ่นพิเศษหรือหูฟังไร้สาย ซึ่งทำให้การเข้าถึงเทคโนโลยีนี้ยังคงจำกัดอยู่ในกลุ่มผู้ใช้ที่มีอุปกรณ์ของ Google

เมื่อปีที่ผ่านมา Google ได้นำฟีเจอร์แปลแบบเรียลไทม์เข้าสู่แอป Google Translate อย่างกว้างขวาง ทำให้ผู้ใช้บนระบบปฏิบัติการหลายแพลตฟอร์มสามารถใช้งานได้โดยไม่ต้องพึ่งพาอุปกรณ์เฉพาะ รุ่นใหม่ Gemini 3.5 Live Translate จะต่อยอดจากความสำเร็จนั้น โดยให้บริการแปลเสียง‑เป็น‑เสียงใน กว่า 70 ภาษา พร้อมความหน่วงเวลา (latency) ที่ลดลงอย่างมีนัยสำคัญ

Technical Details

Gemini 3.5 Live Translate เป็นโมเดล speech‑to‑speech ที่ถูกปรับจูนให้สามารถตรวจจับภาษาโดยอัตโนมัติและแปลได้ทันที โมเดลนี้เป็นส่วนหนึ่งของตระกูลเวอร์ชัน 3.5 ที่เปิดตัวครั้งแรกที่งาน Google I/O ทำให้มีการอัปเดตโครงสร้างพื้นฐานด้านการประมวลผลเสียงและการเรียนรู้เชิงลึกที่รองรับการแปลหลายภาษาแบบพร้อมกัน

Google ระบุว่าโมเดลนี้สามารถตาม intonation, pacing, และ pitch ของผู้พูดได้อย่างแม่นยำ ทำให้เสียงที่แปลออกมาฟังดูคล้ายกับเสียงของผู้พูดต้นฉบับมากกว่าการเป็นเสียงหุ่นยนต์ทั่วไป การจับคู่โทนเสียงเช่นนี้ช่วยลดการทำลายประสบการณ์การสนทนาที่อาจเกิดจากการแปลที่ไม่เป็นธรรมชาติ

Availability & Roadmap

จนถึงขณะนี้ Google ได้ปล่อย รุ่น Flash ของ Gemini 3.5 Live Translate ให้ผู้ใช้ทดลองใช้ในสภาพแวดล้อมที่ควบคุมแล้ว ส่วน รุ่น Pro คาดว่าจะเปิดตัวในไม่กี่สัปดาห์ข้างหน้า ตามแผนของบริษัทที่จะขยายการเข้าถึงฟีเจอร์นี้ให้ครอบคลุมอุปกรณ์และระบบปฏิบัติการหลากหลาย

  • รุ่น Flash – เปิดให้ทดลองใช้ในแอป Translate และอุปกรณ์บางรุ่นของ Google
  • รุ่น Pro (คาดการณ์) – จะเพิ่มประสิทธิภาพด้าน latency และรองรับภาษาเพิ่มเติม

การเปิดตัวในรูปแบบหลายขั้นตอนนี้สอดคล้องกับแนวทางของ Google ที่มักทำการทดสอบฟีเจอร์ใหม่ในกลุ่มผู้ใช้จำกัดก่อนขยายสู่ตลาดกว้าง

Performance Evaluation

การสาธิตที่เผยแพร่โดย Google แสดงให้เห็นว่าโมเดลสามารถทำงานตามจังหวะการสนทนาปกติได้โดยมีการล่าช้าเพียงไม่กี่วินาทีหลังจากผู้พูดจบประโยค นอกจากนี้ยังสามารถรักษา intonation ของผู้พูดได้อย่างต่อเนื่อง แม้ในสภาพแวดล้อมเสียงรบกวนระดับปานกลาง ซึ่งเป็นการปรับปรุงที่สำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า

อย่างไรก็ตาม การประเมินผลภายใต้สภาพแวดล้อมจริงอาจเปิดเผยข้อจำกัดเพิ่มเติม เช่น ความแม่นยำของการตรวจจับภาษาในสำเนียงท้องถิ่นหรือการจัดการกับคำที่ไม่มีในฐานข้อมูลของโมเดล ทั้งนี้ Google ได้เชิญชวนให้ผู้ใช้ทดลองและให้ข้อเสนอแนะเพื่อพัฒนาเวอร์ชันต่อไป

Implications

การเปิดตัว Gemini 3.5 Live Translate มีศักยภาพที่จะเปลี่ยนวิธีการสื่อสารระหว่างภาษาต่าง ๆ ในหลายภาคส่วน ตั้งแต่การเดินทางระหว่างประเทศ การทำธุรกิจข้ามพรมแดน ไปจนถึงการให้บริการด้านสุขภาพที่ต้องการการสื่อสารที่แม่นยำและรวดเร็ว การลด latency และการจับเสียงให้เป็นธรรมชาติอาจทำให้ผู้ใช้รับรู้ว่าการแปลเป็น “ส่วนหนึ่งของการสนทนา” มากกว่าการแทรกแซง

ในระดับการแข่งขัน การพัฒนานี้ทำให้ Google ยังคงครองตำแหน่งผู้นำในตลาดแปลภาษา AI เมื่อเทียบกับผู้เล่นอื่น ๆ เช่น Microsoft Translator หรือบริษัทสตาร์ตอัพที่มุ่งเน้นการแปลแบบเรียลไทม์ ความก้าวหน้าในด้าน speech‑to‑speech ของ Google อาจเร่งให้ผู้พัฒนาแอปพลิเคชันอื่น ๆ ต้องเร่งพัฒนาเทคโนโลยีที่คล้ายคลึงเพื่อไม่ให้ตกอยู่ในความล่าช้า

Summary

Google เปิดตัว Gemini 3.5 Live Translate เป็นโมเดลแปลเสียง‑เป็น‑เสียงที่รองรับกว่า 70 ภาษาและมี latency ที่ลดลงอย่างมาก การเปิดตัวนี้เป็นการต่อยอดจากเวอร์ชัน Flash ปัจจุบันและคาดว่าจะมีรุ่น Pro เพิ่มประสิทธิภาพในเร็ว ๆ นี้ ซึ่งอาจส่งผลต่อการสื่อสารข้ามภาษาทั้งในชีวิตประจำวันและภาคธุรกิจ.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation
ผู้เขียน
Ryan Whitwam
แหล่ง
Ars Technica
วันที่เผยแพร่
10 มิถุนายน 2569 เวลา 01:57

Related

บทความที่เกี่ยวข้อง

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhoneAI
16 มิถุนายน 2569 เวลา 05:00

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

iOS 27 เปิดตัวแอป Siri แยกเป็นสแตนด์อโลนบนหน้าจอหลักของ iPhone ทำให้ผู้ใช้เรียกใช้บริการ AI ได้โดยตรงจากไอคอนเดียว…

9to5Mac8 นาที
ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…AI
16 มิถุนายน 2569 เวลา 03:30

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ผู้เขียนทดลองใช้ NotebookLM ของ Google ร่วมกับ Claude ของ Anthropic เพื่อสรุปข้อมูลและแปลงเป็นขั้นตอนปฏิบัติ ลดเวลาการอ่านและจดโน้ตหลายชั่วโมง

XDA Developers6 นาที
ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
คัดลอกลิงก์แล้ว!