أمازون تكشف عن Nova Sonic: نموذج صوتي ثوري للذكاء الاصطناعي
أمازون تكشف عن Nova Sonic: نموذج صوتي ثوري للذكاء الاصطناعي، والذي يُصمم لتحسين التفاعل الصوتي بشكل غير مسبوق، عبر توليد محادثات أكثر طبيعية تشبه الحوار البشري، ويستند هذا النموذج إلى تقنيات مبتكرة تهدف إلى منافسة أبرز الأنظمة الصوتية من OpenAI وجوجل، حيث يتفوق في مقاييس مثل سرعة الأداء، ودقة التعرف على الصوت، وجودة المحادثات.
“Nova Sonic” يمثل استجابة استراتيجية من أمازون لتطورات النماذج الصوتية الحديثة، مثل تلك التي تدعم وضع الصوت في ChatGPT، والتي باتت أكثر سلاسة مقارنةً بالنماذج السابقة مثل الإصدارات الأولى من أليكسا وسيري، هذه التحسينات التقنية الأخيرة جعلت المساعدات الصوتية القديمة تبدو أقل فعالية وواقعية.
النموذج متاح عبر منصة “أمازون Bedrock” المخصصة للمطورين، حيث يمكن للمؤسسات بناء تطبيقات متقدمة باستخدام واجهة برمجة تطبيقات (API) جديدة تدعم بث الصوت في كلا الاتجاهين، وفي تصريح رسمي، أكدت أمازون أن “Nova Sonic” هو الأكثر كفاءة من حيث التكلفة في السوق، حيث يُقدّر أنه أقل تكلفة بنسبة تصل إلى 80% مقارنةً بنموذج GPT-4o من OpenAI.
أوضح روهيت براساد، النائب الأول لرئيس أمازون وكبير علماء الذكاء الاصطناعي العام، أن هذا النموذج أصبح جزءًا من المساعد الصوتي المحسن “أليكسا بلس”، وهو يعد سمة رئيسية في تطوير الأنظمة الصوتية الذكية، “Nova Sonic” يتمتع بقدرة استجابة فورية في الحوارات الثنائية، حيث يراعي فترات الصمت والمقاطعات من الطرف الآخر، ويولد نصًا مكتوبًا يمكن للمطورين الاستفادة منه في تطبيقات متنوعة.
من أبرز مميزات هذا النموذج هو دقته الاستثنائية في التعرف على الكلام، حتى في البيئات المزدحمة أو عند التحدث بصوت منخفض أو غير واضح، وفقًا لاختبار “Multilingual LibriSpeech” للغات متعددة، سجل “Nova Sonic” معدل خطأ منخفض بلغ 4.2% عبر عدة لغات، منها الإنجليزية والفرنسية والإيطالية والألمانية والإسبانية.
علاوة على ذلك، في اختبار دقة التعرف الصوتي في الحوارات متعددة الأطراف (“Augmented Multi Party Interaction”)، تفوق “Nova Sonic” بنسبة 46.7% على نموذج GPT-4o-transcribe في تقليل الأخطاء الصوتية، كما أظهرت اختبارات السرعة أن النموذج يقدم استجابة متميزة بمتوسط تأخير لا يتجاوز 1.09 ثانية، متفوقًا على نموذج Realtime API من OpenAI، الذي يسجل 1.18 ثانية.
هذه الابتكارات تمثل جزءًا من استراتيجية أمازون الأوسع لتطوير الذكاء الاصطناعي العام (AGI)، الذي تهدف الشركة من خلاله إلى تمكين الأنظمة الذكية من أداء مهام بشرية عبر مختلف الوسائط، بما في ذلك الصور والفيديو والصوت، بالإضافة إلى بيانات حسية أخرى قد تفتح آفاقًا جديدة للتطبيقات الواقعية.