الوقت - أطلقت شركة ميتا نموذجها الجديد “Spirit LM” المفتوح المصدر الذي يُعنى بمعالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في الذكاء الاصطناعي في توليد الأصوات.
ويهدف النموذج الجديد إلى تقديم تجربة صوتية طبيعية وأكثر تعبيرًا، مما يشكّل خطوة متقدمة في تطوير الروبوتات الذكية القادرة على التواصل الصوتي بنحو أكثر تعقيدًا وواقعية.
ويعتمد نموذج “Spirit LM” على نموذج لغوي مُدرّب سابقًا يحتوي على 7 مليارات مَعلمة، ويتميز بقدرته على معالجة الصوت بنحو مختلف عن النماذج التقليدية التي تعتمد على تقنيات تعرّف الكلام تلقائيًا (ASR).
وتُشير “ميتا” إلى أن النهج التقليدي يؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت. ولذلك، يعتمد “Spirit LM” على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، مما يمكّنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل تعرّف الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.