يتعرف نموذج الذكاء الاصطناعي الخاص بـ OpenAI تلقائيًا على الكلام ويترجمه إلى اللغة الإنجليزية

يتعرف نموذج الذكاء الاصطناعي الخاص بـ OpenAI تلقائيًا على الكلام ويترجمه إلى اللغة الإنجليزية

بنج إدواردز / آرس تكنيكا

يوم الأربعاء ، أصدرت شركة OpenAI نموذجًا جديدًا للذكاء الاصطناعي مفتوح المصدر يسمى Whisper يتعرف على الكلام ويترجمه بمستوى قريب من الإدراك البشري. يمكنك نسخ المقابلات والبودكاست والمحادثات والمزيد.

قام OpenAI بتدريب Whisper باستخدام 680.000 ساعة من بيانات الكلام التي تم جمعها من الويب ومطابقة النصوص في حوالي 10 لغات. وفقًا لـ OpenAI ، أدى نهج المجموعة المفتوحة هذا إلى “تحسين متانة اللهجات وضوضاء الخلفية والمصطلحات الفنية.” يمكنه أيضًا اكتشاف الكلمات المنطوقة وترجمتها إلى اللغة الإنجليزية.

يصف OpenAI Whisper على أنه محول فك التشفير ، وهو نوع من الشبكات العصبية التي يمكن أن تتعلم الارتباطات التي يمكن تحويلها إلى مخرجات نموذجية باستخدام السياق المستخلص من بيانات الإدخال. يوضح برنامج OpenAI كيفية عمل Whisper:

يتم تقسيم صوت الإدخال إلى أجزاء 30 ثانية ، وتحويلها إلى مخططات طيفية لوغاريتمية ، وتمريرها إلى المشفر. يتم تدريب أجهزة فك التشفير على التنبؤ بالتعليقات النصية المقابلة ، وأداء المهام مثل تحديد اللغة ، والطوابع الزمنية على مستوى العبارة ، ونسخ الكلام متعدد اللغات ، وترجمة الكلام من الإنجليزية إلى الإنجليزية في نموذج واحد.

من خلال المصدر المفتوح Whisper ، تأمل OpenAI في تقديم نماذج أساسية جديدة يمكن للآخرين بناؤها في المستقبل لتحسين معالجة الكلام وأدوات الوصول. OpenAI لديها سجل حافل مهم على هذه الجبهة. في يناير 2021 ، أصدرت شركة OpenAI CLIP ، وهو نموذج رؤية كمبيوتر مفتوح المصدر. ليس من المبالغة القول إن هذا النموذج أطلق شرارة العصر الحديث لتقنيات توليف الصور المتطورة بسرعة مثل DALL-E 2 و Stable Diffusion.

اختبرت Ars Technica Whisper من الكود المتاح على GitHub وقدمت عدة عينات ، بما في ذلك حلقة بودكاست وقسم صوتي صعب بشكل خاص من مقابلة عبر الهاتف. استغرق الأمر بعض الوقت للتشغيل على وحدة المعالجة المركزية لسطح المكتب من Intel (التقنية لا تعمل في الوقت الفعلي حتى الآن) ، لكن Whisper قام بعمل ممتاز في تحويل الكلام إلى نص عبر برنامج Python التوضيحي. خدمة نسخ صوتي جربتها في الماضي.

يتسع / مثال لإخراج وحدة التحكم من برنامج Whisper التوضيحي لـ OpenAI الذي يقوم بنسخ بودكاست.

بنج إدواردز / آرس تكنيكا

من خلال الإعداد الصحيح ، يمكن استخدام Whisper في نسخ المقابلات وملفات البودكاست بسهولة ، فضلاً عن ترجمة المدونات الصوتية المكتوبة بلغات أخرى غير الإنجليزية إلى الإنجليزية مجانًا على جهازك. هذا مزيج قوي يمكن أن يؤدي في النهاية إلى تعطيل صناعة النسخ.

مثل كل نموذج ذكاء اصطناعي رئيسي جديد تقريبًا هذه الأيام ، يجلب Whisper فوائد إيجابية وإمكانية إساءة الاستخدام. في نموذج بطاقة Whisper (ضمن قسم “التأثير الأوسع”) ، تحذر OpenAI من إمكانية استخدام Whisper لأتمتة المراقبة وتحديد المتحدثين الفرديين في المحادثات ، لكن الشركة تقول إننا نريد استخدامها “في المقام الأول لأغراض مربحة”.