أول نظام ذكاء اصطناعي ياباني يتحدث ويستمع في وقت واحد.. J-Moshi يحاكي البشر

الذكاء الاصطناعي الياباني يتقن فن "الأيزوتشي" ليستمع ويتكلم مثل البشر

18/07/2025آخر تحديث: 18/07/2025

2 دقائق

كيف يمكن تطوير نظام ذكاء اصطناعي يُحاكي تمامًا طريقة كلام البشر؟ لقد خطا باحثون في جامعة ناغويا باليابان خطوة مهمة نحو تحقيق ذلك، بابتكار «جيه-موشي»، أول نظام ذكاء اصطناعي متاح للعامة، مصمم خصيصًا لأنماط المحادثة اليابانية.

يجسد «جيه-موشي» التدفق الطبيعي للمحادثة اليابانية، التي غالبًا ما تتضمن استجابات لفظية قصيرة تُعرف باسم «أيزوتشي»، يستخدمها اليابانيون أثناء الحديث لإظهار الاستماع الفعّال والتفاعل.

تُستخدم عبارات مثل «سوديسو ني» (هذا صحيح) و«ناروهودو» (أرى) أكثر من مثيلاتها في الإنجليزية.

يواجه الذكاء الاصطناعي التقليدي صعوبة في استخدام «الأيزوتشي» لأنه لا يستطيع التحدث والاستماع في آنٍ واحد، وهي قدرة بالغة الأهمية للحوار الياباني الطبيعي.

لذا، اكتسب «جيه-موشي» شعبية كبيرة بين الناطقين باليابانية، الذين قدّروا أنماط محادثاته الطبيعية.

بناء نموذج موشي الياباني

قاد فريق من مختبر هيغاشيناكا بكلية الدراسات العليا للمعلوماتية عملية تطوير «جيه-موشي» عبر تكييف النموذج الإنجليزي «موشي» الذي طوره مختبر كيوتاي غير الربحي.

استغرق الأمر نحو أربعة أشهر، تخللها تدريب النظام على مجموعات بيانات متعددة من الكلام الياباني، أبرزها «J-CHAT» — أكبر قاعدة بيانات للحوار الياباني، أنشأتها جامعة طوكيو، وتضم نحو 67 ألف ساعة من التسجيلات الصوتية من بودكاست ويوتيوب.

كما استعان الفريق بمجموعات بيانات أصغر وأعلى جودة، بعضها قديم يعود لعقود. ولزيادة بيانات التدريب، حوّلوا محادثات مكتوبة إلى كلام اصطناعي باستخدام برامج نص إلى كلام طوروها خصيصًا.

في يناير 2024، حظي التطبيق باهتمام واسع بعد انتشار فيديوهات توضيحية على وسائل التواصل.

وبالإضافة إلى حداثته التقنية، يمكن أن يكون له تطبيقات عملية في تعليم اللغات ومساعدة غير الناطقين بها على فهم أنماط الحوار الطبيعي.

يبحث الفريق أيضًا في تطبيقات تجارية في مراكز الاتصال والرعاية الصحية وخدمات العملاء، لكن تكييف النظام لمجالات متخصصة يظل تحديًا بسبب ندرة بيانات الكلام الياباني مقارنة بالإنجليزية.

قائد الفريق وأفق البحث

يقدم البروفيسور ريوتشيرو هيغاشيناكا، قائد الفريق، منظورًا فريدًا، إذ أمضى 19 عامًا كباحث مؤسسي في شركة «NTT» قبل انضمامه إلى جامعة ناجويا.

عمل على أنظمة وكلاء الصوت ومشاريع مثل «Shabette Concier» لخدمات الأسئلة والأجوبة الصوتية.

وفي عام 2020 أسس مختبره الخاص الذي يضم 20 عضوًا، ويعمل على ربط البحث النظري بالتطبيق العملي، من فهم توقيت المحادثة إلى نشر تقنيات الذكاء الاصطناعي في الأماكن العامة.

الفرص والتحديات

يوضح البروفيسور هيغاشيناكا أن التحديات في اليابان تشمل ندرة موارد الكلام ومخاوف الخصوصية.

لذلك لجأ الباحثون لحلول مبتكرة، مثل فصل أصوات المتحدثين في تسجيلات البث الصوتي، واستخدام برامج نص إلى كلام لتوليد بيانات إضافية.

ما زالت أنظمة الحوار تواجه صعوبات في المواقف الاجتماعية المعقدة والبيئات المادية، وأظهرت اختبارات في حوض أسماك «نيفِرل» أن الذكاء الاصطناعي يحتاج أحيانًا لتدخل بشري.

لكن الفريق يعمل على تحسين الأنظمة لتقليل هذه العقبات، عبر تقنيات تلخيص الحوار واكتشاف الأعطال.

يتجاوز بحث المختبر «جيه-موشي» ليشمل تطوير روبوتات تنسق الكلام مع الإيماءات والحركة للتواصل الطبيعي، بالتعاون مع شركات مثل «يونيتري روبوتيكس». ويعرض الفريق أعماله بانتظام للجمهور خلال فعاليات الحرم الجامعي.

قُبلت ورقتهم البحثية للنشر في مؤتمر «Interspeech»، أكبر مؤتمر دولي لتقنيات الكلام، والمزمع عقده في روتردام في أغسطس 2025.

“في المستقبل القريب، سنشهد أنظمة تتعاون بسلاسة مع البشر عبر الكلام والإيماءات الطبيعية. أطمح لتطوير التقنيات الأساسية لهذا المجتمع المتحوّل”، كما قال البروفيسور هيجاشيناكا.