عاجل

ما سر ضعف المحتوى العربي في برامج الذكاء الاصطناعي؟

ارشيفية

ارشيفية

الأحد ١٢ مارس ٢٠٢٣ - ٢٣:٠١ م
42

مع التطورات المثيرة في الذكاء الاصطناعي التوليدي لإنشاء الصور والصوت والنصوص وفي النهاية الفيديو ، زادت أهمية تطوير المحتوى العربي على "الويب" حيث يؤدي ذلك إلى تحسين الذكاء الاصطناعي التوليدي عند معالجته باللغة العربية. مستوى الذكاء الاصطناعي ، مثل هذا المستوى مرتبط بحجم المحتوى الذي يجري التدريب عليه.

ولاختبار مستوى الذكاء الاصطناعي التوليدي لـ "شات جي بي تي" عند التخاطب معه بالعربية، طلب منه ما يلي "اكتب بضع فقرات عن سوريا خلال الحرب العالمية الثانية".

وتم تكرار الطلب عدة مرات بالعربية وصيغ مختلفة، وجاءت إجاباته ركيكة بل وتضمن بعضها هلوسات، إذ قال في إحدى إجاباته "عام 1941، غزا الجيش الألماني بقيادة الجنرال إرفين رومل سوريا من الجنوب..". وعند تكرار الطلب عدة مرات أخرى ولكن بالإنجليزية جاءت الإجابات أفضل بكثير.

ولم تقتصر التجربة على السؤال السابق، بل طرحت عليه مجموعة أسئلة، مرة بالعربية ومرة بالإنجليزية، فجاءت معظم إجاباته الإنجليزية أفضل من إجاباته العربية.

وبشكل عام لا يمكن حتى الآن الاعتماد تماما على الذكاء الاصطناعي التوليدي لكتابة الموضوعات، ومن الضروري تدقيق الموضوعات التي ينتجها وتمحيص مصادر معلوماته.

ولكن ما أسباب انخفاض أداء الذكاء الاصطناعي التوليدي عند مخاطبته بالعربية عن أدائه عند مخاطبته بالإنجليزية؟ طلبنا من "شات جي بي تي" نفسه الجواب على هذا السؤال، مرة بالعربية وأخرى بالإنجليزية، فكانت الأسباب التي قدمها بالإنجليزية أكثر تفصيلاً، وفيما يلي عرض لها بعد ترجمتها إلى العربية:

– توافر البيانات: قد يكون مقدار بيانات التدريب لنماذج العربية أقل مقارنة بنماذج الإنجليزية، ويمكن أن يؤثر ذلك على دقة النموذج لأنه لم يتعرض لأكبر قدر من البيانات للتعلم منها.

– السياق الثقافي: يتم التحدث بالعربية في العديد من البلدان والثقافات المختلفة، مما قد يؤثر على طريقة استخدام اللغة وفهمها. وقد لا يكون النموذج قادرا على مراعاة جميع هذه السياقات الثقافية المختلفة.

وأضاف "بشكل عام، من المهم ملاحظة أن دقة نموذج اللغة يمكن أن تختلف اعتماداً على المهمة المحددة ومجموعة البيانات التي يتم التدريب عليها. بالإضافة إلى ذلك، كلما زادت البيانات والتدريب على النموذج، زادت دقته".

وتشير الأسباب السابقة -التي أدلى بها روبوت الذكاء الاصطناعي التوليدي المذكور- إلى أن الفجوة بين الذكاء الاصطناعي عند استخدام العربية وعند استخدام الإنجليزية ستزيد مع الوقت، إلا إذا قررت الدول العربية الغنية رصد مبالغ كبيرة للاستثمار في هذا المجال.

استخدام الإنترنت في الدول العربية


تشير الأرقام الصادرة عن الاتحاد الدولي للاتصالات إلى أن عدد مستخدمي الإنترنت عالمياً بلغ نحو 5.3 مليارات عام 2022 بنسبة انتشار تبلغ 66% من سكان العالم، وهي نسبة قريبة من نسبة انتشار الإنترنت بالبلدان العربية البالغة 65% (نحو 300 مليون مستخدم للإنترنت من عدد السكان البالغ نحو 460 مليونا عام 2022).

لكن نسبة انتشار الإنترنت في بلدان مجلس التعاون الخليجي أعلى بكثير، إذ قاربت 100% من عدد السكان القادرين عمرياً على استخدام الإنترنت. ويشكل هذا العدد الكبير من المستخدمين قاعدة جيدة لتنمية العربية المستخدمة على الشبكة العالمية، لكن هذا مرتبط بالمحتوى العربي الرقمي الفعلي المتوفر.
المحتوى الرقمي العربي على الإنترنت

يقدر عدد المواقع الإلكترونية على "الويب" بنحو ملياري موقع، لكن ليست كل المواقع نشطة حالياً. وتشير التقديرات إلى أن أقل من 200 مليون من هذا العدد هي النشطة بالفعل. أما بالنسبة للمواقع الإلكترونية النشطة التي تتضمن العربية كلياً أو جزئياً فتقدر بنحو 4% من الإجمالي، أي 8 ملايين موقع.

وتتحسن جودة تدريب الذكاء الاصطناعي التوليدى كلما كانت القاعدة اللغوية للتدريب أكبر. لكن الأمر لا يتعلق بعدد المواقع الإلكترونية أو كمية الكلمات العربية على الإنترنت كنسبة من إجمالي المواقع أو الكلمات، بل بكمية المعلومات التي تحملها تلك المواقع والكلمات.

أقرأ ايضا: موظف سابق بتيك توك.. بيانات مستخدمي التطبيق فى خطر



وبنهاية فبراير 2023، بلغ عدد الصفحات التي تستخدم العربية الفصحى على ويكيبيديا مثلا 8.029.342 في حين قدر عدد الصفحات الإنجليزية 57.698.387، أي ما يزيد على 7 أضعاف.

وبلغ إجمالي الصفحات بكافة اللغات 250.456.896 أي ما يزيد على 31 ضعفاً مقارنة بالعربية، حيث بلغت نسبة انتشار العربية الفصحى نحو 3.3% من الإجمالي.
استخدام الإنترنت بالبلدان العربية

تشير الأرقام الصادرة عن الاتحاد الدولي للاتصالات إلى أن عدد مستخدمي الإنترنت عالمياً بلغ نحو 5.3 مليارات عام 2022 بنسبة انتشار تبلغ 66% من سكان العالم، وهي نسبة قريبة من نسبة انتشار الإنترنت بالبلدان العربية البالغة 65% (نحو 300 مليون مستخدم للإنترنت من عدد السكان البالغ نحو 460 مليونا عام 2022).

لكن نسبة انتشار الإنترنت في بلدان مجلس التعاون الخليجي أعلى بكثير، إذ قاربت 100% من عدد السكان القادرين عمرياً على استخدام الإنترنت. ويشكل هذا العدد الكبير من المستخدمين قاعدة جيدة لتنمية العربية المستخدمة على الشبكة العالمية، لكن هذا مرتبط بالمحتوى العربي الرقمي الفعلي المتوفر.
المحتوى الرقمي العربي على الإنترنت

يقدر عدد المواقع الإلكترونية على "الويب" بنحو ملياري موقع، لكن ليست كل المواقع نشطة حالياً. وتشير التقديرات إلى أن أقل من 200 مليون من هذا العدد هي النشطة بالفعل. أما بالنسبة للمواقع الإلكترونية النشطة التي تتضمن العربية كلياً أو جزئياً فتقدر بنحو 4% من الإجمالي، أي 8 ملايين موقع.


أقرأ ايضا: محرك داك داك جو يضيف خاصية لاستخدام الذكاء الاصطناعي


وتتحسن جودة تدريب الذكاء الاصطناعي التوليدى كلما كانت القاعدة اللغوية للتدريب أكبر. لكن الأمر لا يتعلق بعدد المواقع الإلكترونية أو كمية الكلمات العربية على الإنترنت كنسبة من إجمالي المواقع أو الكلمات، بل بكمية المعلومات التي تحملها تلك المواقع والكلمات.

وبنهاية فبراير2023، بلغ عدد الصفحات التي تستخدم العربية الفصحى على ويكيبيديا مثلا 8.029.342 في حين قدر عدد الصفحات الإنجليزية 57.698.387، أي ما يزيد على 7 أضعاف.

وبلغ إجمالي الصفحات بكافة اللغات 250.456.896 أي ما يزيد على 31 ضعفاً مقارنة بالعربية، حيث بلغت نسبة انتشار العربية الفصحى نحو 3.3% من الإجمالي.



الأكثر قراءة
Latest-News-img
المركزي: ارتفاع إيرادات رسوم المرور بقناة السويس بمعدل 20.7% لتسجل 4.8 مليار دولار خلال 6 أشهر
Latest-News-img
النفط يتراجع عن أعلى مستوى في أشهر عدة متأثرا بارتفاع الدولار
Latest-News-img
جولدمان ساكس يتوقع ارتفاع سعر الذهب إلى 2300 دولار بنهاية 2024
Latest-News-img
الإحصاء: تراجع معدل التضخم السنوي لشهر مارس 2024
Latest-News-img
جوجل تحذف بيانات جمعتها من تصفح مستخدميها تفاديا لدعوى مرفوعة عليها
Latest-News-img
وزيرة التخطيط: 7.6 مليار جنيه قيمة الاستثمارات الموجهة للشرقية لتنفيذ 419 مشروعًا بخطة 23-2024
جديد الأخبار