مشكلات محركات البحث العملاقة مع اللغة العربية

الكاتب: قيس الخطيب

شركة الخوارزمي لبرمجيات اللغةأود أن أشكر د. حسام محجوب المدير التنفيذي وأستاذ محمد جمال مدير المنتج من شركة الخوارزمي لبرمجيات اللغة العربية ومحركات البحث على تعاونهم وقبول دعوتي على نشر مقالتهم القيمة بعنوان ” مشكلات محركات البحث العملاقة مع اللغة العربية” والتي تهم الباحث والمستخدم العربي في التعرف على هذه الأمور في محركات البحث العالمية والعربية.

يهمنا جدا أن نتعرف علي الأسباب التي لم تدعُ الشركات العالمية الكبيرة والعاملة في مجال معالجة اللغة الطبيعية NLP إلي دخول السوق العربية, والعمل علي تطوير محرك بحث عربي ذكي بالقدر الكافي. فلنلقِ أولا نظرة على إحدى المحركات العالمية المعروفة, لننظر إلى إمكانيات البحث باللغة العربية التي يقدمها هذا المحرك.

محرك بحث عالمي - جوجل

دعنا نبحث في “جوجل“1 عن كلمة بسيطة مثل ” تنظيم”, ونرشده لأن يقنن البحث داخل موقع “شبكة إسلام أون لاين“2 فقط:

صفحة بحث متقدم

إذا طالعنا صفحات النتائج, سنجد أن “جوجل” يخرج لنا فقط كل الفقرات التي احتوت علي كلمة “تنظيم” كما هي:

صفحة نتائج البحث - جوجل

لنطالع مجموعة أخرى من النتائج:

مجموعة أخرى من نتائج البحث

نجد نفس النتيجة. إذن لننتقل للصفحة الأخيرة من النتائج:

مجموعة أخرى من نتائج البحث

لن يعطينا “جوجل” أي نتائج مختلفة, لن يخرج كلمة “منظمة” أو “منظمات” أو “تنظيمهم” .. إلخ. دعنا نأخذ نتيجة واحدة فقط من نتائج البحث إذا استخدمنا نفس الكلمة داخل محرك KSearch3:

محرك البحث KSearch

ها هي النتائج التي ستظهر من موقع “إسلام أون لاين”:

نتائج بحث من موقع

لنتصفح صفحة إحدى النتائج:

صفحة إحدى النتائج

وفي نفس الصفحة من أسفل نجد:

صفحة إحدى النتائج

يتضح من هنا بشكل قوي (وعبر مثال واحد فقط), أن محرك البحث “جوجل” لا يغطي اللغة العربية بالشكل الذي يناسب المستخدم العربي, وإنما يقوم بالبحث علي غرار نمط اللغة الإنجليزية – والذي يعطي نتائج فعالة في اللغة الإنجليزية, لكن العكس في العربية غير صحيح. دعنا نبحث في “جوجل” عن كلمة Drink:

صفحة نتائج بحث لكلمة Drink

ومن الصفحة الأولى مباشرة , نجد أن نتائج “جوجل” تغطي كلمات مثل “Drinks” بمعني “مشروبات” (انظر إلى الفقرة الثالثة), إلا أن جوجل لن يعطيك كلمة “مشروبات” إذا بحثت بالعربية عن “يشرب”.

لماذا لا يهتم العمالقة باللغة العربية:

لنأخذ أيضا “جوجل” كمثال يوضح لنا عدم الاهتمام؛ إن “جوجل” تحقق أرباحها بشكل أساسي من سوق الإعلانات, وتحقق أرباحا بحجم 1,56 مليار دولار في الربع السنوي الواحد (3 شهور)4, بينما سوق الإعلانات العربية مجتمعا يحقق 10 مليون دولارا فقط سنويا!

يمكننا إدراك الفرق إذا نظرنا إلي صفحة “جوجل” العربية, لن نجد في نتائج البحث أي روابط إعلانية إلا نادرا (انظر الشكل 3) , بينما سنجد روابط إعلانية في صفحات نتائج أي كلمة نقوم بالبحث عنها بالإنجليزية (انظر الشكل 11)5.

سوق الإعلان العربي, يحتل فيه الإعلان الإلكتروني المرتبة رقم (100) بين وسائل الإعلان الأخرى.

لتلك الأسباب لم تتجشم “جوجل” وغيرها عناء تطوير محركاتها لتلائم العربية, لأنها لا تهتم (حاليا) بالسوق العربي المحدود, وربما تنتظر لأن يصبح أكثر نضوجا مما يحقق لها الأرباح التي تسعي إليها.

الأسباب اقتصادية بحتة, ثم هناك أسباب تقنية بالدرجة الثانية, فالغرب عندما يريد إنجاز تطبيق إلكتروني يتعلق باللغة العربية, غالبا ما يلجأ للعرب أنفسهم لأنهم أكثر خبرة بلغتهم ذات الخصائص المعقدة والفريدة, ولأن التقنيين العرب نادرون فإن التطبيقات أيضا نادرة, والعمل والبحث في هذا المجال نادر أيضا (مثال: الشركة التي قامت بتطوير المدقق الإملائي Spell Checker العربي لشركة مايكروسوفت هي شركة 6Coltec المصرية).

وقد حاول الغرب إيجاد حل لندرة الخبرات العربية, وحاولوا إنجاز المهمات بتوظيف بعض الكوادر العربية في شركاتهم، إلا أن محاولاتهم كانت ضعيفة للغاية. يكفي أن تعرف أن خدمة الترجمة إلي العربية التي تقدمها Yahoo و AltaVista قامت بتطويرها شركة Systran7 الفرنسية الأصل, وعندما تطلب منها ترجمة جملة بسيطة مثل:

“Ahmad went to meet his friend Ali” تقوم بترجمتها إلى: “أحمد ذهب أن يلتقي صديقته علي”!!!

وربما ترجع أسباب الضعف في هذه النظم إلى سببين رئيسيين:

أولهما أن الغالبية من هذه الشركات تقتني نُظما تعمل بصورة جيدة مع اللغات الأوروبية وخاصة الإنجليزية، وعند محاولة انصياع أو تطويع اللغة العربية لهذه النظم تصبح ضعيفة. الفكر الساذج أنه بذلك قد تم “تعريب” النظام فكرٌ خاطئ؛ يجب أن يقوم المتخصصون من العرب بتطوير مثل هذه النظم بأنفسهم، حتى تُراعى خصائص اللغة العربية الفريدة والمعقدة.

وثاني هذه الأسباب ترجع إلى أن حقل المعالجة الحاسوبية للغات الطبيعية يحتـّم نوعا من التداخل بين مجالين، هما علم الحاسوب وعلم اللغة. لذا فإن طبيعة العمل في هذا الحقل يتطلب تلاحما بين أخصائي كلّ ٍ من المجالين اللذين سبق ذكرهما، مما يوجب عمل الباحثين والمطوّرين واللغويين جنبا إلى جنب؛ وجدير بالذكر هنا أن أبرز المتخصصين ذوي مستوى مرموق في علم اللغة، موجودون في الجامعات العربية. ومن هنا يمكننا أن نستنتج أن أقوى التطبيقات في هذا الحقل سوف تنبع من داخل البيئة العربية.

وبذلك يمكننا أن نعضد حقيقة معروفة وهي أن التكنولوجيا تنبع من البيئة التي تخدمها وأنه لا يمكن أن تـُنقل أو تـُورّد أو تـُستورد؛ “نقل التكنولوجيا” فكر خاطئ لدرجة كبيرة. ومن ثـَمّ فإن أقوى التطبيقات العربية، التي تحتوي على معالجة للغة العربية، وليدة بيئتها العربية.


http://www.google.com 1
http://www.islamonline.net 2
http://www.alkhawarizmy.com/ksearch 3
4 المصدر: صفحة الويب الخاصة بعلاقات المستثمرين – جوجلhttp://investor.google.com
5 المصدر:Herman Haverman مدير إدارة سيكبورت لوكالة “رويترز” الثلاثاء 25-3-2006 (منقول عن شبكة IslamOnLine.net)
http://www.coltec.net 6
http://www.systransoft.com 7



2 ردود to “مشكلات محركات البحث العملاقة مع اللغة العربية”

  1. علاء هلسا Says:

    أنا معك أخي قيس في كل ما قيل سابقا، فالمشكلة الأساسية أن نسبة المستخدمين العرب قليلة و نسبة المعلنيين أقل، و نسبة قارئي الإعلانات أقل بكثير، و نسبة نجاح الإعلان لا تكاد تذكر. نحن بحاجة ماسة لوسيلة إعلان ناجحة تتلائم مع تفكير المستخدم العربي. المستخدم العربي للإنترنت سلبي نوعا ما وخواف من أن تسرق نقوده دون علم منه، و لنذكر أن الاعلام العربي في مجال التلفزة لا يرقى إلى المستوى المطلوب و منحصر في مواضيع سطحية في الغالب تعتمد على الإثارة و الجذب اكثر من توصيل رسالة معينة. فلا أتوقع إذن رقي في مجال الانترنت العربية، ما دام الوضع على ما هو عليه.

  2. عمار Says:

    لا أدري لماذا يصر العرب على بناء مملكتهم الخاصة في عصر العولمة ..

أترك ردك