مشكلات محركات البحث العملاقة مع اللغة العربية
الكاتب: قيس الخطيب
أود أن أشكر د. حسام محجوب المدير التنفيذي وأستاذ محمد جمال مدير المنتج من شركة الخوارزمي لبرمجيات اللغة العربية ومحركات البحث على تعاونهم وقبول دعوتي على نشر مقالتهم القيمة بعنوان ” مشكلات محركات البحث العملاقة مع اللغة العربية” والتي تهم الباحث والمستخدم العربي في التعرف على هذه الأمور في محركات البحث العالمية والعربية.
يهمنا جدا أن نتعرف علي الأسباب التي لم تدعُ الشركات العالمية الكبيرة والعاملة في مجال معالجة اللغة الطبيعية NLP إلي دخول السوق العربية, والعمل علي تطوير محرك بحث عربي ذكي بالقدر الكافي. فلنلقِ أولا نظرة على إحدى المحركات العالمية المعروفة, لننظر إلى إمكانيات البحث باللغة العربية التي يقدمها هذا المحرك.

دعنا نبحث في “جوجل“1 عن كلمة بسيطة مثل ” تنظيم”, ونرشده لأن يقنن البحث داخل موقع “شبكة إسلام أون لاين“2 فقط:

إذا طالعنا صفحات النتائج, سنجد أن “جوجل” يخرج لنا فقط كل الفقرات التي احتوت علي كلمة “تنظيم” كما هي:

لنطالع مجموعة أخرى من النتائج:

نجد نفس النتيجة. إذن لننتقل للصفحة الأخيرة من النتائج:

لن يعطينا “جوجل” أي نتائج مختلفة, لن يخرج كلمة “منظمة” أو “منظمات” أو “تنظيمهم” .. إلخ. دعنا نأخذ نتيجة واحدة فقط من نتائج البحث إذا استخدمنا نفس الكلمة داخل محرك KSearch3:

ها هي النتائج التي ستظهر من موقع “إسلام أون لاين”:

لنتصفح صفحة إحدى النتائج:

وفي نفس الصفحة من أسفل نجد:


يتضح من هنا بشكل قوي (وعبر مثال واحد فقط), أن محرك البحث “جوجل” لا يغطي اللغة العربية بالشكل الذي يناسب المستخدم العربي, وإنما يقوم بالبحث علي غرار نمط اللغة الإنجليزية – والذي يعطي نتائج فعالة في اللغة الإنجليزية, لكن العكس في العربية غير صحيح. دعنا نبحث في “جوجل” عن كلمة Drink:

ومن الصفحة الأولى مباشرة , نجد أن نتائج “جوجل” تغطي كلمات مثل “Drinks” بمعني “مشروبات” (انظر إلى الفقرة الثالثة), إلا أن جوجل لن يعطيك كلمة “مشروبات” إذا بحثت بالعربية عن “يشرب”.
لماذا لا يهتم العمالقة باللغة العربية:
لنأخذ أيضا “جوجل” كمثال يوضح لنا عدم الاهتمام؛ إن “جوجل” تحقق أرباحها بشكل أساسي من سوق الإعلانات, وتحقق أرباحا بحجم 1,56 مليار دولار في الربع السنوي الواحد (3 شهور)4, بينما سوق الإعلانات العربية مجتمعا يحقق 10 مليون دولارا فقط سنويا!
يمكننا إدراك الفرق إذا نظرنا إلي صفحة “جوجل” العربية, لن نجد في نتائج البحث أي روابط إعلانية إلا نادرا (انظر الشكل 3) , بينما سنجد روابط إعلانية في صفحات نتائج أي كلمة نقوم بالبحث عنها بالإنجليزية (انظر الشكل 11)5.
سوق الإعلان العربي, يحتل فيه الإعلان الإلكتروني المرتبة رقم (100) بين وسائل الإعلان الأخرى.
لتلك الأسباب لم تتجشم “جوجل” وغيرها عناء تطوير محركاتها لتلائم العربية, لأنها لا تهتم (حاليا) بالسوق العربي المحدود, وربما تنتظر لأن يصبح أكثر نضوجا مما يحقق لها الأرباح التي تسعي إليها.
الأسباب اقتصادية بحتة, ثم هناك أسباب تقنية بالدرجة الثانية, فالغرب عندما يريد إنجاز تطبيق إلكتروني يتعلق باللغة العربية, غالبا ما يلجأ للعرب أنفسهم لأنهم أكثر خبرة بلغتهم ذات الخصائص المعقدة والفريدة, ولأن التقنيين العرب نادرون فإن التطبيقات أيضا نادرة, والعمل والبحث في هذا المجال نادر أيضا (مثال: الشركة التي قامت بتطوير المدقق الإملائي Spell Checker العربي لشركة مايكروسوفت هي شركة 6Coltec المصرية).
وقد حاول الغرب إيجاد حل لندرة الخبرات العربية, وحاولوا إنجاز المهمات بتوظيف بعض الكوادر العربية في شركاتهم، إلا أن محاولاتهم كانت ضعيفة للغاية. يكفي أن تعرف أن خدمة الترجمة إلي العربية التي تقدمها Yahoo و AltaVista قامت بتطويرها شركة Systran7 الفرنسية الأصل, وعندما تطلب منها ترجمة جملة بسيطة مثل:
“Ahmad went to meet his friend Ali” تقوم بترجمتها إلى: “أحمد ذهب أن يلتقي صديقته علي”!!!
وربما ترجع أسباب الضعف في هذه النظم إلى سببين رئيسيين:
أولهما أن الغالبية من هذه الشركات تقتني نُظما تعمل بصورة جيدة مع اللغات الأوروبية وخاصة الإنجليزية، وعند محاولة انصياع أو تطويع اللغة العربية لهذه النظم تصبح ضعيفة. الفكر الساذج أنه بذلك قد تم “تعريب” النظام فكرٌ خاطئ؛ يجب أن يقوم المتخصصون من العرب بتطوير مثل هذه النظم بأنفسهم، حتى تُراعى خصائص اللغة العربية الفريدة والمعقدة.
وثاني هذه الأسباب ترجع إلى أن حقل المعالجة الحاسوبية للغات الطبيعية يحتـّم نوعا من التداخل بين مجالين، هما علم الحاسوب وعلم اللغة. لذا فإن طبيعة العمل في هذا الحقل يتطلب تلاحما بين أخصائي كلّ ٍ من المجالين اللذين سبق ذكرهما، مما يوجب عمل الباحثين والمطوّرين واللغويين جنبا إلى جنب؛ وجدير بالذكر هنا أن أبرز المتخصصين ذوي مستوى مرموق في علم اللغة، موجودون في الجامعات العربية. ومن هنا يمكننا أن نستنتج أن أقوى التطبيقات في هذا الحقل سوف تنبع من داخل البيئة العربية.
وبذلك يمكننا أن نعضد حقيقة معروفة وهي أن التكنولوجيا تنبع من البيئة التي تخدمها وأنه لا يمكن أن تـُنقل أو تـُورّد أو تـُستورد؛ “نقل التكنولوجيا” فكر خاطئ لدرجة كبيرة. ومن ثـَمّ فإن أقوى التطبيقات العربية، التي تحتوي على معالجة للغة العربية، وليدة بيئتها العربية.
http://www.google.com 1
http://www.islamonline.net 2
http://www.alkhawarizmy.com/ksearch 3
4 المصدر: صفحة الويب الخاصة بعلاقات المستثمرين – جوجلhttp://investor.google.com
5 المصدر:Herman Haverman مدير إدارة سيكبورت لوكالة “رويترز” الثلاثاء 25-3-2006 (منقول عن شبكة IslamOnLine.net)
http://www.coltec.net 6
http://www.systransoft.com 7




مايو 14th, 2007 at 1:43 م
أنا معك أخي قيس في كل ما قيل سابقا، فالمشكلة الأساسية أن نسبة المستخدمين العرب قليلة و نسبة المعلنيين أقل، و نسبة قارئي الإعلانات أقل بكثير، و نسبة نجاح الإعلان لا تكاد تذكر. نحن بحاجة ماسة لوسيلة إعلان ناجحة تتلائم مع تفكير المستخدم العربي. المستخدم العربي للإنترنت سلبي نوعا ما وخواف من أن تسرق نقوده دون علم منه، و لنذكر أن الاعلام العربي في مجال التلفزة لا يرقى إلى المستوى المطلوب و منحصر في مواضيع سطحية في الغالب تعتمد على الإثارة و الجذب اكثر من توصيل رسالة معينة. فلا أتوقع إذن رقي في مجال الانترنت العربية، ما دام الوضع على ما هو عليه.
مايو 14th, 2007 at 4:51 م
لا أدري لماذا يصر العرب على بناء مملكتهم الخاصة في عصر العولمة ..