الترميز المعنوي للغة العربية

من ويكي عربآيز
نسخة 09:47، 8 يوليو 2014 للمستخدم Abdilra7eem (ناقش | مساهمات)
(فرق) → نسخة أقدم | النسخة الحالية (فرق) | نسخة أحدث ← (فرق)
اذهب إلى: تصفح، ابحث

This page is in English under semantic Arabic Encoding and Format

Arabic.png

مشروع الترميز المعنوي والاشتقاقي للغة العربية

هذه المعلومات عرضة للتبدل بشكل دائم خلال سير المشروع
وأي مقترحات أو مساهمات هي محل ترحيب كبير

حوار حول الترميز

حاليا هناك حوار حول المخطط الجديد والقراءة الصوتية لمشروع الترميز في منتدى الجمعية الدولية للمترجمين واللغويين العرب

يمكن تحميل عرض كامل بالمشروع مستند المكتب المفتوح

نظرة أولية

ما يزال تعامل الحاسب مع اللغة العربية قاصرا مقارنة باللغات الأخرى خصوصا الإنكليزية سواء على مستوى النص من حيث الشكل والتخزين ومشاكل الترميز والمعالجة أو من ناحية التعامل مع المعنى الذي يتضمنه النص وبما أن العربية بخلاف اللغات الأوربية لغة اشتقاقية أي أن هناك نظاما صارما يربط بناء الكلمات العربية بالعلاقات المعنوية والمنطقية لهذه الكلمات

فإن هذا يبرر السعي إلى آلية مختلفة تستفيد من بنية العربية الاشتقاقية وتسد الحاجات الملحة إلى معالجة نقص التشكيل والمعنى للغة العربية

أهداف المشروع

يهدف مشروع الترميز المعنوي للعربية إلى وضع آلية لتخزين النصوص (الكلمات) العربية متضمنة بناءها وعلاقاتها الاشتقاقية بالشكل الذي يعكس أكبر ما يمكن من ترابط المعاني

  • للتطور ليتضمن المعنى وبناء الجملة
  • توليد معجم اشتقاقي عربي غير جدولي يكون أساسا لمعجم عربي شامل
  • سهولة البحث والتصنيف سواء على مستوى الاشتقاق أو على المستوى المعنوي
  • إمكانية ربط الترميز مع آلية عكسية تشكل مدققا إملائيا ثم نحويا وهو أول منتج حقيقي يجب أن نسعى لتطويره بحيث يشكل مدققا إملائيا تفاعليا ... وتسهيلا للكتابة بالفصحى .. وقاموسا فعالا للمفردات والمصطلحات
  • أن يمثل المشروع العلاقات البنيوية داخل اللغة العربية بحيث يصبح أساسا لإكمال الدراسات العلائقية والصوتية العربية بناءا على التوليد الآلي والتشابه مع العلاقات الرقمية
  • أن يتمكن النظام من تسهيل التعامل مع الفصحى وكتابتها بدقة وزيادة شيوعها وتخزين النصوص مشكلة نقص التشكيل ((حاليا أقل من 1% من النصوص العربية مشكلة)) ثم إيجاد آلية لنقل النصوص العربية إلى البناء المشكل والمترابط
  • تمييز الكلمات غير العربية ((غير المشتقة من أصل أو أنها لا تخضع لنظام التعريب )) ووضعها من خلال إطار يجب أن يوجد وهو كلمة مستعربة أو غير عربية وهي جزء لا يتجزأ من بنية الترميز وأما بالنسبة للمثالين ولا يكتمل نظام ترميز ما لم يتم تقعيد هذه الأمور وليس هناك دراسات يمكن تقعيدها منطقيا بهذا الشأن حيث يصعب الاستفادة من بحث الأستاذ حسن عباس ومهمتنا التعاون لتحويل أمثال هذه الدراسات إلى بناء منطقي
  • وضع نظام لتضمين موجهات داخل الترميز بحيث يستخدم لاحقا لحمل آليات مشابهة لـ XML or SQL أو أي أنظمة توجيه آلية أخرى RDF

الفكرة الحالية للمشروع

تقوم فكرة المشروع حاليا كما أراها على تجاوز التعامل مع النص العربي كسلسلة محارف الترميز الحرفي والتعامل مع الكلمة ككل ترميز الكلمة وفق آلية تصنيفية تتابعية تشبه بناء تعليمة المعالج مع محاولة الحفاظ على ثبات طول الرمز وسهولة التعامل معه من خلال لغات البرمجة العليا

سير المشروع

أنجزنا حاليا تصورا أوليا للمشروع ووضعنا مخططا مبدئيا للترميز كما وضع الأخ خلدون سنجاب برنامجا بسيطا لتوضيح أبسط فكرة ترميز

نحن حاليا بحاجة لقراءة واضحة لخصائص النطق الإنساني خصوصا الحروف العربية لتضمين الترميز قيودا رقمية تعكس القيود الصوتية سواء الإنسانية أو التي تخص العربية من حيث تتالي حروف أو اجتماعها مما سيساهم في تخفيض الفضاء الكلي للترميز الذي تجب دراسته

كما أننا بحاجة إلى جدولة للكلمات الدخيلة والشاذة في العربية وقواعد الشذوذ ويبدو بأن جمعية المترجمين العرب في طريقها لإنجاز ذلك

كما نحتاج لحصر جدولي لأوزان المشتقات وآليات تصنيفها وارتباطاتها

وفي مرحلة متقدمة نحتاج إلى حصر لمتممات الكلمة من ضمائر متصلة أو حتى منفصلة وأحرف جر ....


حامد السحلي

-- hamed suhli

http://sourceforge.net/projects/tarmeez