Professional Documents
Culture Documents
األنطولوجيات
()2 ()1
حسام الحمصي ريما القمحة
hussam.alhomsy@gmail.com reema47@gmail.com
قسم الرياضيات – كلية العلوم – جامعة دمشق – سورية
الملخص
ّ
نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية .حيث نفذنا الخوارزمية على
5أنطولوجيات عبر برنامج بلغة الجافا ،ثم عالجنا النصوص بحيث حصلنا على
666333مفردة مع أوزانها المقابلة لكل أنطولوجيا .وقد أثبتت الخوارزمية فعاليتها في
تحسين أداء المصنفات التي تم تجربتها في هذه الدراسة وهي ) )NB، SVMمقارنة مع
نتائج مصنفات اللغة العربية السابقة.
Abstract
In this paper, we introduce an algorithm for grouping Arabic
documents for building an ontology and its words. We execute the
algorithm on five ontologies using Java. We manage the
documents by getting 666333 words with its weights
corresponding to each ontology. The algorithm had proved its
efficiency in optimizing classifiers (SVM, NB) performance, which
we tested in this study, comparing with former classifiers results
for Arabic language.
2
-1المقدمة:
مسألة تصنيف النصوص هي مسألة هامة في الوقت الراهن على الرغم من قدمها ،فمع
تطور التكنولوجيا والحجم الهائل من المعلومات في شتى المجاالت أصبحت الحاجة ملحة
إلى خوارزميات وأدوات جديدة تسرع وتزيد دقة تصنيف النصوص.
تستخدم عملية تصنيف النصوص في عدة تطبيقات مثل تصفية النصوص ،تصفية رسائل
البريد االلكتروني المزعجة ،spamتصفية الرسائل االلكترونية ،التحكم باألخبار ،الفهرسة،
تنظيم واسترجاع المستندات ] .[1وتصنيف النصوص بشكل عام تهدف إلى تحديد انتماء
نص ما إلى فئة معينة أو إلى غيرها من الفئات.
وتلعب األنطولوجيا دو اًر كبي ار في اآلونة األخيرة في كثير من التطبيقات واألنظمة البرمجية
المتقدمة مثل محركات بحث المعلومات والبرامج المضادة للفيروسات .وتعرف األنطولوجيا
بأنها توصيف صريح (واضح) لمفاهيم مشتركة ] .[2فاألنطولوجيا تقدم تعريف ًا مشتركاً
للكائنات المدروسة والعالقات فيما بينها ] .[8وال يخفى ارتباط األنطولوجيا بالويب الداللي
الذي يعتبر الجيل القادم للويب ،فهي عامل رئيسي في تحقيق رؤية الويب الداللي.
إن تصنيف النصوص باستخدام األنطولوجي هي عملية واعدة بالنجاح كون األنطولوجيا
تقدم وصفا دقيقا للكائنات ومرادفات ألسمائها والعالقات فيما بينها وبالتالي عملية تصنيف
النصوص إلى مجموعة من األصناف تصبح أكثر دقة .العديد من الدراسات واألبحاث
اهتمت بموضوع تصنيف النصوص باستخدام األنطولوجيا .حيث قدم [ )2112( ]11نظاماً
يقوم بتصنيف صفحات الويب باستخدام األنطولوجيا ،وقد ركز البحث على تصنيف
المستندات باالعتماد على تشابه المصطلحات المستخرجة من صفحات الويب وعلى فئات
األنطولوجيا ،وألنه تم بناء األنطولوجيا(المفاهيم والعالقات بينها) يدويا وضمن مجال
مخصص لم توصف األنطولوجيا بدقة كبيرة ولم يتوقع منها دقة كبيرة .وقدم [)2113( ]3
آخر لتصنيف مستندات الويب يقوم بتصنيف المستندات عبر استخالصها من مجال
نظاماً اً
أنطولوجيا محدد ،وقد تم تطبيقه في جانبين هما المواد الكيميائية والبيانات النصية في
3
مجموعات موقع ياهوو االلكتروني ) ،(www.yahoo.comبالمقارنة مع نتائج مجال المواد
الكيميائية (صفحات الويب التي تحوي معلومات حول إنتاج بعض المواد الكيميائية) فإن
نتائج مجموعات ياهوو لم تظهر تحسينا ملحوظاً ،ونستنتج أن االنطولوجيا فعالة في حالة
وجود عدد كبير من المترادفات والعالقات التصنيفية .وفي [ )2116( ]11نظام آخر يعتمد
على أنطولوجيا لتصنيف األخبار من الصحف االلكترونية ،وقد اعتمد على أنطولوجيا أخبار
مبنية على أكواد أخبار مجلس االتصاالت الصحفي الدولي International Press
) ،Telecommunications Council (IPTCوتوصيف الموضوع محدد فقط بهرمية
ثالثية (اسم الموضوع ،مادة الموضوع ،تفاصيل الموضوع) بالتالي هذا النظام غير قادر
على تصنيف الكثير من المقاالت بدقة .وقدم ] )2112( [12برنامج حاسوبي للتصنيف
اآللي للمستندات -حسب مخططات DDCالتي تم إغناؤها بقائمة -Searsباستخدام
مجال أنطولوجي محدد يتعلق فقط بالفلسفة والمواضيع المتعلقة بما وراء الطبيعة وكما يمكن
تطبيق العالقات الداللية خارج األنطولوجيا ،ولكن مخططات DDCعددها محدود بسبب
صعوبة تطوير قواعد بيانات كهذه ،كما أن التنفيذ تم على 26مستند فقط تم اختيارها يدوياً
من .DDCوفي ] (2014) [1قدم خوارزمية لتصنيف مستندات الويب العربية واإلنكليزية
تدعى ) (BiLTcوقاموا بالدراسة على 6مجموعات فقط قاموا ببنائها يدويا هي إسالمي،
رياضة ،عالمي كل منها مؤلف من 611مستند باللغة العربية و 611مستند باللغة
اإلنكليزية ،وأظهرت نتائجهم تقدم مصنفهم على الدراسات السابقة المتعلقة باللغتين ،ونالحظ
أن آلية اختيار النصوص كانت يدوية ،كما أن عدد المجموعات ليس كبي ًار كفاية بحيث
تظهر دقة المصنف بشكل أكبر.
وللقيام بعملية تصنيف النصوص باستخدام األنطولوجيات في مقالتنا هذه قدمنا خوارزمية
جديدة لبناء مجموعة من 2أنطولوجيات بسيطة باللغة العربية آلي ًا وقمنا ببرمجتها بلغة
الجافا وتنفيذها فاحتوت ما يقرب من 21ألف ملخص لصفحات الويب ،ثم استخدمنا
خوارزميات التعلم اآللي مثل NB ،SVMلبناء نماذج المصنفات واختبارها.
4
ولقد اتبعنا التقسيم التالي لباقي أجزاء المقالة :في الفقرة 2عرضنا أهداف البحث وطرائقه.
وفي الفقرة 6عرضنا خطوات العمل المتبعة في البحث ومراحل التنفيذ ،وتشتمل هذه الفقرة
على الخوارزمية التي قدمناها إلنشاء األنطولوجيات واستخدامها في تصنيف النصوص.
وفي الفقرة 4قدمنا النتائج والتوصيات ،حيث حصلنا على مصنف له قيمة
F_measure=99.31%
-2هدف البحث وطرائقه:
يهدف هذا البحث إلى تصنيف النصوص العربية بشكل آلي ضمن أنطولوجيات معرفة
مسبقاً باستخدام خوارزميات التصنيف المشهورة والتي أثبتت فعاليتها في كثير من األبحاث
في هذا المجال مثل .[7][3] NB ،SVMولتحديد األنطولوجيا أو الصف المرتبط بالنص
هناك مجموعة من الخطوات المتبعة عادة .وهي بشكل أساسي معالجة النصوص ،تقسيم
النصوص ،والتصنيف التي تشمل تدريب النموذج واختباره.
فقد وضعنا خوارزمية تقوم ببناء عدة أنطولوجيات وكل أنطولوجيا تختص بنطاق (مجال)
معين مثل (األخبار ،اقتصاد ،رياضة .)...واستخدمنا هذه األنطولوجيات المبنية في تصنيف
النصوص العربية.
-1-3إنشاء النصوص
قمنا بإنشاء النصوص التي نريد تطبيق البحث عليها وهي مصنفة ضمن األنطولوجيات
التالية :أخبار ،اقتصاد وأعمال ،علم وتكنولوجيا ،رياضة ،أماكن ومواقع .بالنسبة لجميع
5
الفئات السابقة فقد تم تجميعها وفق خوارزمية العمل المقترحة من النتائج المسترجعة من
محرك بحث Googleنتيجة استعالم معين ،حيث تم حفظ الملخصات ) (snippetsالتي
تأتي مع كل نتيجة ،وقد تم كتابة برنامج بلغة الجافا للقيام بهذه المهمة ،ومن الصعوبات
محرك البحث ال يتيح أكثر من 100استعالم باليوم .فحصلنا على 2008نص .أما
بالنسبة لالستعالمات فقد طبقنا ثالثة استعالمات لكل أنطولوجيا كل منها مكون من سبع
مفردات كما في الجدول التالي:
وأعمال
183 بناء تحويل مال نسبة تراجع استثمار سعر
243 اخترع كشف أظهر طور أثبت حقق باحثون
علم
243 علم حقيقة طاقة حساب فحص قياس عالج
552
وتكنولوجيا
66 تكنولوجيا روبوت جهاز إصدار شركة ثغرة برنامج
156 هدف نتيجة فوز خسر تعادل طرد انتقل
202 ألعاب قوى رياضة بدنية سباحة قدم سلة رياضة
403
ومواقع
117 موقع قرب تقع تطل شارع مكان بناء
6
-1-1-3خوارزمية العمل المقترحة لتجميع نصوص األنطولوجيا:
7
WordNet BQ
أما البرنامج الذي كتبناه فهو بلغة الجافا ويتألف من 4صفوف أساسية ويستخدم مكتبتان
خارجيتان هما ( )quick-json, AWNإضافة إلى مكتبات لغة الجافا
:Java Sourse Code AWN April-23-2014وهي مكتبة قيد التطوير تعالج ملف
بيانات وردنت العربي وهو بصيغة ،XMLوقد حصلنا على تحديث لها يسمح لنا بالحصول
على المترادفات من قبل المؤلف.
8
الشكل( :)2بنية صفوف برنامج الجافا لتنفيذ الخوارزمية
الصف WtGهو البرنامج الذي يقوم بالتنفيذ واستدعاء دوال الصفوف الباقية.
الصف GSيقوم بجلب ملخصات النتائج عبر إنشاء كائن من GRوكتابة الملخصات إلى
ملف بصيغة txtبتنسيق .Windows-1256
الصف GRيقوم بإنشاء اتصال عبر الشبكة العنكبوتية إلى واجهة محرك البحث Google
المخصص ،ثم يقوم بإرسال االستعالم إليه ومعالجة استجابة محرك البحث.
9
-2-3معالجة نصوص األنطولوجيات وتجهيزها:
وقد تمت على عدة مراحل هي :تقسيم النص وقد قمنا بالتقسيم عند كل ما ليس حرفا،
عملية تنظيف النص وهي إزالة كلمات اللغة اإلنكليزية باإلضافة إلى الرموز الخاصة
واألرقام وقد استخدمنا لذلك التعابير المنتظمة" ،"regular expressionإزالة كلمات التوقف
العربية ،التجذير الخفيف للغة العربية ،وقد استبعدنا عملية اختيار المكونات من أجل معالجة
جميع المفردات ،تشكيل N-gramبطول 2وقد استخدمنا في البرمجة األداة
،RapidMinerفحصلنا على 666333واصفة(مفردة) مع أوزانها المقابلة لكل أنطولوجيا.
-1-2-3معالجة النصوص:
وهي عملية هامة تهدف إلى صياغة النصوص بشكل يسهل عمليات المعالجة الالحقة
عليه ،واختيار المفردات التي تميز النص .ولكن بشكل عام يمكن للنص أن يمر على عدة
مراحل قبل أن يتم استخدامه الحقاً في عملية التصنيف .نذكر منها:
االستبدال):(Replacement
وهي عملية مفيدة فيما يتعلق بالنصوص العربية ،تقوم باستبدال حروف مثل "أ،إ،آ،اً" إلى
"ا" .كما يمكن استخدامها إلزالة أي مقطع من النص واستبداله بمقطع آخر.
11
فلترة كلمات التوقف):(Filtering stop words
نقوم في هذه العملية بحذف الكلمات التي ليس لها أهمية في المعالجة الحقاً ،وهي مثل
حروف الجر ،ضمائر التملك ،أدوات االستفهام فهناك ما يقارب 692كلمة عربية صنفت
على أنها كلمات توقف].[1
التجذير):(Stemming
في هذه العملية نقوم بإزالة الحروف اإلضافية من الكلمة للحصول على جذرها ،ولها نوعين:
التجذير التام :وهو تجذير يعود بالكلمة إلى أصلها ومصدرها في اللغة العربية فالكلمات
مثل (كتاب ،كتب ،مكتبة ،كاتب) يعود بها إلى جذرها (كتب) مما يسبب ضياعاً في الداللة
لدى تصنيف النصوص ،ومثال عليها .[9] Khoja Arabic Steming
التجذير الخفيف :وهو تجذير يزيل أحرف الزيادة عن الكلمة دون ضياع داللتها ،مثل:
(الكتاب)⟵(كتاب) و (الكاتب)⟵(كاتب) ،ومثال عليها .[5] light stemming
(𝑂 − 𝐸)2
∑ = 𝑋2
𝐸
حيث :Oالتكرار المالحظ :E ،التكرار المتوقع .كلما زادت قيمته كلما كان االرتباط أقوى
في هذه المرحلة نقسم النصوص إلى قسمين األول لتدريب النظام البرمجي وتعليمه حتى
يميز األنماط ) (Patternsالمختلفة من الصفوف ) ،(Classesوالثاني الختبار النظام
البرمجي وتقييمه.
وهو يعتمد على خوارزمية k-fold cross validationعادة تكون ،k=10والتي تقوم
الخوارزمية بثالثة أمور:
وتفيد هذه المرحلة في إعطاء القدرة للنظام البرمجي على تمييز أنماط مختلفة من الفئات
التي نريد تصنيف النصوص وفقها
12
-2-3-3اختبار النظام البرمجي:
في هذه المرحلة نطبق النموذج المدرب على نصوص االختبار من أجل تقييم أداء
النموذج ،وذلك عادة عبر حساب مجموعة من المعايير المعروفة لهذا الغرض مثل
) .[4] (F1-mesure, precision, recallحيث:
# correct classes found
Precision
# classes found
:Pنسبة عدد الصفوف التي اكتشفت بشكل صحيح إلى عدد الصفوف المكتشفة.
:Rنسبة عدد الصفوف التي اكتشفت بشكل صحيح إلى عدد الصفوف الصحيحة.
2.P.R
F Measure
PR
:F-measureوهذا المعيار كلما زادت قيمته كلما كان المصنف ذو فاعلية ودقة أكبر
13
متوسط وزن االستدعاء(99.04% :)Weighted mean recall
( )0.78% +/-مع األوزان التالية (1, 1, 1, 1, 1:)weights
متوسط وزن األداء(98.68% :)Weighted mean precision
) )1.02% +/-مع األوزان التالية (1, 1, 1, 1, 1:)weights
:F-measure
2*99.04*98.68/(99.04+98.68)=98.86%
الحقيقة
أماكن علم اقتصاد class
رياضة أخبار
ومواقع وتكنولوجيا وأعمال precision
التوقع
أماكن
272 7 5 4 3 93.47%
ومواقع
رياضة 0 396 0 0 0 100.00%
علم
0 0 547 0 0 100.00%
وتكنولوجيا
اقتصاد
0 0 0 449 0 100.00%
وأعمال
أخبار 1 0 0 0 324 99.69%
class 99.63 98.26 99.12 99.08
99.09%
recall % % % %
14
وتقييم المصنف :SVM
الحقيقة
أماكن علم اقتصاد class
رياضة أخبار
ومواقع وتكنولوجيا وأعمال precision
التوقع
أماكن
272 0 0 0 0 100.00%
ومواقع
رياضة 0 395 0 0 0 100.00%
علم
1 8 552 4 3 97.18%
وتكنولوجيا
اقتصاد
0 0 0 449 0 100.00%
وأعمال
أخبار 0 0 0 0 324 100.00%
class 99.63 98.01 100.00 99.12 99.08
recall % % % % %
15
والمقارنة بين المصنفين كما في الشكل التالي:
100
99.5
99
98.5
98
دقة المصنف متوسط وزن االستدعاء متوسط وزن األداء F-mesure
NB SVM
-4النتائج والتوصيات:
كما هو واضح من النتائج السابقة فعلى الرغم من تقارب نتائج المصنفين NB ،SVMإال
أن مصنف SVMحقق نتائج أفضل من نتائج مصنف .NBحيث كانت دقة SVMهي
%22.21بينما NBهي ،%22وبالنسبة للمقياس F-mesureفقد حقق SVMنسبة
%22.61مقابل %26.63حققها .NB
16
بينما حقق تقريبا %21من أجل NBمع التجذير الخفيف ،واذا ما قارناها مع نتائج
خوارزميتنا نجد أن كال المصنفين اللذين قمنا ببنائهما حققا نتائج أفضل.
ومما سبق نستنتج أن الخوارزمية التي عملنا بها لتجميع النصوص لعبت دو اًر مهماً في
زيادة دقة التصنيف ،ولكن كما اتضح من جداول النتائج فإن المصنفات أخطأت كما يبدو
في تصنيف عدد قليل من النصوص فمثالً في مصنف NBتم تصنيف بعض النصوص
خطأ على أنها من أنطولوجيا أماكن ومواقع ،بينما في مصنف SVMتم تصنيف بعض
النصوص خطأ على أنها من أنطولوجيا علم وتكنولوجيا .وهذا قد يعود إلى أننا لم نقم بأي
تدخل يدوي على عملية تشكيل النصوص ،فمن المهم أن تتم عملية تشذيب للنصوص يدوياً
بحيث نستبعد النصوص التي تحوي نتائج كثيرة مسترجعة من محرك البحث وغير متعلقة
باالستعالم ،لكننا لم نضف هذه العملية فهي مكلفة من ناحية الوقت والجهد كما أردنا أن
نكتشف قوة الخوارزمية بدونها.
17
REFERENCES ()المراجع
18
8- Neches,R Fikes,R Finin,T Gruber,T Patil,R Senator,T and
Swartout,W.1991.Enabling Technology for Knowledge
Sharing, Al Magazine vol.12 No.3, 16-36.
9- Pacific University "Shereen Khoja's Page for Arabic
Stemming", Access date, May 31, 2015, from
http://zeus.cs.pacificu.edu/shereen/research.htm
10- Song, M. H., Lim S.Y., Kang, D.J., & Lee, S.J. (2005).
Automatic Classification of Web Pages based on the Concept
of Domain Ontology. In Proceedings of the 12th Asia-Pacific
Software Engineering Conference (APSEC’05), (pp. 645-
651). doi: 10.1109/APSEC.2005.46
11- Tenenboim, L., Shapira, B., & Shoval, P. (2008).
Ontology-based Classification of News in an Electronic
Newspaper. In Proceedings of the International Conference
on Intelligent Information and Engineering Systems, (pp.89-
97). Retrieved from http://www.foibg.com/ibs_isc/ibs-02/IBS-
02-p12.pdf
12- Wijewickrema, P. K. C. M. and Gamage, R. C. G,
Automatic Document Classification Using a Domain Ontology,
Paper presented at the National Conference on Library &
Information Science (NACLIS 2012), Colombo, Sri Lanka on
21 June 2012.
19