تأثير طرق تحويل السمات (Feature Vectorization Methods) على البيانات العربية الكبيرة باستخدام تصنيف الانحدار اللوجستي
محتوى المقالة الرئيسي
الملخص
تُعرف عملية تعيين المستندات النصية لمجموعة محددة مسبقًا من الفئات باسم تصنيف النص. الهدف من هذه الدراسة هو تقديم تقييمات تجريبية لطرق تحويل سمات مختلفة بغرض تصنيف مجموعة كبيرة من النصوص العربية باستخدام مصنف الانحدار اللوجستي. N-Gram، و Bag of Words ، و Term Frequency–Inverse Document Frequency هي هذه الطرق. تم استخدام حوالي 111.000 وثيقة عربية، تم تقسيمها إلى خمس فئات: الأخبار والرياضة والثقافة والاقتصاد والمتنوعة. تم تقييم النتائج التجريبية لكل طريقة باستخدام ثلاثة مؤشرات أداء مختلفة. ووفقاً للنتائج التجريبية، فإن نموذج الانحدار اللوجستي باستخدام Term Frequency–Inverse Document Frequency وN-gram (1,2) حصل على أفضل دقة، حيث سجل 96%، في حين جاء Bag of Words في المركز الثاني بنسبة 95%.
تفاصيل المقالة
كيفية الاقتباس
الشفح ع., سليمان ا., & الشفح س. (2023). تأثير طرق تحويل السمات (Feature Vectorization Methods) على البيانات العربية الكبيرة باستخدام تصنيف الانحدار اللوجستي. مجلة جامعة الزاوية للعلوم الهندسية والتقانة, 1(1). استرجع في من https://journals.zu.edu.ly/index.php/UZJEST/article/view/49
القسم
هندسة الحاسوب وتقنية المعلومات