تشخیص واحدهای اسمی به عنوان یکی از سامانههای پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقهبندی آنها به یکی از گروههای شخص، مکان، سازمان و زمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزههای پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشهبندی نتایج جستجو و پرسش و پاسخ، در سالهای اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجامشده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه میگردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از ۱۳۰ هزار کلمه برچسبگذاری شده توسط متخصصین، معرفی میگردد. همچنین از یک فرهنگ لغات شامل ۱۸۰۰۰ اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده میشود. مدل پیشبینی، بر اساس مجمع ردهبندها و یک روش دو-مرحلهای پیشنهاد شده است بهطوریکه در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقهبندی آنها به گروههای از پیش تعیینشده توسط الگوریتم آدابوست M2 انجام میگیرد. بهمنظور غلبه بر چالشهای زبان عربی عملیات نشانهگذاری، برچسبگذاری ادات سخن و قطعهکردن عبارت پایه به کار گرفتهشده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه بهدستآمده از مدل پیشنهادی در ارزیابی F-measure معادل ۸۵/۸۶ درصد است که بیانگر عملکرد مطلوب مدل میباشد. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شدهاند.
کلید واژگان :تشخیص واحدهای اسمی، مجمع ردهبندها، روش بوستینگ، زبان عربی کلاسیک
ارزش ریالی : 600000 ریال
با پرداخت الکترونیک