چکیده :

تشخیص واحدهای اسمی به عنوان یکی از سامانه‌های پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقه‌بندی آن‌ها به یکی از گروه‌های شخص، مکان، سازمان و زمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزه‌های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه‌بندی نتایج جستجو و پرسش و پاسخ، در سال‌های اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجام‌شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می‌گردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از ۱۳۰ هزار کلمه برچسب‌گذاری شده توسط متخصصین، معرفی می‌گردد. همچنین از یک فرهنگ لغات شامل ۱۸۰۰۰ اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده می‌شود. مدل پیش‌بینی، بر اساس مجمع رده‌بندها و یک روش دو-مرحله‌ای پیشنهاد شده است به‌طوری‌که در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقه‌بندی آن‌ها به گروه‌های از پیش تعیین‌شده توسط الگوریتم آدابوست M2 انجام می‌گیرد. به‌منظور غلبه بر چالش‌های زبان عربی عملیات نشانه‌گذاری، برچسب‌گذاری ادات سخن و قطعه‌کردن عبارت پایه به کار گرفته‌شده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه به‌دست‌آمده از مدل پیشنهادی در ارزیابی F-measure‌ معادل ۸۵/۸۶ درصد است که بیانگر عملکرد مطلوب مدل می‌باشد. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده‌اند.

کلید واژگان :

تشخیص واحدهای اسمی، مجمع رده‌بندها، روش بوستینگ، زبان عربی کلاسیک



ارزش ریالی : 600000 ریال
دریافت مقاله
با پرداخت الکترونیک