شناسایی واژه های غیر مفهومی ( رایج ) در نمایه سازی خودکار مدارک فارسی

1395/10/18 12:13:15

نظامهای نمایه سازی خودکار غالبا از زبانهای طبیعی به عنوان زبان ارجح توصیف مدارک در محیط الکترونیکی استفاده می کنند. زبانهای طبیعی از یک طرف به نظام نمایه سازی در استخراج اصطلاح نمایه ای و از طرف د یگر به کاربر در انتخاب کلیدواژه های جستجو آزادی عمل بیشتری می¬دهد. خصوصیت ویژه نمایه سازی به زبان طبیعی این است که انواع متفاوت کلمات موجود در زبان طبیعی در نمایه منعکس شود، اما از دیدگاه یک نظام نمایه سازی، تمامی واژه های موجود در متن یک مدرک ارزش یکسانی ندارند. در زبان طبیعی واژه هایی وجود دارند که از نظر ساختار نحوی بیشتر ویژگیهای کارکردی دارند تا مفهومی. این دسته از واژه ها به تنهایی بار معنایی ندارند بلکه در ارتباط با واژه های دیگر معنا می یابند به این ترتیب مفهوم و محتوای متن را نشان نمی دهند و وجود یا عدم وجود این واژه ها در عبارت پرسش، تاثیری در میزان ربط یا عدم ربط مدارک بازیابی شده نخواهد داشت. تشخیص تمایز میان واژه های مفهومی و غیرمفهومی به در اختیار داشتن نمایه ای کارا کمک می کند. این پژوهش با هدف شناسایی معیارهای نحوی و معنایی زبان فارسی در تشخیص واژه های غیرمفهومی، تهیه سیاهه ای از این واژه ها، مقایسه واژه های غیر مفهومی فارسی و انگلیسی و بررسی توزیع بسامد این واژه ها در سه رشته روانشناسی، علوم تربیتی و کتابداری و اطلاع رسانی و به روش تحلیل محتوا انجام شد. جامعه آماری این پژوهش 73 مقاله مندرج در آخرین شماره منتشر شده در 11 مجله علمی پژوهشی در سه رشته مورد بررسی در سال 1385 می باشد که با استفاده از روش نمونه گیری تصادفی طبقه ای 63 مقاله به عنوان حجم نمونه انتخاب شد. در مرحله اجرای پژوهش، ابتدا لازم بود تا با بررسی متون مربوط به ساختار واژگان زبان فارسی و متون مربوط به اصول انتخاب اصطلاحات و تدوین اصطلاحنامه ها، معیارهای نحوی و معنایی شناسایی واژه های غیرمجاز شناسایی شوند. سپس از طریق تهیه متن الکترونیکی هر یک از مقالات حجم نمونه، تفکیک واژگان آنها با استفاده از محیط ورد و همچنین به صورت دستی و شمارش بسامد هر واژه، فهرست واژه های غیر مفهومی تهیه شود. نتایج بدست آمده از پوهش نشان می دهد که: 1- طبق بررسی متون مربوط به زبانشناسی، دستور زبان فارسی و نمایه سازی، افعال ( معین و همراه شونده )، قیود، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به عنوان واژه نماها استفاده نمی شوند و می توان واژه های غیر مفهومی زبان فارسی را از میان این واژه های دستوری انتخاب کرد. 2- از میان 248552 واژه به کار رفته در 63 مقاله مورد بررسی در سه رشته، تعداد 97280 واژه به عنوان واژه های غیر مفهومی شناخته شد که به ترتیب قیدها، افعال، حروف ربط، حرو ف اضافه، ضمایر و ادات بیشترین حجم واژه های غیرمفهومی را به خود اختصاص داده اند. 3- 67% واژه های پربسامد در سه رشته مشترک می باشند. 4- در پیکره زبانی مورد مطالعه واژه های بازدارنده 13/39 % از کل واژه ها را تشکیل میدهند. به این ترتیب با حذف این واژه ها از نمایه سازی متون فارسی، می توان به میزان 40% سبب کاهش حجم فایل مقلوب و به دنبال آن صرفه جویی در زمان، نیروی انسانی و هزینه ها شد. 5- مقایسه بین فهرست فارسی بدست آمده از پژوهش با فهرست واژه های بازدارنده در زبان انگلیسی نشان داد که به دلیل استفاده ازقواعد دستور زبان فارسی و نه تنها تکیه بر بسامد واژه ها این دو فهرست تنها در 5 /28% واژه ها ( حروف ربط، اضافه و قیود ) با هم مطابقت می کنند. 6- بررسی توزیع بسامد واژه های غیر مفهومی در سه رشته نشان داد که 35/29% از کل واژه ها دارای توزیع یکسانی در سه رشته مورد مطالعه می باشند.