رفتن به محتوای اصلی

راه حل های متن کاوی

نظرکاوی در زبان فارسی

نظرکاوی

در این راهکار، نظرکاوی در سطح سند انجام می گیرد. به این معنی که هر نظر را به عنوان یک سند در نظر می گیریم. طبق مطالعات انجام گرفته در تحقیقات پیشین الگوریتم SVM برای نظرکاوی نتایج خوبی را بدست آورده است. در نتیجه برای نظرکاوی از الگوریتم SVM استفاده کردیم. در اینجا مساله ی مهم تر انتخاب ویژگی ها و استخراج آنهاست. همچنین دو الگوریتم بیز و رگرسیون به منظور مقایسه الگوریتم SVM بکاربرده ایم. نظرکاوی با استفاده از الگوریتم های فوق، نیازمند ویژگی هایی است. در نتیجه باید ویژگی های مورد نیاز استخراج شوند. برای استخراج ویژگی دو گام مورد نیاز بود:

• ابتدا تمامی نظرات که به صورت رشته ای از حروف بودند، تبدیل به برداری از اعداد شدند.

• بعد از استخراج این کلمات، هر کلمه باید تعیین قطبیت شود. هر کلمه به همراه نقش دستوری آن، در لغت نامه قطبیت «دیتامون»،مورد جست وجو قرار گرفت. برای هر کلمه ممکن است، چندین نتیجه یافت شود. برای این مسئله، میانگین تمامی نتایج حاصل، به عنوان قطبیت در نظر گرفته شد. در نتیجه در طی این مرحله تمامی ویژگی ها تعیین قطبیت می شوند. از بین این کلمات، اسم ها، فعل ها، صفات و قید تعیین قطبیت شدند و سایر موارد از جمله حروف و اعداد که دارای قطبیت نیستند، قطبیت صفر گرفتند.

نتیجه ی حاصل از نظرکاوی را برای ویژگی تعداد تکرار کلمات در ادامه مشاهده می کنید. همان طور که در تصویر مشخص است بدون استفاده از لغت نامه به نتیجه 87 درصد برای داده های هتل و 78.4 درصد برای داده های موبایل رسیده ایم و اما با در نظر گرفتن قطبیت این مقدار کمتر شده است. علت این موضوع عدم استفاده از تحلیل احساسات و استفاده از روش‌های پردازش زبان طبیعی است. به عنوان مثال عبارت «از این بهتر نمیشه» با اینکه کلمه ی «بهتر» با قطبیت مثبت را شامل است، ولی بار منفی دارد. یا عبارت «انتظار هتلی بهتر را داشتم» نیز همینطور.

نتایج نظرکاوی با ویژگی تعداد تکرار کلمات

نظرکاوی در زبان فارسی

نتایج نظرکاوی با ویژگی تعداد تکرار کلمات در قطبیت

عقیده کاوی در زبان فارسی
برگشت به بالا