رفتن به محتوای اصلی
نظرکاوی در زبان فارسی

نظرکاوی در زبان فارسی

نظرکاوی (opining miming ) به کاویدن و بررسی نظرات افراد اشاره دارد. به سبب رشد سریع شبكه ها و رسانه هاي اجتماعی، افراد زیادی روزانه نظرات خود را در مورد مسائل مختلف مطرح می کنند و آن را در شبکه های اجتماعی منتشر می کنند. ما هر روزه با نظرات افراد مختلف در شبکه های اجتماعی مواجه هستیم. حتما هر کدام از ما تجربه ی خرید اینترنتی را داریم که قبل از خرید به بررسی نظرات افراد مختلف در مورد محصول مورد نظر خود می پردازیم و سپس با بررسی این نظرات محصول مورد نظر خود را انتخاب می کنیم. نظرات حاوی اطلاعات ارزشمندی هستند که می توان با تحلیل آن ها به این دانش ارزشمندی مانند مثبت یا منفی بودن آن نظر در ارتباط با یک موضوع خاص اشاره کرد.

در نظرکاوی سعی می شود با تکیه بر الگوریتم های مختلف پردازش متن (متن کاوی) متن موجود تحلیل شود و اطلاعات ارزشمند از متن استخراج شود.

نظرکاوی در سراسر دنیا و به زبان های مختلفی انجام می شود. نظرکاوی کاربردهای فراوانی دارد و روش های مختلفی برای آن توسعه پیدا کرده است. بهتر است در این قسمت به بررسی کاربردهای نظرکاوی بپردازیم تا متوجه شویم چرا نظرکاوی به این اندازه مورد توجه است.

کاربردهای نظرکاوی

هر وقت که تصمیم به خرید محصول می گیریم یا به عنوان یک تولید کننده اقدام به بهبود محصول خود می کنیم، از دیگر نظرسنجی و مشورت می گیریم. نظرکاوی ابزاری است که این کار را برای ما ساده نموده است. در ادامه به تعدادی از کاربردهای نظرکاوی می پردازیم که هم برای سازمان ها و شرکت ها و هم برای مشتریان و کاربران مفید است.

بازاریابی و هوش تجاری

نظرکاوی نه‌تنها می‌تواند دیدگاه‌های کاربران را جمع‌آوری، سازمان‌دهی و خلاصه کند و نتایج را به مشتریان نشان دهد بلکه می‌تواند برای تولیدکننده‌ها نیز مفید واقع شود. برای این‌که شرکت‌ها رقابتی باقی بمانند، باید به طور دقیق، درباره خواسته‌های مشتریان تحقیق کنند. با به‌کارگیری نظرکاوی، شرکت‌ها می‌توانند از نظرات و دیدگاه‌ها، اطلاعاتی را درباره رابطه بین مشتریان و محصولات خود کسب نمایند. همچنین سازمان‌ها می‌توانند برای بازاریابی نیز از نظرکاوی بهره ببرند. با در نظر گرفتن مکان‌هایی که تعداد مکالمات در آن‌ها بالاست و دیدگاه‌های افراد نسبت به آن محصول موردنظر مثبت است، می‌توانند بازاریابی خود را در آن مکان‌ها انجام دهند.

مقایسه محصولات

یک روش معمول برای فروشندگان برخط، دعوت از مشتریان برای بیان دیدگاه خود در مورد محصولی است که خریداری نموده‌اند. با افزایش هر چه بیشتر استفاده از وب، تعداد این دیدگاه‌ها روزبه‌روز افزایش می‌یابد. هر محصول می‌تواند مزایا و معایبی داشته باشد که توسط افراد مختلف در وب‌سایت‌ها بیان شود. در این صورت فردی که به دنبال خرید یک محصول است می‌تواند مزایا، معایب و تمامی خصوصیات محصولات گوناگون را با هم به طور دقیق مقایسه کند و سپس اقدام به خرید نماید. برای شرکت‌ها نیز این مقایسه امکان دسترسی به هوش بازار و اطلاعات مربوط تعیین معیار محصولات را فراهم کند.

علت‌یابی نظر

در تحلیل نظرات تنها یافتن قطبیت نظر، جمع‌آوری و خلاصه‌سازی آن‌ها کافی نیست. می‌توان تحلیل عمیق‌تری نسبت به نظر داشت و به کشف علت یک نظر پرداخت و دلیل مثبت یا منفی بودن یک نظر را شناسایی کرد. علت‌یابی نظر به شناسایی یکی از اجزای مهم دیدگاه می‌پردازد و از این‌ رو سعی در یافتن علت راضی بودن یا نبودن یک فرد نسبت به محصول دارد.

نظرکاوی در زبان فارسی

نظرکاوی در زبان های مختلف از جمله در زبان انگلیسی انجام می شود و روش های مختلفی برای آن توسعه داده شده است. در زبان فارسی هم کارهایی در این زمینه انجام گرفته است. در ادامه قصد داریم یکی از روش هایی که در زبان فارسی برای این کار انجام شده را بررسی کنیم. این روش از یک لغت نامه مشابه با لغت نامه ی Sentiwordnet در زبان انگیسی توسعه پیدا کرده است.

لغت نامه ها بیشتر برای زبان انگلیسی توسعه داده شده اند و لغت نامه ای در زبان فارسی وجود ندارد. هر یک از این لغت نامه ها ساز و کار خاصی را برای تعیین مثبت و منفی بودن دارند. لغت نامه ی انگلیسی SentiWordNet توسعه یافته ی لغت نامه ی WordNet بوده و مقدار قطبیت هر کلمه را به صورت عددی نشان می دهد. در این لغت نامه نقش کلمات و مترادف های آن ها نشان داده شده است. قطبیت در واقع مقدار مثبت و منفی بودن کلمات را نشان می دهد.

روشی که برای متن کاوی زبان فارسی استفاده شده، ترکیبی از الگوریتم آگاهانه یا با نظارت (supervised) و لغت نامه است. از لغت نامه برای وزن دهی ویژگی ها استفاده  شده است. بدین ترتیب می توان تاثیر استفاده از قطبیت را در نظر کاوی تعیین نمود. کلمات مورد استفاده تنها شامل فعل، اسم، صفت و قید می باشند. در نتیجه کلمات دیگر تاثیری در نظرکاوی نخواهند داشت.

چنین لغت نامه ای در زبان فارسی وجود نداشت در نتیجه از SentiWordNet زبان انگلیسی استفاده شده است. همان طور که قبلا اشاره شد SentiWordNet انگلیسی از ورد انگلیسی توسعه پیدا کرده است. برای استفاده از SentiWordNet در زبان فارسی نیاز به وردنت فارسی وجود دارد که خوشبختانه این وردنت در زبان فارسی توسط دانشگاه شهید بهشتی توسعه داده شده است.

لغت نامه ی SentiWordNet ، قطبیت کلمات را به صورت عددی نشان می دهد و قطبیت هر کلمه، عددی بین ۰ و ۱ است. هر کلمه دارای قطبیت های مثبت، منفی و خنثی است که با یک مقدار عددی نشان داده می شود. حاصل جمع این سه عدد برابر یک می باشد.لغات موجود در وردنت انگلیسی که در آن کلمات به صورت گروه های هم معنی وجود دارند، تعیین قطبیت شده اند و SentiWordNet ایجاد شده است. در SentiWordNet هر کلمه ای دارای معادلی در وردنت انگلیسی است. در واقع کلمات موجود در وردنت انگلیسی همان کلمات موجود در SentiWordNet هستند که تعیین قطبیت شده اند.

لغت نامه برای نظرکاوی

در این روش نظرکاوی به زبان فارسی، نظرکاوی در سطح سند انجام می گیرد. به این معنی که هر نظر را به عنوان یک سند در نظر می گیریم. طبق مطالعات انجام گرفته در تحقیقات پیشین الگوریتم SVM برای نظرکاوی نتایج خوبی را بدست آورده است. البته روشهای مختلفی هستند که نتایج خوبی دارند. اما در این نظرکاوی از SVM استفاده شده است. در اینجا مساله ی مهم تر انتخاب ویژگی ها و استخراج آنهاست. همچنین دو الگوریتم بیز و رگرسیون به منظور مقایسه الگوریتم SVM بکار گرفته شده است. نظرکاوی با استفاده از الگوریتم های فوق، نیازمند ویژگی هایی است. در نتیجه باید ویژگی های مورد نیاز استخراج شوند.

گام های نظرکاوی در زبان فارسی

برای استخراج ویژگی دو گام مورد نیاز بود:

• ابتدا تمامی نظرات که به صورت رشته ای از کلمات بودند، تبدیل به برداری از اعداد شدند.

• بعد از استخراج این کلمات، هر کلمه باید تعیین قطبیت شود. هر کلمه به همراه نقش دستوری آن، در لغت نامه قطبیت، مورد جست وجو قرار گرفت. برای هر کلمه ممکن است، چندین نتیجه یافت شود. برای این مسئله، میانگین تمامی نتایج حاصل، به عنوان قطبیت در نظر گرفته شد. در نتیجه در طی این مرحله تمامی ویژگی ها تعیین قطبیت می شوند. از بین این کلمات، اسم ها، فعل ها، صفات و قید تعیین قطبیت شدند و سایر موارد از جمله حروف و اعداد که دارای قطبیت نیستند، قطبیت صفر گرفتند.

ایجاد لغت نامه در زبان فارسی برای نظرکاوی

 در این نظرکاوی، از نسخه ی دوم وردنت فارسی به نام فارس نت استفاده شده است. در طی سه گام این لغت نامه ایجاد شد:

در گام اول تمامی کلمات موجود در وردنت مورد جست وجو قرار گرفتند. همه کلمات موجود دارای معادل انگلیسی نیستند. برای ایجاد لغت نامه به کلماتی نیاز داریم که دارای معادل در وردنت انگلیسی باشند. از این بین، 15858 گروه هم معنی، که دارای معادل بودند، استخراج شدند. بیشتر گروه های استخراج شده دارای یک معادل انگلیسی بودند، ولی گروه هایی هم وجود داشتند که بیش از یک معادل داشتند. برای مثل کلمه “خوب” در فارس نت دارای سه معادل در وردنت انگلیسی است.

در گام دوم، تمانی این گروه های استخراج شده، در SentiWordNet انگلیسی مورد جست وجو قرار گرفتند تا قطبیت هر کلمه تعیین گردد. همان طور که قبلاً اشاره شد، هر کلمه موجود در وردنت انگلیسی دارای معادلی در SentiWordNet انگلیسی است. در نتیجه با جستجوی کلماتی که در مراحل قبل استخراج شدند، می توان قطبیت هر کلمه را تعیین نمود. برای کلماتی که شامل چندین معادل در وردنت انگلیسی هستند، تمامی معادل ها در SentiWordNet شناسایی شدند و سپس از میانگین تمامی معادل ها برای قطبیت آن کلمه استفاده شد. برای مثال کلمه “خوب”، دارای سه معادل انگلیسی است. برای این کلمه، قطبیت هر سه معادل شناسایی شده و قطبیت کلمه “خوب” برابر میانگین قطبیت های این سه کلمه در نظر گرفته شد.

افعال استخراج شده از وردنت، به شکل مصدر استخراج شدند. در نتیجه نیاز به یافتن ریشه کلمات بود. از ابزار پردازش زبان طبیعی، برای این منظور استفاده شد.

نظرکاوی زبان فارسی

مشکلات نظرکاوی در زبان فارسی

متن کاوی در زبان فارسی برخلاف زبان انگلیسی دارای پیچیدگی های بیشتری است. این پیچیدگی به دلیل کمبود ابزار و راه های مختلف، وجود پسوندهای متفاوت، فاصله گذاری کلمه ها و استفاده از کلمه های غیر رسمی و محاوره ای ایجاده شده است.

• عدم وجود ابزار مناسب برای زبان فارسی

• کلمات غیررسمی و محاوره ای

• وجود پسوندهای متفاوت برای صرف افعال

• فاصله گذاری (فاصله و نیم فاصله)

برای این نوشته 0 نظر ثبت شده است

پاسخی بگذارید

برگشت به بالا