رفتن به محتوای اصلی

راه حل های متن کاوی

لغت نامه قطبیت کلمات

لغت نامه قطبیت کلمات

به سبب رشد سریع شبكه ها و رسانه هاي اجتماعی، امكان دسترسي افراد بـه متون مختلف افزايش يافته است. متون حاوی اطلاعات ارزشمندی هستند که می توان با تحلیل آن ها به این دانش ارزشمندی مانند مثبت یا منفی بودن آن متن در ارتباط با یک موضوع خاص اشاره کرد.

هر زبانی دارای پیچیدگی های مربوط به خود است. متن کاوی بیشتر برای زبان انگلیسی انجام شده و روش های متعددی برای متن کاوی در این زبان توسعه یافته است. در ادامه قصد داریم روشی را که تیم دیتامون برای ورود به این حوزه انجام داده است را توضیح دهیم.

متن کاوی در زبان فارسی برخلاف زبان انگلیسی دارای پیچیدگی های بیشتری است. این پیچیدگی به دلیل کمبود ابزار و راه های مختلف، وجود پسوندهای متفاوت، فاصله گذاری کلمه ها و استفاده از کلمه های غیررسمی و محاوره ای ایجاده شده است.

• عدم وجود ابزار مناسب برای زبان فارسی

• کلمات غیررسمی و محاوره ای

• وجود پسوندهای متفاوت برای صرف افعال

• فاصله گذاری (فاصله و نیم فاصله)

• و …

لغت نامه ها بیشتر برای زبان انگلیسی توسعه داده شده اند و لغت نامه ای در زبان فارسی وجود ندارد. هر یک از این لغت نامه ها ساز و کار خاصی را برای تعیین مثبت و منفی بودن دارند. SentiWordNet توسعه یافته ی WordNet بوده و مقدار قطبیت هر کلمه را به صورت عددی نشان می دهد. در این لغت نامه نقش کلمات و مترادف های آن ها نشان داده شده است.

روشی که برای متن کاوی زبان فارسی استفاده کردیم، ترکیبی از الگوریتم آگاهانه و لغت نامه است. از لغت نامه برای وزن دهی ویژگی ها استفاده کردیم. بدین ترتیب می توان تاثیر استفاده از قطبیت را در متن کاوی تعیین نمود. کلمات مورد استفاده تنها شامل فعل، اسم، صفت و قید می باشند. در نتیجه کلمات دیگر تاثیری در نظرکاوی نخواهند داشت.

چنین لغت نامه ای در زبان فارسی وجود نداشت در نتیجه از SentiWordNet زبان انگلیسی استفاده کردیم. برای استفاده از SentiWordNet در زبان فارسی نیاز به تغییراتی در این لغت نامه وجود داشت.

این لغت نامه، قطبیت کلمات را به صورت عددی نشان می دهد و قطبیت هر کلمه، عددی بین ۰ و ۱ است. هر کلمه دارای قطبیت های مثبت، منفی و خنثی است که با یک مقدار عددی نشان داده می شود. حاصل جمع این سه عدد برابر یک می باشد. لغت نامه SentiWordNet برای زبان انگلیسی با به کارگیری وردنت انگلیسی ایجاد شده است. لغات موجود در وردنت انگلیسی که در آن کلمات به صورت گروه های هم معنی وجود دارند، تعیین قطبیت شده اند و SentiWordNet ایجاد شده است. در SentiWordNet هر کلمه ای دارای معادل در وردنت انگلیسی است. در واقع کلمات موجود در وردنت انگلیسی همان کلمات موجود در SentiWordNet هستند که تعیین قطبیت شده اند.

لغت نامه برای نظرکاوی

SentiWordNet زبان انگلیسی با استفاده از WordNet ایجاد شده است. وردنت برای زبان فارسی نیز توسعه یافته است. در نتیجه می توان با استفاده از وردنت فارسی و SentiWordNet انگلیسی، یک لغت نامه برای زبان فارسی توسعه داد. کلمات موجود در وردنت فارسی دارای معادل در SentiWordNet هستند. تنها کافیست قطبیت کلمات وردنت فارسی را از SentiWordNet انگلیسی استخراج کرد. ما از نسخه ی دوم وردنت فارسی به نام فارس نت استفاده کردیم. در طی سه گام این لغت نامه ایجاد شد:

1- در گام اول تمامی کلمات موجود در وردنت مورد جست وجو قرار گرفتند. همه کلمات موجود دارای معادل انگلیسی نیستند. برای ایجاد لغت نامه به کلماتی نیاز داریم که دارای معادل در وردنت انگلیسی باشند. از این بین، 15858 گروه هم معنی، که دارای معادل بودند، استخراج شدند. بیشتر گروه های استخراج شده دارای یک معادل انگلیسی بودند، ولی گروه هایی هم وجود داشتند که بیش از یک معادل داشتند. برای مثل کلمه “خوب” در فارس نت دارای سه معادل در وردنت انگلیسی است.

2- در گام دوم، تمانی این گروه های استخراج شده، در SentiWordNet انگلیسی مورد جست وجو قرار گرفتند تا قطبیت هر کلمه تعیین گردد. همان طور که قبلاً اشاره شد، هر کلمه موجود در وردنت انگلیسی دارای معادلی در SentiWordNet انگلیسی است. در نتیجه با جستجوی کلماتی که در مراحل قبل استخراج شدند، می توان قطبیت هر کلمه را تعیین نمود. برای کلماتی که شامل چندین معادل در وردنت انگلیسی هستند، تمامی معادل ها در SentiWordNet شناسایی شدند و سپس از میانگین تمامی معادل ها برای قطبیت آن کلمه استفاده شد. برای مثال کلمه “خوب”، دارای سه معادل انگلیسی است. برای این کلمه، قطبیت هر سه معادل شناسایی شده و قطبیت کلمه “خوب” برابر میانگین قطبیت های این سه کلمه در نظر گرفته شد.

3- افعال استخراج شده از وردنت، به شکل مصدر استخراج شدند. در نتیجه نیاز به یافتن ریشه کلمات بود. از ابزار پردازش زبان طبیعی، برای این منظور استفاده شد.

مقالات چاپ شده (۱)

مقالات چاپ شده (۲)

برای دسترسی به دیتاست های (مجموعه داده) مرتبط با نظرکاوی (عقیده کاوی) به لینک زیر مراجعه کنید:

دیتاست نظرکاوی

برگشت به بالا