رفتن به محتوای اصلی

راه حل های داده کاوی

پیش بینی انتخابات ریاست جمهوری

پیش بینی انتخابات

قبل از شروع انتخابات سال ۹۶ مسابقه ای تحت عنوان NLPContest با حمایت دانشگاه شریف برگزار شد. هدف از برگزاری این مسابقه پیش بینی نتایج انتخابات ریاست جمهوری با استفاده از الگوریتم های هوش مصنوعی و داده های موجود در شبکه های اجتماعی بود. مجموعه داده ی این مسابقه شامل ۱.۵ میلیون پیام ارسال شده در حدود ۳۰ هزار کانال تلگرامی بود و هر چه به روز انتخابات نزدیکتر می شدیم تعداد پیام ها افزایش پیدا می کرد.

تیم هوش مصنوعی دیتامون نیز در این مسابقه شرکت کرد و پس از دریافت داده ها به پیاده سازی الگوریتم هایی روی آورد. در این مسابقه سعی کردیم تا حد ممکن الگوریتم های ساده و قابل درک را پیاده سازی کنیم تا بتوانیم به راحتی آن ها را گسترش دهیم. به عنوان مثال چند معیار از معیارهای کلی برای پیشبینی انتخابات در زیر قابل مشاهده هستند:

۱- تعداد تکرار:

در ابتدا لیست کلمات کلیدی هر کاندید و کلمات کلیدی مربوط به انتخابات به صورت سطح بندی شده ایجاد شد و اگر در یک پیام هیچ یک از این کلمات کلیدی وجود نداشت آن پیام از دور تحلیل خارج می شد. سپس تعداد تکرار کلمات کلیدی مربوط به هر کاندیدا به عنوان یک معیار در نظر گرفته شد.

۲- تعداد تکرار ضرب در تعداد بازدید:

با توجه به تعداد اعضای هر کانال ممکن بود برخی پیام ها کمتر یا بیشتر بازدید شوند به همین جهت معیار دیگری که انتخاب شد تعداد بازدیدهای هر پیام بود.

۳- تحلیل معنایی:

مهم ترین معیار تحلیل معنایی یک پیام است. به این معنا که ممکن است در یک جمله اسم یکی از کاندیداها باشد ولی مخالف او صحبت شده باشد. در اینجا با استفاده از معنای جمله وزنی به هر جمله اختصاص یافت و در نهایت مجموع وزن های مربوط به هر کاندیدا به عنوان یک معیار در نظر گرفته شد.

۴- اهمیت یک پیام:

معیار دیگری که در نظر گرفتیم اهمیت یک پیام بود. اهمیت یک پیام با توجه زمان انتشار آن پیام تعیین می شود. به عنوان مثال اگر یک پیام دو ماه قبل از انتخابات ارسال شده است اهمیتش از پیامی که اخیرا ارسال شده است کمتر است.لذا با توجه به زمان ارسال هر پیام امتیازی مربوط به هر کاندیدا محاسبه گردید.

نکته ای که باید اشاره کنیم این است که در روش ارائه شده باید می توانستیم تعداد کسانی که رای سفید میدهند را نیز محاسبه کنیم. در سال ۹۶ چهار کاندیدا وجود داشت که با فرض اینکه آقای میرسلیم و آقای هاشمی طبا شانس برنده شدن ندارند نتایج را به سه دسته تقسیم کردیم. درصد آقای روحانی، درصد آقای رئیسی و درصد آرای نامعلوم (سفید، آقای میرسلیم و آقای هاشمی طبا).

مسابقه تا ساعت ۱۲ روز جمعه که روز انتخابات بود ادامه داشت، با این حال ما نتایج را با پیام های ارسالی تا روز چهارشنبه دو روز قبل از انتخابات محاسبه کردیم و آن را در فضای مجازی منتشر نمودیم ولی بنا به دلایلی نتایج را در انتخابات شرکت ندادیم. تصویر زیر نتیجه ی بدست آمده در روز چهارشنبه است و همانطور که مشاهده می کنید با اختلاف بسیار کم نسبت به نتایج واقعی انتخابات توانستیم نتیجه ی این رویداد را پیشبینی کنیم.

پیش بینی انتخابات با داده کاوی و متن کاوی
برگشت به بالا