تحلیل موضوع در متن کاوی

تحلیل موضوع

تحلیل موضوع (topic analysis) یکی از تکنیک های پردازش زبان طبیعی است که  موضوعات مطرح شده در متن را شناسایی و دسته بندی می کند.

سازمان ها با حجم زیادی از داده های بدون ساختار رو به رو هستند. این داده ها در ایمیل ها، پست های شبکه های اجتماعی، بازخوردهای مشتریان و دیگر اطلاعات موجود در سازمان یافت می شود.

وقتی که زمان تحلیل این داده ها می رسد، با چالشی جدی روبرو هستیم. نمی توان این داده ها را به صورت دستی تحلیل نمود زیرا بسیار خسته کننده و زمان بر است و در نتیجه هزینه ی زیادی خواهد داشت و از نظر زمانی و مالی مقرون به صرفه نیست.

تاکنون روش های متعددی برای تحلیل داده های انبوه بدون ساختار توسعه یافته است. سازمان ها می توانند این روش ها را برای سازمان خود استفاده کنند تا داده های خود را سریع تر و کارآمدتر پردازش نمایند.

تشخیص موضوع چیست؟

تکنیک های تحلیل موضوع به شما در یافتن موضوعات موجود در داده ها کمک می کنند. تحلیل موضوع که از آن با نام های دیگری مانند تشخیص موضوع و مدل سازی موضوع هم یاد می شود یکی از تکنیک های یادگیری ماشین است که حجم عظیمی از داده های متنی را تحلیل کرده، موضوعات را شناسایی و با توجه به موضوعشان، آن ها را برچسب گذاری یا دسته بندی می کند.

دو راهکار اصلی برای تحلیل موضوع با استفاده از الگوریتم های یادگیری ماشین، مدل سازی موضوع و دسته بندی موضوع هستند.

مدل سازی موضوع یک روش بدون نظارت در یادگیری ماشین است. یعنی می تواند داده ها را بدون نیاز به برچسب گذاری تحلیل کند و آن ها را خوشه بندی نماید.

دسته بندی موضوع نیاز به برچسب گذاری داده ها قبل از شروع به تحلیل موضوع دارد و روش نظارتی است. در واقع داده های برچسب دار به عنوان داده های آموزشی به الگوریتم داده شود تا الگوریتم بتواند داده های جدید را دسته بندی کند. 

 

سطوح مختلف تحلیل موضوع

  • سطح سند: چندین موضوع مختلف در یک متن شناسایی می شوند. برای مثال این متن می تواند یک ایمیل یا یک مقاله باشد. در واقع این متن شامل جملات متعددی است.
  • سطح جمله: موضوع یک جمله شناسایی می شود.
  • سطح عبارت: موضوع عبارت های یک جمله شناسایی می شود. عنوان های مختلف در یک جمله استخراج می شوند.

سطوح مختلف تحلیل متن

تحلیل موضوع چه زمانی استفاده می شود؟

تصور کنید که با حجم زیادی از داده هایی از نظرات مردم مواجه هستید و باید این داده ها را تحلیل کنید تا مشخص کنید مردم در مورد محصول شما چه نظری دارند. می توان از تشخیص موضوع و تحلیل احساسات به صورت ترکیبی استفاده کنید تا مشخص شود مردم در مورد کدام یک از ویژگی های محصول شما در حال گفت و گو هستند. در واقع این ویژگی ها همان موضوعات هستند و با فن آوری تحلیل موضوع می توان به آن ها دست یافت و سپس مشخص کرد نظر افراد در مورد موضوعات مثبت است یا منفی که این کار با تکنیک های تحلیل احساسات انجام می شود. در اینجا از تحلیل احساسات مبتنی بر ویژگی استفاده می شود تا مثبت و منفی بودن نظر مردم در مورد ویژگی مورد نظر مشخص گردد.

تشخیص موضوع چگونه کار می کند؟

فرض کنید می خواهید از نظر مشتریان خود در مورد ویژگی های لپ تاپ جدید شرکت مطلع شوید. موضوعات مورد علاقه ی مشتریان احتمالا، قابلیت حمل، طراحی و قیمت است. فن آوری تشخیص موضوع، برای تحلیل نظرات در مورد قیمت محصول، به دنبال شناسایی اعداد به همراه علامت رایج پول و همچنین کلماتی مانند گران و ارزان، هزینه، قیمت و ارزش خواهد بود.

امکان دارد موضوعی از قبل مشخص نباشد می توان با شمارش تعداد کلمات، موضوعات مورد بحث در نظرات و دیدگاه های افراد را شناسایی کرد.

 

تفاوت مدل سازی موضوع و دسته بندی موضوع

روش های بسیاری برای تحلیل موضوع مجموعه ای از اسناد وجود دارد و شما می توانید بر اساس مسئله ای که با آن مواجه هستید از هر یک از این روش ها استفاده کنید. برای درک بهتر مدل های مورد استفاده، در ادامه دو مدل رایج تر مورد بررسی قرار گرفته اند.

اگر متن هایی دارید و مسئله ی شما تنها یافتن موضوعات موجود در متن است، باید از مدل سازی موضوع استفاده کنید. اگر موضوعات موجود در متن را می شناسید و فقط می خواهید آن ها را در یکی از این موضوعات دسته بندی کنند باید از دسته بندی موضوع استفاده کنید. در واقع هنگامی که موضوعات از قبل مشخص است و تنها می خواهید متن های موجود را بر اساس این موضوعات از پیش مشخص دسته بندی کنید از این روش استفاده می کنید.

این دو مسئله ظاهرا شبیه هم هستند اما با الگوریتم های کاملا متفاوتی کار می کنند. مدل سازی موضوع بر روی الگوریتم های بدون نظارت کار می کنند و دسته بندی موضوع بر روی الگوریتم های با نظارت کار می کند.

الگوریتم های بدون نظارت نیازی به برچسب گذاری ندارند. می توانید این الگوریتم را روی داده های خود اعمال کنید تا موضوعات موجود شناسایی شوند.

از طرف دیگر روشهای نظارتی نیاز به برچسب گذاری دارند تا از این طریق الگوریتم آموزش ببیند و برای شناسایی موضوعات داده های جدید آماده شود. هر چند این کار نیازمند برچسب گذاری توسط انسان است ولی اگر به خوبی و با دقت انجام شود نتیجه خوبی به همراه خواهد داشت.

 

کاربرد تشخیص موضوع

کاربردهای تشخیص و شناسایی متن متنوع است در ادامه اشاره ای به تعدادی از این کاربردها خواهیم داشت.

نظارت رسانه های اجتماعی

 هر روز مردم بیش از ۵۰۰ میلیون توئیت در تویئتر ارسال می کنند. در این حجم انبوه از داده های تولید شده در رسانه های اجتماعی، گفت و گوهایی در مورد سرویسها و خدمات، تجربه ی کاری و برند شرکت ها صورت می گیرد. فرض کنید افراد در مورد مزایا و معایب یک لپتاپ در یکی از سایت های گفت و گو بحث می کنند. یا در مورد سرویس ها و خدمات یکی از شرکت های هواپیمایی تبادل نظر می نمایند. این اطلاعات برای سازمان ها به منظور پیدا کردن دیدی روشن نسبت به مشتریان و شناسایی نقاط قوت و ضعف محصولاتشان ضروری است.

فرض کنید که در شرکتی کار می کنید. شما می توانید از تشخیص موضوع برای تحلیل نظراتی که مردم در توئیتر، فیسبوک و اینستاگرام در مورد شرکت شما می نویسند، استفاده کنید تا رایج ترین موضوعات را در بین این نظرات شناسایی کنید. مشتریان شما ممکن است نظراتی در مورد کارکرد محصول یا خدمات و یا خدمات پشتیبانی شرکت مطرح کرده باشند. با تحلیل موضوع می توانید به این اطلاعات دست یابید. علاوه بر این فن آوری تحلیل موضوع به شما در کسب اطلاعاتی در مورد رقبایتان و همچنین ردیابی ترند بازار کمک می کند.

اگر قصد تحلیل بهتر داده های خود را دارید، بهترین روش اضافه کردن ترکیبی از تشخیص موضوع و تحلیل احساس است. در نتیجه می توانید به احساسات مردم نسب به موارد مطرح شده توسط آن ها در شبکه های اجتماعی پی ببرید. یعنی علاوه بر شناسایی موضوعات مورد بحث می توان به احساسات مردم نسبت به این موضوعات را هم پی برد.

در سال ۲۰۱۶، MonkeyLearn به بررسی میلیون ها توئیت که توسط مردم در جریان انتخابات آمریکا تولید شده بود پرداخت، ابتدا داده ها بر اساس اینکه در مورد ترامپ یا هیلاری کلینتون هستند یا خیر دسته بندی شدند. سپس از تحلیل احساس برای دسته بندی این توئیت ها در سه دسته ی مثبت، منفی و خنثی استفاده شد. تحلیل های دیگری نیز به همراه این موارد انجام شد. مثلا پرتکرارترین کلمات کلیدی که در مورد ترامپ که در توئیت های منفی نسبت به او وجود داشت، شناسایی شدند.

نظارت بر برند

حدود ۹۰ درصد از مشتریان، حداقل ۱۰ نظر را قبل از اینکه خرید و فروشی انجام دهند می خوانند و حدود ۶۰ درصد از آن ها اگر محصول یا خدمتی ۴ یا ۵ ستاره باشد اقدام به خرید آن می کنند. همه ی ما این کار را انجام داده ایم. وقتی می خواهیم برنامه ای را دانلود کنیم یا هتلی را رزرو کنیم ابتدا به دیدگاه های منتشر شده درباره ی آن مراجعه می کنیم. در نتیجه می توان با استفاده از شناسایی موضوعات متن ها و نظرات موجود در سایت، مشخص نمود که نظرات مردم نسبت به برند ما چگونه است و این طریق شرکت ها می توانند بر برند خود نظارت داشته باشند.

سرویس مشتری

تنها داشتن یک محصول عالی با قیمت مناسب کافی نیست، اینکه بتوانید یک تجربه ی خوب برای مشتریان خود ایجاد کنید، بسیار مهم است و به شما کمک می کند نسبت به رقبایتان پیشتاز باشید. در سال ۲۰۱۷ ماکروسافت اعلام کرده که ۹۶ درصد از افراد اظهار داشته اند که خدمات مشتری در انتخاب و وفاداری شان نسبت به برند تاثیر گذار بوده است و ۵۶ درصد از آن ها اعلام کرده اند که به خاطر خدمات ضعیف ارائه شده توسط شرکت، استفاده از آن محصول یا خدمت را رها کرده اند. در نتیجه فقط با داشتن یک محصول عالی نمی توان انتظار داشت که مشتریان زیادی داشته باشیم. داشتن خدمات و سرویس های مرتبط با آن محصول نیز حائز اهمیت هستند و این مسئله بر روی نظر افراد برای خرید محصولات تاثیر گذار است.

روزانه تیکت های زیادی در قسمت خدمت رسانی به مشتریان ایجاد می شود، در نتیجه بخش عمده ای از فعالیت شرکت به پاسخگویی به این تیکت ها اختصاص دارد. ابتدا باید موضوع تیکت مشخص شده، سپس تیکت به بخش مربوطه ارسال می شود تا پاسخ مناسبی دریافت کند. تکنیک های تشخیص موضوع می توانند به تیم های خدمت رسانی به مشتریان برای تشخیص موضوع تیکت ها و پاسخ دهی به مشتریان کمک کنند تا مشتریان را راضی و خوشحال نگه دارند.

با استفاده از توانایی مدل های یادگیری ماشین مانند تشخیص موضوع، شناسایی هدف، تشخیص اضطرار، تحلیل احساس و شناسایی زبان، تیم پشتیبانی سایت شما می تواند:

  • تیکت ها را به صورت خودکار برچسب بزند.
  • تیکتها را به سمت افراد مناسب جهت پاسخگویی ارسال کند.
  • اضطراری بودن تیکت ها را تشخیص دهد و آن ها را اولویت بندی نماید.
  • با تحلیل مکالمات انجام شده به بینشی در مورد شرکت دست یابند.

صدای مشتری

شرکت با تحلیل بازخوردهای مشتریان می تواند به اطلاعاتی در مورد تجربیات، سطح رضایت و انتظارات مشتریان دست یابد. با استفاده از تحلیل موضوع می توانید به بررسی بازخوردهای مشتریان خود بپردازید. در اینجا هم می توانید با ترکیب فناوری تشخیص موضوع و تحلیل احساس، کلمات کلیدی را شناسایی کنید و احساس مثبت و منفی مربوط به آن ها را مشخص کنید.

هوش تجاری

جمع آوری داده از منابع مختلف و تحلیل آن که هوش تجاری نامیده می شود فرصت های بی شماری را پیش روی کسب و کارها قرار می دهد. با بهره برداری از اطلاعات، سازمان ها می توانند فرایند تصمیم گیری خود را بهبود داده، نسبت به رقبای خود پیشتاز باشند، ترند بازار را شناسایی کرده و مشکلات را قبل از اینکه تشدید شوند، تشخیص دهند.

وقتی که مسئله ی تحقیقات بازار و تحلیل رقبا مطرح می شود، هوش مصنوعی می تواند به کمک شما بیاید. می توانید از فن آوری تشخیص موضوع برای تحلیل نظرات مردم نسبت به خود و مقایسه آن با نظرات مردم نسبت به رقبایتان استفاده کنید.

با شناسایی موضوعات در مجموعه ی داده ها می توان به تشخیص مسائل مهم از نظر مشتریان پرداخت. در کنار این کار با تحلیل احساسات به تحلیلی عمیق تری می رسیم.

بازاریابی و فروش

در فرایند بازاریابی و فروش افرادی که می توانند مشتری محصول یا خدمت شرکت شوند باید شناسایی شوند. شناسایی این افراد کاری زمان بر است و به تحقیقات زیادی نیاز دارد.

Xeneta شرکتی است که از الگوریتم های یادگیری ماشین و تشخیص موضوع برای شناسایی مشتریان بالقوه استفاده می کند تا مشخص کند که مشتری مورد نظر برای آن محصول یا خدمت مناسب است یا نه.

نمونه ی دیگر شرکت Drift است که هدفش ارتباط فروشنده ها با مشتریان بالقوه است. شرکت از MonkeyLearn برای فیلتر کردن پاسخ ایمیل ها و مدیریت درخواست های لغو عضویت استفاده کرده است تا مشتریان بالقوه را شناسایی کند.

تحلیل محصول

مدیر محصول، مسئول یافتن راه هایی به منظور بهبود محصول است. مدیر محصول باید نیازهای مشتریان را پیش بینی کند و بر اساس بازخورد آن ها اقدامات لازم را انجام دهد. مدیر محصول با تشخیص عنوان نظرات و متن ها و تحلیل احساس می تواند وظایف خود را به صورت بهتری انجام دهد.

فرض کنید در بخش پشتیبانی مشتری مکالمات صورت گرفته با مشتریان بیشتر حول موضوع نحوه ی استفاده از محصول جدید است. با تحلیل این مکالمات مشخص می شود که توضیحات مربوط به نحوه ی استفاده از این محصول مبهم بوده است و در نتیجه تیم باید مستندات خود را بهبود داده یا اقدامی دیگر انجام دهد.

مدیریت دانش

 سازمان ها منبع زیادی از اطلاعات را هر روزه تولید می کنند. هدف مدیریت دانش دریافت، ذخیره سازی، بازیابی و به اشتراک گذاری داده هاست. تکنولوژی تشخیص عنوان به مدیریت این داده ها و استخراج اطلاعات مورد نیاز از بین آن ها کمک می کند. فرض کنید در یک مرکز بهداشتی و درمانی که اطلاعات زیادی ثانیه به ثانیه در حال تولید است نیاز به اطلاعاتی باشد. یافتن اطلاعات مورد نظر از میان این اطلاعات بسیار دشوار بوده و تحلیل موضوع به کمک این وظیفه می آید تا داده ها را بر اساس موضوعاتی مانند بیماری ها، علایم، درمان و دیگر ویژگی ها دسته بندی کند. در نتیجه یافتن اطلاعات مورد نظر سریع تر و راحتتر می شود.

منبع یک، منبع دو

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *