متن کاوی اصطلاحی است که به فرایند تحلیل و کاوش متن، نسبت داده می شود. داده ها انواع مختلفی دارند. برخی به شکل اعداد، تصویر، صوت و برخی هم به صورت متن هستند. طبق گزارشی ۸۰ درصد داده های موجود در سراسر دنیا به صورت متن هستند. هر روز که شما متنی را می نویسید و در دنیای وب منتشرش می کنید، در واقع به داده های موجود داده ای دیگر اضافه می کنید. در نتیجه حجم داده های موجود در وب روز به روز در حال افزایش است.
ذخیره سازی، پردازش و تحلیل این حجم از اطلاعات تبدیل به چالشی شده است. سازمان های مختلفی وجود دارند که داده های متنی بسیاری را تولید می کنند. چگونه می توان این حجم از داده ها را مدیریت کرد؟ چگونه می توان اطلاعات مفیدی از این داده های متنی بی شمار بدست آورد؟ آیا این داده ها ارزشی دارند؟ متن کاوی (text mining) فناوری مورد استفاده برای چنین مواردی است.
با تکنیک های متن کاوی می توانید داده های متنی را بررسی و تحلیل کنید و از نتایج حاصل از این تحلیل اطلاعات ارزشمندی کسب نمایید. در واقع داده های متنی هیچ گونه ارزشی ندارند مگر اینکه متن کاوی شوند. متن کاوی به شناسایی الگوها، کلمات کلیدی، موضوعات و دیگر ویژگی های موجود در متن می پردازد. در این مقاله قصد داریم مروری بر تعریف متن کاوی، کاربردها، مراحل متن کاوی و تکنیک های مورد استفاده در آن داشته باشیم.
انواع داده ها
داده ها به صورت ساخت یافته (structured)، نیمه ساخت یافته (semi-unstructured) و غیر ساخت یافته (unstructured) وجود دارند. داده های ساختار یافته همان داده هایی هستند که داخل فایل های اکسل یا دیگر فایل ها به صورت فیلدهای مختلف در سطرها و ستون های جدول قرار می دهید. اما داده های بدون ساخت یافته فرمت مشخصی ندارند. شما نمی توانید آن ها به عنوان یک فیلد اطلاعاتی در سطرها و ستون های جدول جای دهید. متن یک نامه یا یک صفحه از روزنامه از این نوع داده است.
حتما تا اینجا حدس اید که داده های متنی از چه نوع داده هایی هستند. متن ها از نوع داده های بدون ساختار یافته اند. البته متن می تواند حالت نیمه ساخت یافته هم داشته باشد. برای درک بیشتر این تفاوت به تصویر زیر دقت کنید. داده های بدون ساختار به صورت یک متن هستند. داده های ساخت یافته دارای فرمتی مشخص و در قالب جدول مشخص شده اند و داده ی نیمه ساخت یافته نیز در قابل جدول مشخص نشده اما به هر حال دارای ساختاری است که با برچسب هایی هستند که از یکدیگر جدا شده اند.
متن کاوی چگونه کار می کند؟
ویکی پدیا متن کاوی را این گونه تعریف می کند: «متن کاوی یا همان پردازش داده های متنی در واقع فرایند استخراج اطلاعات با کیفیت از متن است». در این تعریف به این نکته اشاره شده است: “با پردازش داده های بدون ساختار اطلاعات معنی داری استخراج می شود.”
متن کاوی ابزارهای بازیابی اطلاعات، داده کاوی، یادگیری ماشین، آمار و زبان شناسی محاسباتی را بکار می گیرد تا اطلاعات موجود در متن ها را استخراج کند.
مراحل متن کاوی
متن کاوی شامل مراحل مختلفی است که بنا بر نیاز هر یک از این مراحل تغییر می کنند اما به طور کلی پنج گام اساسی در متن کاوی شامل مراحل زیر است:
- در گام اول اطلاعات مورد نیاز جمع آوری می شود. برای مثال اگر شما بخواهید نظر مردم درباره ی برند و یا محصولات خود را بدانید، نظرات و بحث های مردم را در سایت های مختلف جمع آوری می کنید.
- در مرحله ی دوم داده ها باید پیش پردازش و پاک سازی شوند. برای مثال ریشه یابی، حذف کلمات توقف، تبدیل حروف بزرگ به حروف کوچک، حذف اعداد و عملیات دیگر می توانند در مرحله ی پیش پردازش استفاده شوند.
- در گام بعدی داده های متنی به داده های دارای ساختار تبدیل می شوند و در واقع دارای ساختاری می شوند که برای متن کاوی مناسب باشند. با انتخاب ویژگی هایی که به تحلیل بهتری منجر می شوند، برداری از کلمات ایجاد می شود. Bag of Words، TFIDF، Word2Vec از جمله روش های مورد استفاده برای تبدیل متن به بردار هستند.
- در این گام، کار تحلیل و داده کاوی بر روی داده هایی که دارای ساختار شدند، انجام می شود. دسته بندی، خوشه بندی و استخراج اطلاعات، روش های مورد استفاده برای متن کاوی هستند. برای انجام دسته بندی (Classification) باید تعدادی متن برچسب دار داشته باشیم و از این داده ها برای برچسب گذاری متن های جدید که برچسب ندارند استفاده کنیم. در خوشه بندی (Clustering) نیازی به داده ی برچسب دار نداریم و متن های مختلف بر اساس محتویاتی که دارند به خوشه های مختلفی دسته بندی می شوند.
- در گام آخر نتایج به دست آمده از مرحله ی قبل ارزیابی می شود.
تکنیک های متن کاوی
در ادامه تعدادی از تکنیک هایی که در متن کاوی مورد استفاده قرار می گیرند را بررسی می کنیم.
دسته بندی متون
متن های داده شده به دسته های از پیش مشخص شده اختصاص داده می شوند. فرض کنید تعدادی متن دارید که موضوع هر یک مشخص است. حال متن جدیدی به این متن ها اضافه می شود. با استفاده از الگوریتم های دسته بندی و همچنین داشتن متن های با موضوع مشخص می توان، موضوع متن جدید را پیدا کرد. مثلا تعدادی نظر در مورد گوشی موبایل داریم. برخی نظرات نسبت به گوشی مثبت هستند و برخی دیگر منفی. با استفاده از تکنیک های دسته بندی می توانید، این نظرات را در دسته های مثبت و منفی دسته بندی نمایید.
استخراج اطلاعات
به فرایند استخراج اطلاعات معنی دار از مقادیر زیاد داده های متنی اشاره دارد. این روش بر روی استخراج اسامی، ویژگی ها و ارتباط آن ها تمرکز دارد. اطلاعات استخراج شده برای دسترسی و بازیابی در آینده در یک پایگاه داده ذخیره می شود. اثر بخشی و کارایی نتایج بر اساس دقت و صحت آن ها مورد ارزیابی قرار می گیرد. فرض کنید نیاز باشد اسامی انسان ها، مکان ها، صفات و دیگر ویژگی ها استخراج شود، از این طریق می توان این موارد را استخراج کرد. موتور جستجوی گوگل و یاهو دو تا از مشهورترین سیستم های استخراج اطلاعات هستند.
خوشه بندی
یکی از مهم ترین تکنیک های متن کاوی است که به دنبال شناسایی ساختارهای درونی در اطلاعات متنی و سازماندهی آن ها در گروه ها یا همان خوشه هاست تا بتوان آن ها را تجزیه و تحلیل کرد. یکی از چالش های مهم در خوشه بندی تشکیل خوشه های معنی دار از داده های متنی بدون برچسب و داشتن اطلاعات قبلی در مورد آن هاست.
خلاصه سازی
خلاصه سازی متن اشاره به پردازش خودکار داده ها برای تولید یک متن خلاصه دارد که شامل اطلاعات ارزشمند برای کاربر است. هدف از این کار دریافت اطلاعات متنی از چند منبع و خلاصه سازی آن بگونه ای است که مفهوم کلی و منظور متن حفظ شود.
فرکانس کلمات
برای یافتن کلمات پر تکرار در یک متن به کار می رود. این تکنیک می تواند برای موارد متعددی مفید باشد. یک مثال از این کاربرد وقتی است که درخواست کاربر تحلیل می شود و بیشترین تعداد تکرار کلمات در متن درخواستی او مثلا در “سرویس ارسال کالا” باشد، در این صورت ممکن است درخواست او هم در این مورد باشد.
نظرکاوی
نظرکاوی (sentiment analysis) به مطالعه ی نظرها، احساسات، ارزیابی ها، رفتار و عواطف افراد نسبت به موجودیت هایی مانند محصولات، افراد، سازمانها، موضوعات، حوادث می پردازد. با نظرکاوی می توان بازخوردهای مشتریان نسب به سازمان یا شرکت را مشخص کرده و همچنین اطلاعاتی در مورد رقبا و روند کنونی بازار بدست آورد. یکی از برنامه هایی که به این منظور توسعه یافته مربوط به شرکت brand24 است که می توان از آن برای یافتن نظرات و احساسات مردم نسبت به شرکت خود یا رقبا استفاده کرد. علاوه بر این افراد عادی هم می توانند از مزیت نظرکاوی بهره ببرند به این صورت که قبل از تصمیم گیری در مورد خرید یا اقدام به انجام کاری از نظرات افراد دیگر مطلع شوند.
کاربردهای متن کاوی
کاربرد متن کاوی فقط محدود به کسب و کارها نمی شود. متن کاوی در بسیاری از صنایع از جمله مراکز آموزشی، مراکز بهداشتی، شبکه های اجتماعی، صنایع مرتبط با داروسازی، پیش بینی آب و هوا، حمل و نقل و بیمه کاربرد دارد. در ادامه تعدادی از کاربردهای متن کاوی را مورد بررسی قرار داده ایم:
مدیریت ریسک
یکی از دلایل شکست در کسب و کارها تحلیل نامناسب و ناکافی ریسک است. استفاده از نرم افزارهای مدیریت ریسک مانند SAS Text Miner که از متن کاوی استفاده می کند می تواند به کسب کارها کمک کند تا همراه روندهای کنونی بازار حرکت کرده و توانایی خود را برای کاهش ریسک ارتقا دهند. به دلیل توانایی متن کاوی برای جمع آوری اطلاعات از منابع گوناگون و ارتباط دادن آن ها به یکدیگر، سازمان ها می توانند به اطلاعات درست در زمان مناسب دسترسی پیدا کرده و در نتیجه فرایند مدیریت ریسک سازمان خود را بهبود دهند.
سرویس مراقبت از مشتریان
تکنیک های متن کاوی از جمله پردازش زبان طبیعی در فرایند مراقبت از مشتریان از اهمیت زیادی برخوردار است. شرکت ها در حال سرمایه گذاری بر روی نرم افزارهای پردازش متن برای ارتقای تجربه ی کاربری مشتریان خود هستند که این کار با دریافت اطلاعات متنی از منابع متفاوت مانند نظرسنجی ها، بازخوردها، تماس های مشتریان انجام می شود. هدف تحلیل متن در این کاربرد، کاهش زمان پاسخ گویی است.
کشف کلاهبرداری
متن کاوی فرصت های بی شماری را برای صنایعی که اطلاعات متنی زیادی دارند، فراهم می کند. از جمله ی این شرکت ها می توان به شرکت های مالی و بیمه اشاره کرد. با ترکیب نتایج تحلیل متن با دیگر داده های ساختار یافته، زمان پاسخگویی به درخواست ها کمتر شده و از طرفی کلاهبرداری ها شناسایی می شوند.
هوش تجاری
سازمان ها و کسب کارها از متن کاوی به عنوان بخشی از هوش تجاری خود استفاده می کنند. در کنار کمک به ایجاد دیدی عمیق نسبت به رفتارهای مشتریان، متن کاوی به تحلیل نقاط قوت و ضعف آن ها نیز کمک کرده و در نتیجه نوعی مزیت رقابتی برای آن ها خواهد بود. ابزارهای متن کاوی مانند Cogito Intelligence Platform و IBM text analytics دیدی از عملکرد بازاریابی شرکت، مشتریان اخیر و روند بازار به آن ها می دهد.
تحلیل شبکه های اجتماعی
ابزارهای متن کاوی متنوعی برای تحلیل عملکرد شبکه های اجتماعی طراحی شده است. این ابزارها به ردیابی و تفسیر متن های تولید شده در سایت های خبری، بلاگها، ایمیل و دیگر موارد می پردازند. علاوه بر این، می توانند تعداد پستها، لایکها و فالوئرهای برند شما را در شبکه های اجتماعی مشخص کنند. در نتیجه با استفاده از این ابزارها می توانید عکس العمل مردم نسبت به برند خود را ارزیابی کنید.
مدیریت دانش
در هنگام مدیریت مقدار زیادی از داده های متنی، یافتن اطلاعات مهم به صورت سریع، دشوار است. سازمانها مخصوصا مراکز بهداشتی و درمانی با این چالش رو به رو هستند زیرا داده های متنی زیادی دارند که یافتن اطلاعات مهم از بین آن ها سخت است. استفاده از نرم افزارهای مدیریت دانش که از متن کاوی استفاده می کنند می تواند راه حل مناسبی برای مدیریت این داده ها باشد.
جلوگیری از جرایم اینترنتی
طبیعت ناشناخته ی اینترنت و ارتباطات آن منجر به افزایش جرایم اینترنتی می شود. امروزه برنامه هایی برای جلوگیری از این جرایم با بکارگیری متن کاوی توسعه یافته اند که هر سازمانی می تواند از آن استفاده کند. فرض کنید کاربرانی اقدام به ارسال متن های نامناسب در سایت های مختلف می کنند. تشخیص متن های غیر اخلاقی و فیلتر کردن آن می تواند با تکنیک های مختلف متن کاوی انجام شود. سایت های مختلف مخصوصا سایت هایی که بازدید کننده ی زیادی دارند و افراد مختلف به بحث و تبادل نظر حول موضوعات مطرح شده در پست های سایت می پردازند، می شود از سرویس های فیلتر متن های غیر اخلاقی استفاده کرد.
غنی سازی محتوا
داده های متنی اطلاعات با ارزشی دارند که به صورت خام و بدون تحلیل نمی توان از آن ها بهره مند شد. بهره برداری و استخراج اطلاعات مفید از این داده ها نیازمند صرف زمان زیادی از جانب یک انسان است تا تمام متن ها را خوانده و اطلاعات مفید آن را به صورت دستی استخراج نماید. با توجه به اینکه تکنیک های تحلیل متن می توانند مقدار زیادی اطلاعات را مدیریت کنند، استفاده از این تکنیک ها هنگام کار با داده های متنی بسیار مفید خواهد بود. این تکنیک ها، با ایجاد تگ هایی، محتوای در دسترس را مدیریت و خلاصه می کنند در نتیجه این داده ها می توانند برای اهداف مختلفی مفید واقع شوند.در واقع می توان با تکنیک های متن کاوی، محتوای موجود را غنی کرد.
فیلتر ایمیل های اسپم
ایمیل یکی از راه های ارتباطی ارزان، سریع و موثر است که با مشکل ایمیل های اسپم مواجه است. متن کاوی می تواند به بهبود فرایندهای فیلتر این اسپم ها کمک کند. در واقع با تحلیل متن های ایمیل و بکار بردن الگوریتم های متن کاوی می توان الگوهای نشان دهنده ی اسپم را در ایمیل ها شناسایی نمود.
تبلیغات شخصی سازی شده
با در اختیار داشتن اطلاعات کاربران می توان تبلیغاتی را به آن ها نشان داد که مطابق میل و سلیقه ی آن ها باشد. در این صورت دیگر همه ی کاربران یک نوع تبلیغ را مشاهده نمی کنند. با تحلیل محتوای متنی که یک نفر در اینترنت منتشر می کند، می توان ترجیحات او را شناسایی کرد. نظرات، بحث ها و گفت و گو های افراد منبع ارزشمندی برای پی بردن به گرایشات آن هاست.