داده کاوی چیست؟
داده کاوی یا کاوش دانش، فرایند استخراج اطلاعات نهان یا الگو ها و روابط مشخص در حجم زیادی از داده ها در یک یا چند بانک اطلاعاتی بزرگ است.
در ادامه تعریفی که از داده کاوی در ویکیپدیا میبینیم اشاره می شود که متود های داده کاوی درواقع در فصل مشترک یادگیری ماشین، آمار و سیستم های پایگاه داده است.
اگر خیلی ساده تر به داده کاوی نگاه کنیم در واقع این علم، بخشی از علوم کامپیوتر در ترکیب با آمار است که صرفا به دنبال استخراج اطلاعات به صورت هوشمند است. این داده ها در نمونه های آماری و مجموعه های داده پنهان هستند و تنها باید با روش هایی هوشمند تبدیل به اطلاعات شوند.
اطلاعات زمانی به دست میآید که داده ها بر اساس یک سری قواعد تفسیر یا ترجمه شوند. به این صورت در یک معنای خیلی سطحی میتوان گفت که اگر تاریخ تولد ( به فرض ۱/ ۱/ ۷۲) یک داده در مجموعه اماری در ارتباط با یک شخص باشد سن او ( به فرض عدد ۲۷) اطلاعات پردازش شده از این داده می باشد.
داده کاوی یا علم آمار
در کاربرد عمومی این دو عبارت شباهت های زیادی وجود دارد در حالی که این دو علم، معنی و کاربرد متفاوتی دارند.
داده کاوی ترجمه عبارت انگلیسی Data Mining است. Mining به معنای استخراج از معدن است و در این ترکیب، معنای کلمه به کلمه کاویدن معادن داده را میبینیم که اشاره غیر مستقیمی به حجم داده و ارزش داده نیز دارد.
تحلیل داده، ابزاری برای استخراج حقیقت ( مفاهیم پنهان در داده) در مجموعه های داده است. داده کاوی و علم آمار، در راستای این هدف به تحلیلگران داده کمک میکند. با وجود این که در بسیاری از موارد به نظر میرسد داده کاوی و آمار با یکدیگر همپوشانی دارند، این دو علم، تکنیک های متفاوت با مهارت های مختلفی نیاز دارند.
علم آمار، به تشخیص الگو هایی کمک میکند که تفاوت بین داده ها، اهمیت داده ها و همچنین تشخیص داده های ضروری از غیر ضروری را با استفاده از احتمالات و درصد های نسبی، کیفی وکمی را مشخص میکند.
در تعریف بهتری از علم آمار میگوییم: این علم، یادگیری داده که شامل جمع آوری آن، مرتب کردن آن برای تحلیل و ارائه است را ممکن میکند. این علم روی مدل های احتمالی، استنباط علیت (Inference) و تفسیر داده تمرکز دارد.
آمار داده ها را اندازه گیری میکند، این اندازه گیری یا به صورت کیفی است یا به صورت کمی. و اندازه گیری با استفاده از ابزار هایی است که ماهیتشان، قوانین ریاضی و احتمالی است.
در علم امار داده ها تحلیل میشوند
داده کاوی، مدل هایی برای شناسایی الگوهای داده و ارتباط داده در پایگاه داده های بزرگ را ایجاد میکند. به همین دلیل آمار و داده کاوی را باید به عنوان دو تکنیک متفاوت در تحلیل داده دید، نه دو فیلد یکسان!
تکنولوژی های امروزی، استخراج اتوماتیک اطلاعات قابل پیشبینی و پنهان در پایگاه های داده را ممکن کرده است. در کنار این تکنولوژی ها، عواملی همچون آمار، هوش مصنوعی، یادگیری ماشین، مدیریت پایگاه داده، الگو شناسی و تصویر سازی داده ها، عملکرد استخراج داده و در نهایت تحلیل آن را تسهیل میکند.
کاربرد داده کاوی در فرایند ها
داده کاوی شاخه ای توسعه یافته و نوین از علم آمار است. علم آمار و داده کاوی هر دو به دنبال فراگیری داده هستند و قصد دارند که داده را به اطلاعات تبدیل کنند.
ولی تفاوت اصلی این دو علم در حجم داده های مورد تحلیل و نحوه مدلسازی و برخوردشان با ماهیت داده مشخص میشود.
داده کاوی داده های حجیم که زمان پردازش زیادی میطلبند را با مدلسازی و به کمک هوش مصنوعی تبدیل به فرایندی خودکار و روان میکند. داده های ورودی با مدلسازی های تحلیلی تبدیل به اطلاعاتی ازشمند میشوند که در آینده کسب وکار نقش حیاتی ایفا میکنند.
طبیعتا تبدیل داده های خام و پراکنده به اطالعات ملموس و قابل یادگیری در کسب و کار اهمیت به سزایی دارد. به کمک این اطلاعات کسب و کار توانایی اتخاذ تصمیمات واقع بینانه و شناسایی الگوهای سودآور در سیستم را کسب میکند.
داده کاوی در هوشمندی کسب و کار نقش حیاتی دارد. و به ایجاد بینش با ارزش الگوی داده های کسب وکار کمک به سزایی میکند.
فواید استفاده از داده کاوی در کسب و کار
داده مهم است، و این اهمیت هم در وضعیت فعلی سیستم و هم در آینده آن تاثیر دارد.
برخی از مزایا و فواید استفاده از داده کاوی در کسب و کار را میتوان در مدیریت و بهینه سازی کمپین های بازاریابی ، تشخیص تقلب در سیستم فروش، تصمیم گیری سازمان یافته، قیمت گذاری هدفمند، تشخیص بازار و دستیبابی به بینش از کارمندان و تدوین قوانین منابع انسانی دید.
به طور مثال تحلیل داده های یک گالری هنر میتواند آمار مناسبی از جامعه خریدار، سرمایه گذاران، آثاری که پتانسیل سرمایه گذاری دارند و همچنین قیمت گذاری بر روی آثار به گالری دار و هنرمند بدهد. همچنین سرمایه گذاران و کلکسیونر ها با مطالعه آمار گالری هنری میتوانند به برنامه ای برای سرمایه گذاری روی هنرمندان و آثار آینده آنها برسند.
داده کاوی و گام های آن
هر سامانه از عناصر و المانهای متفاوتی تشکیل شده است که ویژگی های خاص خود را دارند.
در طراحی یک سامانه داده محور و هوشمند، هدف اساسی، خلق یک فضا برای توصیف تمامی این عناصر و درک تمایز و شباهت های آنان است.
به عبارت دیگر یک سامانه هوشمند، با بهره مندی از ادراک نسبت به محیط کسب و کار خود میتواند در زمینه افزایش عمق اتوماسیون، افزایش بهرهوری و مدیریت هزینه ها نقش ایفا کند.
در ایجاد مسیر تحلیل داده در سامانه یا به اصطلاح هوشمند کردن آن، گام هایی وجود دارد. سامانه آنلاین باید به گونه ای طراحی و پیاده سازی شود که توانایی استخراج داده از آن وجود داشته باشد. به همین دلیل سامانه باید با اصول منطقی و بر اساس معماری مشخصی پیاده سازی شود.
- مرحله اول: کسب و کار باید درک شود. کارفرما بر اساس نیاز خود، و نیاز بازار فاکتور های مشخصی برای رصد را معرفی میکند.
- مرحله دوم: نحوه استخراج و دریافت داده ها مشخص میشود. کارشناسان طراحی سامانه آنلاین، کارشناس معماری سیستم و همچنین متخصصان تحلیل سیستم و فروش فاکتور های اندازه گیری و تحلیل پارامتر ها را به طراح سیستم معرفی میکنند.
- مرحله سوم: سیستم بر اساس این فاکتور ها و معماری کلی آن به صورتی طراحی میشود که داده های مورد نظر قابلیت استخراج داشته باشند. همچنین راهکارها و پارامتر های لازم برای تحلیل و گزارش گیری این داده ها نیز در سامانه تعبیه میشود.