دانلود مقاله ترجمه شده داده کاوی بزرگ مقرون به صرفه در زمینه ابر
داده کاوی بزرگ مقرون به صرفه در زمینه ابر یک مطالعه موردی با Kmeans |
دسته بندی | کامپیوتر و IT |
فرمت فایل | |
حجم فایل | 409 کیلو بایت |
تعداد صفحات فایل | 24 |
فایل دانلودی فقط شامل فایل ترجمه شده با پسوند pdf بوده و فایل انگلیسی در آن موجود نمی باشد.
بخشی از ترجمه فارسی مقاله:
I . مقدمه
دوران داده های بزرگ آغاز شده است. امروزه , نود درصد از
داده ها در طی دو سال اخیر تولید شده و 2.5 کوانتیلین از داده های جدید
هر روزه تولید می شوند. برای مثال , هر ماهه در حدود 6 میلیارد عکس جدید
به وسیله ی فیسبوک گزارش شده و در هر دقیقه 72 ساعت ویدئو به یوتیوب آپلود
می شود. این رشد انفجاری داده , داده کاوی بزرگ را در رنج وسیعی از زمینه
ها همانند تجارت , حکومت , مراقبت های بهداشتی و غیره فعال ساخته است.
بسیاری از الگوریتم های داده کاوی در پیچیدگی محاسباتی , نمایان هستند. در
سناریو های داده ای بزرگ , به طول انجامیدن فرایند داده کاوی برای ساعت
ها و یا حتی روز ها به منظور تکمیل , پدیده ی نادری نیست. از این رو ,
داده کاوی بزرگ اغلب نیازمند منابع محاسباتی عظیم است. بسیاری از کسب و
کار ها و سازمان ها از عهده ی هزینه های زیر ساختی داخلی برای داده کاوی
بزرگ , بخصوص کسب کار های با اندازه ی کوچک و متوسط , بر نمی آیند.
محاسبات ابری راه حلی کاملی برای این سازمان ها و کسب و کار ها به حساب می
آید. مدل ” pay-as-you-go ” که به و سیله ی محاسبات ابری رواج یافته است ,
دسترسی منعطف و مورد تقاضا برای منابع محاسباتی غیر محدود مجازی را فراهم
می کند. این امر اجازه ی اجرای داده کاوی بزرگ را تنها با استفاده از
منابع محاسباتی ضروری برای مدت زمان لازم می دهد. در حقیقت , بسیاری از
کسب و کار ها و سازمان ها در حال حاضر , دارای داده های ذخیره شده در ابر
هستند.
برای چنین کسب و کار ها و سازمان هایی , انجام داده کاوی در
ابر , یک انتخاب طبیعی است. هر چند , هزینه ی پولی استفاده از منابع منابع
محاسباتی در ابر ( با عنوان هزینه ی محاسبات به آن اشاره شده است) در
صورتی که به صورت مناسبی مدیریت نشوند , برای داده کاوی بزرگ , به صورت
غیر منتظره ای بالا خواهد بود.
برای مثال , اجرای ماشین مجازی ( VM)
100 m4-xlarge Amazon EC2 , هر روزه هزینه ای در حدود $583,00 را در پی
دارد. بنابراین , هزینه ی بهره وری ( هزینه ی مقرون به صرفه ) در ابر ,
تبدیل به مانعی عمده برای کاربرد های وسیع داده کاوی بزرگ شده است. در این
زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری داده
کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی در حداقل
هزینه ی محاسباتی ممکن است. در بسیاری از سناریو های داده کاوی , دستیابی
به نتیجه ی مطلوب , همانند دقت 100% ضروری نیست. برای مثال , در رابطه با
بازاریابی می توان گفت که داده کاوی معمولا بر روی تعداد زیادی از
مشتریان اجرا می شود. حاشیه ی معقولی از بی دقتی قابل قبول است. برای مثال
, بازاریابان نیاز ندارند تا مشتریانشان در دسته بندی دقت 100% قرار
گیرند. تا زمانی که آنان بتوانند تصویری عمومی را بدست آورند , قادر به
تصمیم گیری خواهند بود. در حقیقت , در برخی از سناریو های داده کاوی ,
آنان دارای دقت 100% نخواهند بود. برای مثال , در پیش بینی آ ب و هوا و
پیش بینی ترافیک , این قضیه صادق است.
دست یابی به هزینه ی بهره وری
با استفاده از متوقف ساختن فرایند داده کاوی امکان پذیر است, چرا که اغلب
دست یابی به یک دقت کافی همانند 99% یا 99.9% , در هزینه های پایین همانند
10% یا 20% نسبت به هزینه ی دستیابی به دقت , 100% از ارجحیت بالاتری
برخوردار است.
هزینه ی بهره وری داده کاوی , به تحلیل داده های بزرگ
اجازه کمک کرده و اجازه می دهد تا رنجی وسیعی از زمینه ها , به وسیله ی
کسب و کار ها و سازمان ها, به ویژه سازمان هایی با اندازه ی کوچک و متوسط
تحت پوشش این امر قرار گیرند. هر چند که این مورد به خوبی توسط جامعه ی
پژوهشی کشف نشده است. در این مقاله , ما به مطالعه ی k-means , یکی از 10
الگوریتم داده کاوی برتر , به کشف و نمایش هزینه ی بهره وری داده کاوی در
ابر می پردازیم.
بخش های باقی مانده ی مقاله به شکل زیر سازماندهی شده اند.
بخش II به توضیح آثار مربوطه می پردازد , بخش III به معرفی روش شناسی
اتخاذ شده در این مطالعه می پردازد. بخش IV به ارائه و تحلیل نتایج تجربی,
بخش V بیشتر به توضیح یافته های این مطالعه , بخش VI به تحلیل و بررسی
تهدید های اعتبار آزمایشات ما و بالاخره, بخش VII به نتیجه گیری این مقاله و
به توضیح کار های آینده می پردازد.