جزوه داده کاوی ارشد کامپیوتر
دانلود فایل
پس از پردازش و سازماندهی، داده ها ممکن است ناقص، حاوی موارد جزوه داده کاوی ارشد کامپیوتر تکراری یا حاوی خطا باشند. [۲۱] [۲۲] نیاز به پاکسازی داده ها از مشکلاتی در نحوه ورود و ذخیره داده ها ناشی می شود. [۲۱] پاکسازی داده ها فرآیند پیشگیری و اصلاح این خطاها است. وظایف متداول عبارتند از تطبیق رکوردها، شناسایی نادرستی داده ها، کیفیت کلی داده های موجود، حذف مجدد و تقسیم بندی ستون ها. [۲۳] چنین مشکلات داده ای را می توان از طریق انواع تکنیک های تحلیلی نیز شناسایی کرد. مثلا؛ با اطلاعات مالی، مجموع متغیرهای خاص ممکن است با اعداد منتشر شده جداگانه که قابل اعتماد هستند مقایسه شود. [۲۴] [۲۵]مقادیر غیرمعمول، بالاتر یا پایین تر از آستانه های از پیش تعیین شده، نیز ممکن است بررسی شوند. انواع مختلفی از پاک کردن داده ها وجود دارد که به جزوه داده کاوی ارشد کامپیوتر نوع داده در مجموعه بستگی دارد. این می تواند شماره تلفن، آدرس ایمیل، کارفرما یا مقادیر دیگر باشد. [۲۶] [۲۷] روشهای دادههای کمی برای تشخیص موارد پرت، میتوانند برای خلاص شدن از شر دادههایی که به نظر میرسد احتمال بیشتری برای ورود اشتباه دارند، استفاده شوند. [۲۸] میتوان از چککنندههای املای دادههای متنی برای کاهش تعداد کلمات تایپ اشتباه استفاده کرد. با این حال، تشخیص درستی کلمات خود دشوارتر است. [۲۹] جزوه داده کاوی ارشد کامپیوتر