دانلود مقاله کارشناسی ارشد رشته هوش مصنوعی

تاثیر نویز بر داده کاوی

 
چکیده 
در این تحقیق ایده ای برای داده کاوی در مورد پایگاه های داده نویزی که ممکن است توسط سیستم های آموزش ماشین ساخته شده باشد توضیح داده می شود. همچنین روشهایی برای تخمین توزیع احتمال پیوسته بدون نویز در حالتی که نویز مشاهده می شود. و همچنین احتمال شرطی ، که می تواند با استفاده از نمونه های آماری و آنالیز خطا تخمین زده شود بررسی می شود  و همچنین آزمایشات مختلفی برای تست این ایده ها ارائه شده است توضیح داده می شود.
 
در قسمت بعد الگوریتمهایی برای آموزش نویزی از جمله الگوریتم PAC ارائه می گردد و در مورد توسعه آن نیز بحث می شود که تحت دو الگوریتم یادگیری ضعیف و قوی که قابل تعمیم به یکدیگر هستند مورد بررسی قرار می گیرد.در نهایت کاربردی از داده کاوی در محیط نویزی از جمله روشهایی داده کاوی در محیطهای نویزی برای از بین بردن نویز در صفحات وب بحث می گردد.
 
 
کلمات کلیدی:

داده کاوی

الگوریتم PAC

نویز در داده کاوی

پایگاه های داده نویزی

 
 
 مقدمه
روشهای قدیمی داده کاوی شامل گستره وسیعی از ابزار و تکنیک ها بوده که برای آنالیز پایگاه های داده خیلی بزرگ در جهت کشف دانشهای مفید و همچنین دانشهایی که قبلاً مجهول بوده در داخل داده ها نهفته مورد استفاده قرار می گیرد. در اکثر این روشها فرض بر این است که پایگاه داده های موجود در ابعاد مناسب می باشد و نسبتاً بدون نویز می باشد. یعنی شرایط ایده آل برای داده کاوی کاملاً مهیا می باشد البته گاهی اوقات که داده ها دارای نویز می بود پاکسازی داده ها نیز برای حذف یا تصحیح بخشهای نسبتاً کوچکی از اطلاعات که دارای مقادیر اشتباه می باشد یا داده هایی که دارای تناقض هستند بکار می رفت. 
 
بعبارت دیگر در برخورد با داده های خطا و یا ناقص آن داده ها حذف می گردید و آموزش با بعقیه داده های موجود بکار گرفته می شد که البته این روش مناسب نیست زیرا ممکن است داده های حذف شده داده های مهمی باشد و تاثیر زیادی در آموزش صحیح داشته باشد یا اینکه حتی داده های باقیمانده در اثر حذف داده های اشتباه به قدر کافی برای آموزش مناسب نباشد. البته مشکل بزرگتر آن است که برخی پایگاه های داده شامل داده هایی می باشد که به صورت ذاتی دارای نویز می باشد و قابل پاکسازی نمی باشد که یک مثال خوب از این مفاهیم ، پایگاه دادههایی است که توسط یکی (یا بیشتر) از الگوریتمهای یادگیری ماشین ساخته شده است. بنابراین بسیار مهم است که بتوان تاثیر نویز بر داده کاوی را درک کرد و آموزش را بر مبنای داده های اشتباه نیز به نحو صحیح انجام داد.
 
بسیاری از ایده های موجود در مورد داده کاوی بر مبنای اعمال تکنیک های بدون ناظر آموزش به داده های خیلی بزرگ برای کشف دانش ، الگوها و قوانین می باشد. مشکل عمومی یادگیری بدون ناظر استنتاج و یا حدس زدن جزئیات توزیع احتمال پیوسته می باشد . متغیر تصادفی X و نمونه های حاصل از N مشاهده در نظر گرفته می شود ( ) و با توجه به این تعریف ، هدف آموزشهای بدون نظارت بصورت تعریف جزئیات مفید چگالی پیوسته P(x) تعریف می شود.در این بخش ارتباط بین توزیع احتمال پیوسته که از خروجی پردازش نویزی بدست آمده در مقابل توزیع در محیطهای عاری از نویز بررسی می شود. بنابراین امید است که بتوان ایده های عمومی و همچنین یکسری محدودیت ها را برای حصول دانش از داده های نویزی بدست آورد و اهمیت اصلی بر روی داده های نویزی بدست آمده از الگوریتمهای یادگیری می باشد.   
 
 
 
 
 
 
 
 
فهرست مطالب
چکیده 1
1- مقدمه 1
2- مدلها و ایده ها 2
2-1- حالت عمومی 3
3- آزمایش 8
شکل 3. نتایج ساخت داده ها با استفاده از درخت تصمیم. 14
4- کارهای وابسته 14

5- مدل آموزش نویزی 15

5-1- مدلهای آموزش 20

5-1-1- مدلهای آموزشی قوی و ضعیف PAC 20

5-1-2- طبقه بندی نویز و مدلهای خطای بدخیم 23

6- پاکسازی نویز در وب 26

6-2- كارهای مربوط 27
6-3- تكنیك پیشنهادی 27
6-3-1- مدل درخت DOM 28

6-3-3- تعیین عنصر دارای نویز در ST 30

6-4- كشف نویز 31
7- نتیجه 33
8- مراجع 33