رابطه ۱- ۶:
و بر این اساس برآورد اعتباربخشی با زیرمجموعههای نمونه از رابطه زیر محاسبه میگردد.
رابطه ۱- ۷:
به عبارت دیگر V بار قسمت بهعنوان نمونه آموزشی و یک قسمت بهعنوان آزمون به طور تصادفی تشکیل گردیده و متعاقباً با جایگزین شدن یکی از آنها بهعنوان نمونه آموزشــی و دیگری بهعنوان آزمون انتخاب می شود و این کار تکرار میگردد و بر این اساس برآورد آزمون صورت خواهد گرفت. سپس میانگین برآوردهای آزمون در اینروش بهعنوان برآورد اعتباربخشی با زیرمجموعههای نمونه مورد استفاده قرار خواهد گرفت. اینروش برای نمونههای کوچک مناسب هست. در مورد تعداد زیرمجموعهها یا V در منابع مختلف اعداد متفاوت ذکر شده است. تعداد زیرمجموعهها میتواند به تعداد ۱۰ (برایمن و همکاران، ۱۹۸۴) و در منبع دیگر به تعداد ۳ (۲۰۰۵، StatSoft Inc) باشد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
در مواردی که پیامد، متغیر طبقه بندی باشد (مدل طبقه بندی درختی)، لازم است احتمال پیشین[۵۸] وقوع هر سطح از پیامد مشخص گردد. معمولاً سه گزینه احتمال پیشین برآورد شده[۵۹]، برابر[۶۰] و قابل تعریف[۶۱] وجود دارد. چنانچه نمونهها بهصورت تصادفی از جامعه مورد بررسی انتخاب شده باشد و سوگرایی انتخاب نیز در حداقل میزان ممکن باشد، میتوان از گزینه اول برای احتمال پیشین استفاده کرد.
۲- شاخهبندی طبقه بندی درختی: انتخاب شاخه های ساختار طبقه بندی درختی باید بهگونه ای باشد که یکنواختی[۶۲] نمونهها در تمامی گرههای پایانی به میزان حداکثر میزان ممکن برسد. این یکنواختی با بهره گرفتن از معیار عدم خلوص[۶۳] اندازه گیری می شود. مهمترین و پرکاربردترین اندازه عدم خلوص، شاخص جینی[۶۴] است. چنانچه پیامد طبقه بندی شده دارای دو وضعیت یا ارزش j و i باشد، (P(j/t نشاندهنده سهمی از موارد در گروه t است که متعلق به طبقه j است. بنابراین اندازه عدم خلوص جینی یا (t)i از رابطه زیر به دست می آید:
رابطه ۱- ۸:
چنانچه در طبقه پایانی کلیه موارد متعلق به یک طبقه خاص باشند، اندازه شاخص جینی برابر با صفر است که به معنی خلوص کامل در گره است. در طبقه بندی درختی، گروه t میتواند گزینه های متعدد و متفاوتی برای شاخهبندی (s) داشته باشد. دو گروه tL و tR از گروه t حاصل شده که به ترتیب دارای سهم pL و pR از کل نمونه گره اولیه میباشند. بهترین و مناسبترین شاخهبندی وقتی است که بیشترین کاهش در عدم خلوص حاصل شود که این کاهش عدم خلوص از رابطه زیر به دست می آید:
رابطه ۱- ۹:
i(s,t) = i(t) - pLi(tL)-pRi(tR)∆
بنابراین چنانچه بهترین گزینه موجود در شاخهبندی را s* بنامیم، براساس شاخص عدم خلوص جینی، شاخهبندی که بیشترین کاهش در عدم خلوص را موجب گردد انتخاب خواهد گردید به عبارت دیگر:
رابطه ۱- ۱۰:
i (s*, t) = max ∆i (s, t)∆
۳ – تعیین زمانی که شاخهبندی باید متوقف گردد: با توجه به مواردی که گفته شد، ایدهآل این است که شاخهبندی تا زمانی که گرهها خالص و هموژن شوند باید ادامه یابد، لیکن این وضعیت بخصوص در مواردیکه با تعداد زیادی متغیر پیش بینی کننده روبهرو باشیم، موجب پیچیده شدن مدل خواهد گردید. بنابراین باید از قواعد توقف شاخهبندی[۶۵] بهمنظور رســیدن به مدل منــاسب استفاده گردد. در روش طبقه بندی درختی و رگرسیونی دو گزینه مختلف برای این منظور وجود دارد:
الف: روش حداقل تعداد[۶۶]: در اینروش در عمل اجازه میدهیم ساختار درختی تا زمانی ادامه یابد که همه گرههای پایانی خالص[۶۷] شده یا اینکه در گره پایانی شامل حداقل تعداد معینی نمونه باشد.
ب: روش خالصسازی موارد:[۶۸] در اینروش نیز یا باید هر گره پایانی خالص شود یا اینکه هر گره پایانی بیش از سهم معینی از یک گروه یا طبقه نباشد.
۱-۴-۱۵- پسپردازش داده ها[۶۹]
بعد از انجام پردازش و طبقه بندی داده های ماهوارهای، یکسری عملیات ویژه بر روی نتایج صورت میگیرد که انجام این عملیات به منظور ارزیابی صحت و ساماندهی نتایج حاصله هست.
۱-۴-۱۵-۱- تعیین صحت طبقه بندی