تاریخ بهروزرسانی: 1403/10/20
شاهو زارعی
دانشکده علوم پایه / گروه آمار
پایاننامههای کارشناسیارشد
-
Robust semi-supervised learning via model-based classification
1403In a standard classification framework, a meticulously selected collection of reliable training data is employed to develop a decision rule designed to reliably classify unlabeled cases within the test set. This method has a considerable limitation, it requires a substantial quantity of labeled cases to facilitate effective learning. Due to the manual nature of labeling, the process can be highly laborious and time consuming. For this reason, semi-supervised approaches have been developed to address these difficulties. Within this educational context, there exists a limited collection of classified instances for each class, alongside a substantial collection of uncategorized instances. The goal is to utilize the unlabelled examples in order to enhance the process of learning. The existence of unreliable labeled observations, including outliers and inaccurately labeled data, can severely impair the classifier’s performance. This danger is especially significant when the training dataset is somewhat small, as it may lack adequate information to mitigate these mistakes. The work presented here introduces a robust modification to the model-based classification framework, integrating the concepts of impartial trimming and incorporating constraints on the ratio between the maximum and minimum eigenvalues of the group scatter matrices. In order to achieve these goals, in the First chapter, we describe the classification preparations, the evaluation of the results, and the types of classification methods. The Second chapter will include the model-based classification, Semi-supervised classification and the concept of attribute and class noise, and outliers and its effect on the classification. In the Third chapter, robust model-based classification for attribute and class noise is discussed in detail and we introduce a new technique called RUPCLASS along with the parameter estimation method with the EM algorithm. In the Fourth chapter, using several simulations and analysis of heart failure data in Pakistan, we put the described methods and algorithms into practical use and evaluation. Finally, in the Fifth chapter, conclusions and future work.
-
خوشهبندی استوار مبتنی بر مدل با آمیخته خبرگان و توزیع α-پایدار
1403خوشهبندی یک روش تحلیل داده و از نوع یادگیری بدون نظارت میباشد که در آن مجموعهای از دادههای ناهمگن به گروهها یا اصطلاحا خوشههایی تقسیم میشوند. به طوریکه بیشترین تفاوت در بین خوشهها و بیشترین تشابه درون خوشهها وجود داشته باشد. در روشهای معمولی خوشهبندی مبتنی بر مدل از متغیرهای کمکی استفاده نمیشود. یک راه برای استفاده از متغیرهای کمکی استفاده از مدلهای آمیخته رگرسیونی است. در این مدلها فقط در توزیع در نظر گرفته شده برای خوشهها از متغیرهای کمکی استفاده میشود. یک روش جدید برای استفاده از متغیرهای کمکی هم درتوزیع خوشهها و هم در وزنهای آمیخته، مدل آمیخته خبرگان است. معمولا در این مدل توزیع مولفههای آمیخته یا شبکههای خبره، نرمال در نظر گرفته میشود. اما وجود دادههای دورافتاده میتواند بر کیفیت خوشهبندی تاثیرگذار باشد. مشخص است که توزیع نرمال در مدل کردن دادههای دورافتاده ضعیف عمل میکند. برای رفع این مشکل در این پایاننامه به جای توزیع نرمال برای خبرگان، از توزیع $ t $ استفاده میشود که نسبت به دادههای دورافتاده استوارتر است. یکی دیگر از مشکلات مربوط به مدلهای آمیخته معمولی وجود خطای اندازهگیری در مشاهدات است. اگر دادههای در اختیار همراه با خطای اندازهگیری باشند، این امر میتواند باعث کاهش کیفیت خوشهبندی و تولید خوشههای جعلی و بیش برازشی شود. معمولا برای بررسی و مدل کردن خطای اندازهگیری فرض میشود که این نوع خطا دارای توزیع نرمال است. اما در عمل موقعیتهایی وجود دارد که خطاها بسیار بزرگ یا بسیار کوچک یا به اصطلاح دورافتاده هستند. در این حالت فرض نرمال بودن غیر واقعی و موجب کاهش دقت استنباط میشود. به همین خاطر ما در حالت یک متغیره توزیع $ \alpha $-پایدار متقارن را برای مدل کردن خطاهای اندازهگیری مورد استفاده قرار میدهیم، که میتواند بستگی به مقدار $ \alpha $ خطای اندازهگیری نرمال، خفیف و شدید را مدل کند. در فصل اول پایاننامه مقدمات خوشهبندی مانند معرفی دقیق، مفهوم فاصله و تشابه، معیارهای ارزیابی و انواع روش خوشهبندی را توضیح میدهیم. فصل دوم خوشهبندی مبتنی بر مدل از نظر تئوری و نحوه اجرا، مدل آمیخته خبرگان، خوشهبندی مبتنی بر مدل همراه با متغیرهای کمکی، مدل آمیخته نرمال خبرگان و مدل آمیخته $ t $ خبرگان مورد بررسی قرار میگیرند. در فصل سوم خوشهبندی استوار مبتنی بر مدل، خطای اندازهگیری، روش $MCLUST$ ، $MCLUST-ME$ و توزیع $ \alpha $ -پایدار به طور دقیق بیان میشود. سرانجام در فصل چهارم روشهای ذکر شده در فصل سوم با شبیهسازی و تحلیل دادههای واقعی، مورد ارزیابی و مقایسه قرار میگیرند.
-
آمیخته مدلهای خبره برای خوشهبندی با متغیرهای کمکی
1402خوشهبندی یک ابزار بسیار مفید آماری از نوع یادگیری بدون نظارت در یادگیری ماشین و علم دادهها محسوب میشود. در این روش، دادهها بدون نیاز به کوچکترین راهنمایی به خوشههای مشابه تقسیم میشوند. دادهها درون خوشه بیشترین شباهت و بین خوشهها بیشترین تفاوت را دارند. این فن آماری در تلخیص مشاهدات، تشخیص الگو و ارتباط بین مشاهدات کاربرد دارد. در این پایاننامه روشهای خوشهبندی مبتنی بر مدل مورد بررسی قرار میگیرد. در این حالت فرض میشود، که دادهها از یک توزیع آمیختهی متناهی که مولفههای آن اغلب دارای یک توزیع مشخص مانند توزیع نرمال میباشند، آمده باشند. امروزه مشخص شده است، که اطلاعات کمکی میتواند در خوشهبندی کردن بهتر و درستتر دادهها کمک کند. اما در خوشهبندی مبتنی بر مدل آمیخته معمولی از متغیرهای کمکی استفاده نمیشود. برای استفاده از اطلاعات کمکی میتوان از مدلهای آمیخته رگرسیونی استفاده کرد. در تحقیق حاضر، نوع جدیدی از خوشهبندی که اساس آن بر وجود اطلاعات اضافی در قالب متغیرهای کمکی هم در خوشهها و هم در وزنهای آمیخته است، مورد بررسی قرار میگیرد. این روش مدل آمیخته خبرگان نامیده میشود. اگر متغیر کمکی در قسمت وزنهای آمیخته که به آن متغیر همراه گفته میشود درست انتخاب شود، تفسیر نتایج خوشهبندی واضحتر و معمولا باعث افزایش دقت خوشهبندی میشود. در فصل اول پایاننامه، مقدمات پایه خوشهبندی، مثالهایی از کابردهای واقعی آن، الگوریتمهای مختلف خوشهبندی و استفاده از شاخصهای ارزیابی برای خوشهبندی توضیح و بررسی میشوند. در فصل دوم، مدلهای آمیخته متناهی و استنباط در مدلهای آمیخته بر اساس الگوریتم $EM$ و فن $Mclust$ و همچنین مرور مختصری بر مدلهای آمیخته رگرسیونی بیان میشود. در فصل سوم خوشهبندی مبتنی بر مدل خبرگان نرمال و استنباط در این مدل به طور دقیق بیان میشود. در فصل چهارم، با استفاده از شبیهسازی و استفاده از دادههای واقعی مختلف شامل مشخصات اندامهای مختلف بدن گونه سمندر کوهستانی دریوگین در دو جنس نر و ماده و همچنین دادههای شراب ایتالیایی، مدلها و الگوریتمهای معرفی شده مورد ارزیابی و مقایسه قرار میگیرند.
-
خوشه بندی مبتنی بر مدل برای داده های با خطای اندازه گیری
1401وقتی هدف تفکیک و تخصیص داده های ناهمگن، به گروه هایی همگن باتوجه به یک معیار شباهت باشد، خوشه بندی یک ابزار آماری بسیار مفید است. در اغلب کاربردها به علت پیچیدگی های محاسباتی، از خطای اندازه گیری صرف نظر می شود، که ممکن است منجر به نتایج خوشه بندی نادرست شود. بنابراین ما در این پایان نامه، به خوشه بندی داده ها با روش های مختلف در حضور خطای اندازه گیری و تاثیر این خطا بر خوشه بندی می پردازیم. به طور خاص، مدل آمیخته ی چندمتغیره گاوسی را مورد مطالعه قرار داده و فن MCLUST را به حالت داده های همراه با خطای اندازه گیری تعمیم می دهیم. برای رسیدن به این اهداف در فصل اول مقدمات خوشه بندی، ارزیابی نتایج و انواع روش های خوشه بندی را بیان می کنیم. فصل دوم خوشه بندی مبتنی بر مدل و مفهوم خطای اندازه گیری و تاثیر آن بر خوشه بندی را شامل خواهد شد. در فصل سوم خوشه بندی مبتنی بر مدل در حضور خطای اندازه گیری مورد بحث دقیق قرار گرفته و فن جدیدی با نام MCLUST-ME به همراه روش برآورد پارامترها با الگوریتم EMرا معرفی می کنیم. هم چنین در این فصل الگوریتم K-means را به حالت داده های با خطای اندازه گیری گسترش می دهیم. در فصل چهارم با استفاده از چندین شبیه سازی و تحلیل داده های مسکن شهر بوستون، روش ها و الگوریتم های بیان شده را مورد استفاده عملی و ارزیابی قرار می دهیم. سرانجام در فصل پنجم نتیجه گیری و پیشنهادات بیان می شود.
-
بررسی روش های خوشه بندی مبتنی بر مدل با تابع های مفصل
1401خوشه بندی یکی از ابزارهای مهم آماری در تحلیل های چند متغیره به منظور گروه بندی و کشف ساختارهای پنهان موجود در داده هاست. از لحاظ آماری خوشه بندی اغلب مبتنی بر مدل است، بدین معنی که فرض می شود داده ها از یک مدل آمیخته معمولاً گاوسی آمده باشند. با وجود این توزیع آمیخته گاوسی معمولاً برای داده هایی با شکل غیر بیضوی مناسب نیست. همچنین نمی تواند برخی از ساختارهای وابستگی موجود در داده ها را مدل کند. برای رفع این مشکل می توان از مفصل ها استفاده نمود. این کار دو مزیت اصلی دارد. اول: انتخاب مفصل مناسب می توان شکل های متنوع تری از داده ها را بررسی کند. دوم: انتخاب صریح توزیع های حاشیه ای اجازه مدل سازی داده های چند متغیره با حالت های مختلف (گسسته و پیوسته) با مولفه های همبسته و ناهمتوزیع را می دهد. \noindent برای این منظور در این پایان نامه، ابتدا در فصل اول ضمن تعریف خوشه بندی، اهمیت، کاربردها و روش های مختلف خوشه بندی به اختصار بیان شده است. همچنین معیارهایی جهت مقایسه روش های مختلف خوشه بندی و تابع مفصل تعریف شده اند. در فصل دوم خوشه بندی مبتنی بر مدل آمیخته گاوسی را به طور نسبتاً مفصلی مورد بحث قرار داده ایم. در این فصل ضمن تعریف فن $MCLUST$ که بر اساس تجزیه ماتریس واریانس-کوواریانس است، روش برآورد پارامترها با استفاده از الگوریتم $EM$ از جنبه های نظری و محاسباتی تشریح شده است. در فصل سوم، ضعف های روش مبتنی بر مدل در خوشه بندی داده های با وابستگی دمی و دم سنگین بیان، و استفاده از تابع مفصل برای رفع این ضعف ها بررسی شده است. همچنین، روش های نظری و محاسباتی با استفاده از روش $IFM$ و الگوریتم $ECM$ جهت برآورد پارامترها نیز تشریح شده است. علاوه براین، با تحلیل مثال های شبیه سازی شده و واقعی، کارایی و افزایش دقت در خوشه بندی مبتنی بر مدل تابع مفصل نشادن داده شده است.
-
برآورد کوچک ناحیه بیزی با توزیع $t$ برای متغیرهای کمکی با خطای اندازه گیری
1401معروف ترین مدل سطح ناحیه در برآورد کوچک ناحیه، مدل فی-هریوت است، که از اطلاعات کمکی برای بهبود دقت برآوردگرها استفاده می کند. معمولاً در ثبت و جمع آوری اطلاعات کمکی از طریق پرسشنامه یا اندازه گیری های مختلف به علت عدم دقت پاسخگو یا وسیله اندازه گیری امکان وجود خطای اندازه گیری وجود دارد. برای مدل کردن این نوع خطا معمولاً از توزیع نرمال استفاده می شود. در مسایل کاربردی مثلاً بررسی داده های درآمد، این امکان وجود دارد که بعضی از این خطاها خیلی کوچک یا خیلی بزرگ اندازه گیری شده باشند. وجود این نوع خطا باعث می شود نتوان پارامترهای کوچک ناحیه را به طور دقیق پیش بینی کرد. برای رفع این مشکل در این پایان نامه، توزیع $t$ را جایگزین توزیع نرمال می کنیم و با استفاده از رهیافت بیز سلسله مراتبی برآورد پارامترهای کوچک ناحیه را به دست می آوریم. برای این منظور، ابتدا در فصل اول مفاهیم برآورد کوچک ناحیه و خطای اندازه گیری را بیان می کنیم. در فصل دوم به بررسی روش های بیزی و به خصوص بیز سلسله مراتبی در برآورد کوچک ناحیه پرداخته می شود. در فصل سوم مدل سطح ناحیه با خطای اندازه گیری نرمال و توزیع $t$ را به طور کامل توضیح می دهیم. نهایتا در فصل چهارم با مطالعات شبیه سازی مختلف و تجزیه و تحلیل داده های هزینه و درآمد خانوار در سطح کشور و در سطح استان کردستان به ارزیابی و مقایسه مدل های بررسی شده می پردازیم.