تاریخ بهروزرسانی: 1403/09/29
روجیار پیرمحمدیانی
دانشکده مهندسی / گروه مهندسی کامپیوتر و فناوری اطلاعات
پایاننامههای کارشناسیارشد
-
Community detection of attributed networks using spectral based algorithms
1403Graph-based clustering has become increasingly significant due to its effectiveness in capturing complex relationships within various data types represented as graphs. This thesis addresses persistent challenges in graph-based clustering methodologies, such as the effective capture of multi-scale structural information, the integration of node features with graph topology, and the interpretability of results. The primary objective of this study is to propose a novel graph-based clustering framework named GraphWave Clustering, which leverages the Adaptive Graph Wavelet Transform (AGWT) along with a simplified graph convolution process to improve clustering outcomes while maintaining scalability and efficiency. The proposed method operates under the premise that real-world networks exhibit intricate structures that can be better understood through multi-scale analysis. The AGWT captures essential features from both the local and global topology of the graph, enabling a more nuanced representation of data points. Additionally, the method fuses these features with node attributes to create an enriched input for subsequent clustering algorithms, primarily employing K-means as a flexible option. Through extensive experimentation on various well-known datasets, including Cora, CiteSeer (ARI: 0.4353, NMI:0.5310, ARI: 0.4406, NMI: 0.4254), PubMed, and Wiki, the efficacy of the GraphWave Clustering framework is empirically validated against state-of-the-art techniques. The results reveal that the proposed algorithm not only enhances clustering accuracy as indicated by metrics such as Normalized Mutual Information (NMI) and Adjusted Rand Index (ARI), but also exhibits improved specificity across most datasets. Notably, it yields competitive results with a considerable degree of robustness across diverse graph structures, particularly excelling in datasets with clear community formations. However, challenges remain in the form of sensitivity to the choice of hyperparameters and potential over-smoothing in feature representation, which may obscure distinct community boundaries. Overall, the GraphWave Clustering framework represents a significant advancement in graph-based clustering methodologies, effectively integrating multi-scale structural insights and node attributes. This research contributes valuable approaches towards addressing the limitations inherent in traditional clustering methods, paving the way for further explorations into adaptive and scalable community detection strategies in complex networked systems. The framework’s versatility sets a foundation for broad applications across various domains, including social network analysis, bioinformatics, and data mining, as well as enabling deeper insights into the structural properties of complex systems.
-
تحلیل رفتار مشتریان با استفاده از روشهای دادهکاوی موردمطالعه مخابرات استان کردستان
1403ضرورت تحلیل رفتار مشتریان در صنایع خدماتی از جمله ارائهدهندگان خدمات اینترنتی بهویژه در شرایط رقابتی امروز بسیار بالاست. درک الگوهای مصرف و ارزش مشتریان به شرکتها کمک میکند تا خدمات خود را بهینه کرده و استراتژیهای بازاریابی موثرتری ارائه دهند. این پژوهش به تحلیل رفتار مشتریان ADSL شهرستان سقز پرداخته و هدف آن شناسایی بهترین الگوریتم خوشهبندی برای دستهبندی مشتریان بر اساس معیارهایی مانند حجم مصرف، نوع کاربری و مدل RFM (تازگی خرید، تعداد دفعات خرید، میزان خرید) است. در این مطالعه، سه الگوریتم خوشهبندی KMeans، SOM و FCM با استفاده از دادههای واقعی دریافتشده از مخابرات استان کردستان طی یک سال بررسی شدند. دادهها شامل ویژگیهایی مانند تاریخ خرید، حجم بسته، نوع پرداخت و شاخصهای RFM بود. برای ارزیابی عملکرد الگوریتمها از شاخصهای سیلوئت، دیویس-بولدین و کالینسکی-هاراباز استفاده شد تا کیفیت خوشهبندی و تمایز خوشهها به دقت بررسی گردد. نتایج نشان داد که الگوریتم KMeans بهترین عملکرد را در خوشهبندی مشتریان داشت و نسبت به سایر الگوریتمها، امتیازات بالاتری در شاخصهای ارزیابی کسب کرد. این الگوریتم قادر بود مشتریان را بهطور موثر بر اساس حجم مصرف و معیارهای مدل RFM به سه گروه کممصرف، متوسط و پرمصرف تقسیم کند. همچنین، مشتریانی که نمرات بالاتری در مدل RFM دارند، ارزش بیشتری برای شرکت دارند. بر اساس این تحلیل، میتوان سیاستهای بازاریابی، نظیر ارائه تخفیفات، را بر اساس ارزش مشتریان بهینهسازی کرد.
-
Enhancing Irrigation Systems Using a Machine Learning Technique in Edge-enabled IoT Environments
1403Agriculture is essential for sustaining human life. As the global population is expected to reach 10 billion by the mid-21st century, ensuring food security presents significant challenges. Traditional agricultural practices, which have historically met the dietary needs of the population, may no longer be sufficient to support such a large number of individuals. Modern agriculture enhances productivity by integrating IoT and machine learning technologies. In recent years, Iraq has experienced significant climate changes, reducing the availability of groundwater crucial for irrigation. Despite a long-standing water agreement with Turkey, Iraq continues to face water scarcity issues. This research demonstrates that implementing intelligent irrigation systems can conserve water and enhance agricultural productivity in the region. Although research shows that 61% of farming studies focus on crop management, less than 10% address irrigation strategies. Effective irrigation management, however, significantly influences crop yields. In our approach, we manage the irrigation of various crops, including strawberries, vegetables, and tomatoes, using IoT-enabled devices and sensors such as temperature, humidity, light intensity, and irrigation sensors. Devices such as Arduino Uno and Ethernet Shield collect data and transmit it to an edge server for processing. During our research, we engineered an advanced irrigation system tailored to various crops. This system employs machine learning techniques, specifically multi-class classification algorithms, to create a sophisticated irrigation schedule that optimizes water usage across different types of crops. By integrating these cutting-edge technologies, our study aims to enhance agricultural efficiency and resource management, By using machine learning algorithms such as Random Forest, Support Vector Machines, Logistic Regression, and KNN, we can predict irrigation needs with an accuracy exceeding 95%. This data-driven strategy allows us to create precise irrigation schedules, improving both irrigation management and crop yields. The edge server sends data to a local web server and the ThingSpeak cloud.
-
تشخیص جوامع با خوشهبندی طیفی تقریبی مبتنی بر چگالی در شبکههای دارای مشخصه
1402مسئله تشخیص جوامع در شبکهها یکی از مسائل مهم علم شبکه بوده و مطالعات گستردهای در این خصوص صورت گرفته است. مفهوم جامعه را میتوان در شبکههای بسیاری از جمله شبکههای بیولوژیکی، علوم کامپیوتر،مهندسی، اقتصاد ،سیاست و .... مشاهده کرد. خوشهبندی، اشیاء را با توجه به شباهت بین اشیاء به چندین گروه تقسیم میکند. با توجه به استراتژیهای مختلف، روشهای مختلفی پیشنهاد شدهاست.در میان همه الگوریتمهای تشخیص جامعه ، خوشهبندی طیفی به عنوان یک رقیب قدرتمند به نسبت سایر روشهای خوشه-بندی به دلیل اجرای آسان و دقت بالا برای اکثر شبکههای پیچیده محسوب میشود. این روش براساس ویژگی-های طیفی گراف است و بر روی بردارهای ویژه ماتریس لاپلاسین تمرکز دارد. مزیت خوشهبندی طیفی این است که محدودیت خاصی در مورد شکل خوشهها ندارد و به دلیل عملکرد خوبی که به نسبت الگوریتمهای خوشهبندی پایه مانندk-means درکشف خوشههای غیر محدب و با ویژگیهای مختلف دارد، به طور گستردهای در حوزههای مختلف استفاده میشود. با این حال از معایب این روش میتوان به هزینههای محاسباتی بالا، نتایج خوشهبندی ناپایدار وعدم مقاومت در مقابل نویز اشاره کرد. در این پژوهش جهت استفاده از مزایای خوشهبندی طیفی در مجموعه دادههای بزرگ از روش خوشهبندی طیفی تقریبی، که در آن خوشهبندی طیفی را بر روی مجموعه کاهشیافته از نقاط ( نمایندگان دادهها) انتخابشده با نمونهبرداری یا کمی سازی اعمال میکنیم و در نهایت نتایج به کل داده ها تعمیم داده می شود. مراحل اصلی خوشهبندی طیفی شامل محاسبه ماتریس شباهت، به دست آوردن نمایشهای جدید از مجموعه دادهها با روش تجزیه ویژه وتقسیم پارامترهای جدید با الگوریتم خوشهبندی k-means برای به دست آوردن برچسبهای خوشه میباشد. الگوریتمهای خوشهبندی طیفی بر تحلیل ماتریس شباهت تکیه دارند، از این رو، تعریف یک ماتریس مناسب تاثیر زیادی بر بهبود عملکرد این نوع از خوشهبندی دارد، زیرا رابطه بین اجسام را حفظ میکند. ماتریس شباهت روش پایهای خوشه بندی طیفی مبتنی بر فاصله اقلیدسی میباشد و این نوع شباهت نمیتواند توزیع دادهها را به خوبی نشان دهد و در نتیجه منجر به عملکرد ضعیف خوشهبندی طیفی میشود. همچنین این ماتریس تنها برا ساس خصیصههای توپولوژیکی ساخته شده است حال آنکه در شبکههای دارای ویژگی هر دو ساختار توپولوژیکی و ویژگی گره، ویژگیهایی مهم در تشخیص جامعه هستند و عملکرد خوشهبندی طیفی تا حد زیادی به خوبی ماتریس شباهت بستگی دارد. از این رو در این مطالعه نسخه جدیدی به نام خوشهبندی طیفی درشبکه های دارای ویژگی به کار میرود که جوامع شناساییشده دارای پیوستگی ساختاری و همگنی ویژگی بوده و همچنین بر اساس یک نوع فاصله حساس به چگالی به جای فاصله اقلیدسی میباشد. در فاصله جدید حساس به چگالی میتوانیم فاصله را در مناطق با چگالی متفاوت تنظیم کنیم و سپس با اندازهگیری فاصله حساس به چگالی میتوانیم شباهت جدیدی را تعریف کنیم. برای اجتناب از مقداردهی تصادفی مراکز، از گراف تصمیم استفاده میشود تا به مراکز و تعداد خوشه ها دست پیدا کنیم. برای افزایش کارایی تعداد خوشهها از طریق گراف تصمیم تعیین شده است. واژههای کلیدی: تشخیصجامعه، خوشهبندی طیفی، ماتریس شباهت، فاصله حساس به چگالی، کاهش نقاط داده، خوشهبندی طیفی تقریبی، شبکههای دارای مشخصه، ساختار توپولوژیکی
-
تشخیص جامعه با استفاده از اوج مرکزیت لاپلاسی
1402تشخیص جوامع در یک گراف به معنای شناسایی زیرساختارها یا زیرگروه هایی از گره ها که درون خود ارتباطات نزدیکی دارند و با گره های دیگر در گراف ارتباطات کمتری دارند. در بسیاری از شبکه های واقعی، گره ها، امکان عضویت در جوامع مختلف را دارند و به این ترتیب مساله تشخیص جوامع هم پوشان در شبکه ها و پیدا کردن مراکز مناسب و اعضای هر جامعه همچنان از چالش های این حوزه است، پیدا کردن مراکز مناسب بسیار مسئله مهمی است که تلاش شده مراکز بصورت خودکار انتخاب و اعضای هر جامعه مشکل داده پرت نداشته باشد، مساله همپوشانی هم مورد بررسی بوده است.این پژوهش به منظور شناسایی جوامع و ساختارهای موجود در گراف، سه مرحله اصلی را در برمیگیرد: تبدیل گراف به بردارهای فاصله محوری، تعیین مراکز مهم و نهایتاً خوشه بندی اعضا بر اساس فاصله آنها از مراکز. در مرحله اول، از روش پیاده روی عمیق برای تبدیل گره های گراف به بردار استفاده شد. مرحله دوم، شامل استفاده از معیار لاپلاسین برای تعیین مراکز خوشه ها است. در مرحله سوم یعنی خوشه بندی، اعضا به مراکز نزدیکتر با توجه به فاصله از هر مرکز تخصیص پیدا میکنند، تا به نزدیکترین مرکز مربوط شوند.برای ارزیابی روش پیشنهادی از چهار مجموعه داده مختلف به نام های فوتبال،پولبوک دولفین،کاراته ،ایمیل ها استفاده شد. مدل پیشنهادی ما برای فوتبال ، پولبوک دولفین،کاراته ،ایمیل با بدست آوردن دقت 95/0 ، 95/0 ، 1 ، 1 و 98/0 توانست بیشترین دقت را بدست آورد.همچنین در معیار NMI نیز با مقادیر 98/0 ، 0/74 ، 1 ،1 و 86/0 را به عنوان بهترین عملکرد کسب کند.
-
طبقهبندی و تشخیص سرطان سینه براساس تصاویر سه بعدی سونوگرافی
1402یکی از شایعترین سرطانها در بین زنان سرطان سینه میباشد که در صورت عدم تشخیص و پیشبینی به هنگام آن موجب به خطر افتادن جان بیمار میشود. انواع روشهای تصویربرداری پزشکی و همچنین نمونهبرداری به پزشکان در تشخیص این بیماری کمک میکنند. از آنجایی که نمونهبرداری روشی تهاجمی به شمار میآید، استفاده از روشهای تصویربرداری گزینه بهتری میباشد. پزشک متخصص با بررسی تصاویر سینه میتواند وجود تومور را تشخیص دهد. از علوم کامپیوتر نیز میتوان در پردازش تصاویر پزشکی و تشخیص بیماریها نیز استفاده نمود. یادگیری عمیق زیر مجموعهای از هوش مصنوعی است که در پردازش انواع تصاویر و بالاخص تصاویر پزشکی نتایج امیدوار کنندهای را به دست آورده است. در این پژوهش از چهار شبکه عصبی یادگیری عمیق کانولوشن، خودرمزگذار کانولوشنی، رس نت 50 در دو حالت پیش آموزش دیده و آموزش از ابتدا و شبکه اینسپن وی 3 نیز در دو حالت پیش آموزشدیده و آموزش از ابتدا، برای طبقهبندی تصاویر سونوگرافی ضبط شده از سینه در دو سناریو استفاده شده است. در سناریوی اول طبقهبندی در دو کلاس سرطان خوشخیم وسرطان بدخیم انجام شده و در سناریوی دوم طبقهبندی در سه کلاس سرطان خوشخیم، سرطان بدخیم و افراد سالم انجام شده است. مجموعه داده مورد استفاده در این پژوهش شامل 780 تصویر در سه کلاس سالم یا نرمال (133 تصویر)، سرطان بدخیم (210 تصویر) و سرطان خوشخیم (487 تصویر) بود. تعداد این تصاویر با استفاده از روشهای افزایش داده مانند چرخش 5 درجه، انعکاس در جهت افقی و عمودی به 6413 تصویر شامل 2185 تصویر سرطان خوشخیم، 2100 تصویر سرطان بدخیم و 2128 تصویر افراد سالم رسید. در مرحله بعد برای داشتن تصاویر هم اندازه، ابعاد تصاویر به 150*125 پیکسل تغییر پیدا کرده و برای آموزش شبکهها مورد استفاده قرار گرفتند. در طبقهبندی دو کلاسه بالاترین صحت توسط شبکه اینسپشن وی 3آموزش دیده با مقدار 97% به دست آمد. بالاترین دقت در کلاس سرطان خوشخیم با مقدار 100% توسط شبکههای خودرمزگذار کانولوشنی و رس نت 50 آموزش از ابتدا حاصل شد. این معیار در کلاس سرطان بدخیم با مقدار 98% توسط شبکه اینسپشن وی 3آموزش دیده به دست آمد. حساسیت 98% در کلاس خوشخیم توسط شبکه اینسپشن آموزش از ابتدا و 99% در کلاس بدخیم توسط شبکههای خودرمزگذار کانولوشنی و رس نت آموزش از ابتدا حاصل شد. معیار F در هر دو کلاس توسط شبکه اینسپشن وی 3 آموزش دیده با مقدار 99% و 98% به دست آمده است.در طبقهبندی سه کلاسه شبکه اینسپشن وی 3 آموزش دیده به بالاترین صحت با مقدار 96% رسید. بالاترین دقت، حساسیت و معیار F به ترتیب با مقدار 100%، 96%و 98% توسط شبکه اینسپشن وی 3آموزش دیده، در گروه خوشخیم حاصل شد. در گروه بدخیم برای این معیارها 98%، 100% و 98% توسط شبکههای کانولوشن و اینسپشن وی 3آموزش دیده به دست آمده است. در گروه افراد سالم، مقادیر 98%، 99% و 98% توسط شبکههای کانولوشن، خودرمزگذار کانولوشنی و اینسپشن وی 3 آموزش دیده به دست آمده است.
-
کشف انجمن در گرافهای خصیصهدار بااستفاده از کشف انجمن در گرافهای خصیصهدار بااستفاده از تجزیه سهعامله ماتریس نامنفی مشترک
1402خوشهبندی گراف خصیصهدار یک مسئله ضروری و چالش برانگیز در تجزیهوتحلیل دادههای ساختاریافته شبکه است. این شامل دستیابی به بازنمایی گرهها با استفاده همزمان از ویژگی گره و ساختار توپولوژیکی گراف، با هدف انجام خوشهبندی موثر است. بهطور معمول، بازنمایی آموختهشده در این مسئله اغلب حاوی اطلاعات اضافی است و تفاوت بین دادههای توپولوژیکی و غیرتوپولوژیکی را درنظر نمیگیرد. برای پوشش این مشکل، این پایاننامه تجزیه ماتریس سهعامله نامنفی مشترک متنوع (Div-JNMTF) را پیشنهاد میکند، که یک مدل مبتنیبر تعبیه برای شناسایی انجمنها در گرافهای خصیصهدار است. مدل جدید JNMTF تلاش میکند تا بازنمایی گرههای مختلف را از دادههای توپولوژیکی و غیرتوپولوژیکی استخراج کند. درعین حال، یک منظمساز تنوع با معیار استقلال هیلبرت اشمیت (HSIC)، با هدف کاهش اطلاعات اضافی در بازنمایی گره و ترویج مشارکتهای متمایز هردو نوع اطلاعات اعمال میشود. علاوهبراین، دو عبارت منظمساز گراف برای حفظ ساختارهای محلی در فضاهای بازنمایی توپولوژیکی و ویژگیها معرفی میشوند. این مسئله با توسعه یک رویکرد بهینهسازی مبتنیبر تکرار در روش پیشنهادی مطرح میشود. ارزیابی روش پیشنهادی برروی سه معیار ارزیابی و هشت مجموعهداده گراف خصیصهدار انجام شده است و نتایج نشاندهنده این است که مدل Div-JNMTF در تشخیص انجمنها خصیصهدار موثر، و عملکرد آن از روشهای مقایسه شده بهتر است.
-
توسعه شاخص قدرت نسبی و الگوهای پرکاربرد در معاملات رمزارزها
1401در عصر امروز رمزارزها برای انجام تراکنشهای مالی از فناوری نوین بلاکچین بهصورت غیرمتمرکز از تکنولوژی رمزنگاری برای امنیت و تایید ثبت تراکنشها استفاده میکنند. یکی از بیشترین موضوعات مطرحشده در این زمینه میباشد. ارزهای جدید نیز در فرایند ثبت تراکنشها استخراج میشوند. با این تفاوت که ساخت آنها با دیگر ارزهای دیجیتال مرتبط با دولت متفاوت بوده و اصولاً این پول متعلق به مردم است. بیت کوین اولین رمز ارز و پرچمدار این مهم است که بزرگترین مشکل دوبارخرج کردن را از بین برده است. روشهای مختلف کسب درآمد در بازار رمز ارزها بدون نیاز به خریدوفروش شامل استخراج ارزهای دیجیتال و راهاندازی فول نود، ساخت و خریدوفروش ان اف تی، بازیهای بلاکچینی، وامدهی و کشت سود، دریافت ایردراپ های ارز دیجیتالی، سهام گذاری یا استیک کردن ارزهای دیجیتالی و سرمایهگذاری و خرید و نگهداری بلندمدت ارزهای دیجیتال است. در این بازار سه نوع تحلیل مهم وجود دارد که شامل تحلیل فنی (تکنیکال)، تحلیل بنیادین (فاندامنتال) و تحلیل درون زنجیرهای (آنچین) است. در این پایاننامه به بررسی و تحلیل تکنیکال روندها و الگوهای قیمت میپردازیم. با توسعه الگوریتم اندیکاتور شاخص قدرت نسبی و پیدا کردن الگوهای پرکاربرد مانند مثلث، پرچم، گوشه، دودره و دوقله در نمودار قیمت، به بازتعریف نقاط ورود و خروج مطمئنتر دستیافتهایم. در این راستا دو ابزار (اندیکاتور) ارائه میکنیم تا به معاملهگر در تشخیص نقاط ورود و خروج مطمئنتر کمک کنند. در نگاهی بهتر به شاخص قدرت نسبی بهجای نقطه ورود 30 از 55 و بهجای نقطه خروج 70 از نقاط ۵۵-۷۰-۸۰-۹۰ استفاده میکنیم. همچنین مبنای بسته شدن 14 کندل را به دو عدد 9 و 17 تغییر خواهیم داد. همچنین واگراییها و همگراییها را خود اندیکاتور تعیین میکند. آزمایشات انجامشده بهوسیله رباتها نشان از افزایش تا 30 برابری تشخیص روند دقیقتر شاخص قدرت نسبی را دارد.
-
تشخیص جوامع بر اساس محتوا با استفاده از کاوش الگوی تکرارشونده و انتشار برچسب
1401امروزه وبسایتهای شبکه های اجتماعی به یک منبع غنی از داده های ناهمگون مبدل شده است؛ ازاینرو تجزیه و تحلیل این دادهها میتواند منجر به کشف اطلاعات و روابط ناشناخته در این یک چالش مهم درزمینهی تجزیهوتحلیل دادههای » مشابه « شبکه ها شود. کشف جامعه متشکل از گره های شبکهه ای اجتماعی است، و بهطور گستردهای درزمینهی ساختار گرافی در این شبکهها موردمطالعه قرارگرفته است. شبکههای اجتماعی اینترنتی علاوه بر ساختار گرافی، حاوی اطلاعات مفیدی از کاربران درون شبکه میباشند؛ که استفاده از این اطلاعات میتواند منجر به بهبود کیفت کشف جوامع گردد. در این پایاننامه، برای تشخیص جوامع، از اطلاعات ارتباطی و اطلاعات محتوایی استفادهشده است. در این روش ابتدا با کاوش الگوی تکرارشونده، الگوهای پرتکرار را براساس عملیات کاربران پیدا میکند و جوامع کوچکی را تشکیل میدهد که هم ازنظر ساختاری و هم ازنظر عملیات مشابه باشند، سپس با انتشار برچسب، هر جامعه را با استفاده از ارتباطات اجتماعی و اطلاعات محتوایی گسترش میدهیم.
-
A k-shell decomposition-based method for identification of influential nodes in complex networks
1401Choosing the optimal set of influential people has become an attractive problem in complex networks. This problem is broken into two sub-problems: (1) finding the influential nodes and ranking them based on the individual influence of each node (2) finding a group of nodes to achieve the maximum spread in the network. In this thesis, both sub-problems have been examined and a method for measuring the spread power of influential nodes in the network and selecting the optimal group from them has been presented. In the proposed method, first the input network is divided into different communities. Then, the edges of each community are weighted and in each of the communities, the spreading power of the nodes is measured and ranked. Finally, a group of influential nodes were selected to start the publishing process. Data sets of real networks have been used to evaluate the methods. The proposed method was compared with other previously known methods in two parts. In the first part, the accuracy of the method in measuring the spread power of network nodes is compared based on the resolution and similarity parameters, and in the second part, the proposed method is compared with other methods in terms of the spread amount of influence of the selected set. The obtained results show the significant superiority of the proposed method in all three evaluation criteria over other methods.
-
پیش بینی پیوند با استفاده از شبیه ترین نود ها در جوامع مشترک در شبکه های پیچیده
1401پیش بینی پیوند در شبکه های پیچیده یکی از موضوعات ضروری در حوزه داده کاوی و کشف دانش در چند سال گذشته بوده است. در واقع؛ این مساله به دنبال پاسخ این سوال است که اگر تصویر لحظه ی کنونی شبکه در اختیار باشد، احتمالاً چه روابط جدیدی میان موجودیت های شبکه شکل خواهد گرفت. در این بین روش های مبتنی بر شباهت به دلیل سادگی و عملکرد مناسب از محبوب ترین روش های پیش بینی پیوند محسوب می شوند. هدف اصلی این پایان نامه، بهبود دقت روش های مبتنی برشباهت پیش بینی پیوند با استفاده از اطلاعات جوامع می باشد. اطلاعات مورد استفاده در این پژوهش برگرفته از ساختار گراف و مبتنی بر شبیه ترین نود ها در جوامع مشترک در یک نمایش سلسله مراتبی است که منجر به معرفی یک معیار جدید شده است. این معیار از تعداد شبیه ترین نود ها در جوامع مشترک بین دو راس به دست می آید. در این معیار هر چقدر تعداد نود های با اهمیت از نظربیشترین شباهت در جوامع مشترک بیشتر باشد، آنگاه این دو راس با احتمال بیشتری امکان تشکیل یال خواهند داشت. برای ارزیابی روش های ارائه شده از دو مجموعه داده شبکه واقعی بیولوژیکی از جمله شبکه زیست شناسی و عصبی و سه شبکه فیس بوک، نویسندگی مشترک دانشمندان و پیوند های میان وبلاگ و درنهایت یک مجموعه داده شبکه مصنوعی استفاده می شود. برای تست این روش از چهار الگوریتم پیش بینی پیوند پایه مبتنی بر همسایگی از قبیل همسایه های مشترک(CN)، ضریب جاکارد(JC)، تخصیص منابع(RA)، آدامیک-آدار(AA) و برای ارزیابی آن از معیار های AUC و Precision استفاده می شود. نتایج نشان می دهند که استفاده از تعداد شبیه ترین نود ها در جوامع مشترک بین دو راس، با برخورداری از یک پیچیدگی زمانی مناسب، در رابطه با بیشتر مجموعه داده ها منجر به بهبود دقت در پیش بینی پیوند خواهد شد.
-
عنوان: انتخاب ویژگی بدون نظارت مبتنی بر تجزیه ماتریس و یادگیری خلوت
1401با گسترش سریع تکنولوژی اطلاعات، داده ها عموماً با تعداد ویژگی های زیادی در بسیاری از حوزه ها ظاهر می شوند. این داده ها نه تنها پیچیدگی های محاسباتی و نیازهای حافظه ای الگوریتم-های یادگیری را افزایش می دهند، بلکه عملکرد آن ها را نیز بدتر می کنند؛ به دلیل وجود ویژگی-های غیرمرتبط، افزونه و اختلالی. کاهش ابعاد ویژگی فرایند انتخاب یک زیر مجموعه از ویژگی هایی است که حاوی اطلاعات مفید برای ایجاد مدل هستند، و در الگوریتم های یادگیری ماشین، روشی برای افزایش سرعت الگوریتم و غلبه بر بیش برازش است. در این پایان نامه تمرکز بر روی انتخاب ویژگی از نوع بدون نظارت است که به دلیل نبود برچسب داده ها مسئله چالش برانگیزی است، و روش جدیدی برای انتخاب ویژگی از نوع بدون نظارت ارائه می شود. در روش پیشنهادی، داده ها ی ورودی فاقد برچسب فرض شده اند که این روش در روش پیشنهادی اول از رمزگذار-رمزگشا استفاده می کند؛ به نحوی که از رمزگذار برای تبدیل داده های اصلی به بازنمایی با ابعاد پایین و هم زمان از رمزگشا برای بازسازی داده های اصلی به کمک همان بازنمایی ابعاد پایین استفاده می کند که با این روش نتایج به نسبت برخی روش های مطرح بهبود پیدا کرده اند و در روش پیشنهادی دوم دوم برای بهبود بیشتر و تفکیک بهتر از قید تعامد بر روی بازنمایی داده ها استفاده می شود؛ همچنین اهمیت ساختار محلی نیز به حساب آمده است و در نهایت زیر مجموعه ای از ویژگی ها به کمک خروجی روش که ویژگی های امتیازبندی شده هستند انتخاب می شوند. برای ارزیابی عملکرد روش پیشنهادی، ازآنجاکه الگوریتم پرکاربرد در حوزه داده های بدون برچسب الگوریتم خوشه بندی است، زیر مجموعه ویژگی های به دست آمده در این الگوریتم مورداستفاده قرار می گیرند و با روش های متداول و مورد ارجاع در سایر کارها مقایسه می شوند