Sadegh Sulaimany
Update: 2025-09-23

Sadegh Sulaimany

Faculty of Engineering / Department of IT and Computer Engineering

Master Theses

  1. Link prediction in POI recommendation system
    2025
    Points of Interest (POI), representing locations users are inclined to visit, play a critical role in recommendation systems and location-based applications. These points can provide valuable insights for predicting users' future behaviors and delivering accurate recommendations. With the rapid growth of spatial data and social networks, developing intelligent recommendation systems capable of accurately identifying user preferences and suggesting attractive, personalized locations has become increasingly significant. This study introduces an advanced algorithm for predicting users' points of interest by leveraging the social network of user relationships to enhance the efficiency and accuracy of POI recommendations. The proposed method employs a modified Adamic/Adar algorithm to measure similarity between friends and an improved Jaccard algorithm to predict POIs, achieving superior performance compared to conventional methods. By analyzing the behavior of friends and even friends-of-friends, the algorithm can more precisely predict user preferences and recommend new points with greater accuracy. To evaluate the algorithm's performance, metrics such as Precision, Recall, and F1 Score were utilized. These metrics, widely adopted in similar studies, enable direct comparison of results with other methods. Experimental results demonstrate that the proposed approach significantly enhances prediction accuracy and comprehensiveness due to its use of social networks and user connections. Compared to traditional methods, it delivers more precise and diverse recommendations. This thesis's proposed method, focusing on analyzing social relationships and user behavior, offers a practical and effective solution for recommending points of interest, showcasing its ability to deliver accurate and diverse recommendations.
  2. Improving machine learning algorithms in diabetes detection using graph-based methods
    2025
    Diabetes, as a chronic metabolic disorder, imposes significant burdens on global health and economy. Early and accurate diagnosis is essential for effective management and prevention of complications associated with this disease. Traditional diagnostic methods, relying on clinical parameters, often face limitations such as lengthy processes and the potential for errors. Recent advancements in machine learning offer promising options for analyzing medical data and improving diagnostic accuracy. However, machine learning models face challenges in modeling the complex relationships between factors related to diabetes. This thesis explores the potential of graph-based methods in conjunction with machine learning to enhance diabetes diagnosis. Graph-based methods provide a powerful framework for representing and analyzing complex relationships between samples, enabling the identification of hidden patterns. In this study, data from a dataset consisting of 768 samples and 9 features were utilized. To construct the graph, the similarity between each pair of samples was first calculated using the Euclidean distance similarity measure, and then weighted, undirected graphs were created at two threshold levels of 0.01 and 0.004. The graph at the 0.01 threshold contained 26,130 edges, while the graph at the 0.004 threshold included 87,250 edges, reflecting meaningful relationships between the samples. Following graph construction, a set of graph-based features, including degree centrality, closeness centrality, and several other metrics, were extracted and used alongside the original features of the data to train machine learning models. Several machine learning models, including traditional classifiers and ensemble-based methods, were employed in this research. Furthermore, experiments were evaluated using metrics such as accuracy, recall, precision, F1 score, and AUC. The results demonstrated that combining graph-based features with machine learning algorithms significantly improved diagnostic accuracy. The proposed model achieved accuracies of 98.51% and 99.07% at both threshold levels using gradient boosting and multilayer perceptron algorithms, respectively, showing a significant advantage over approaches based solely on the original data features. These findings suggest that graph-based methods, in conjunction with machine learning algorithms, can be highly effective in data analysis by identifying hidden relationships and enhancing diagnostic accuracy.
  3. Breast Cancer Recurrence Prediction Improvement Utilizing Hidden Relations Between Patients Attributes
    2024
    Breast cancer and its recurrence are a major global health issue, impacting a considerable percentage of women over their lifetimes. Accurate prediction of breast cancer recurrence is crucial for enhancing patient outcomes, facilitating prompt interventions, and customizing treatment options. Although machine learning algorithms hold significant promise for breast cancer prediction, there is a shortage of studies dedicated to predicting breast cancer recurrence through these methods; yet, the accuracy of current methodologies remains problematic. In contrast, contemporary research primarily focuses on enhancing prediction algorithms and machine learning models, with inadequate exploration of the importance of intricate feature relationships. This study utilized correlation approaches to generate a graph from the existing breast cancer recurrence dataset, facilitating the extraction of novel features. This led to an expansion of the feature collection based on their correlations, thus enhancing prediction accuracy. This study utilized the Wisconsin Diagnostic Breast Cancer (WDBC) and Wisconsin Prognostic Breast Cancer (WPBC) datasets to examine feature correlations. Four correlation methodologies were evaluated: Pearson, Spearman rank, Kendall Tau, and Point-Biserial. Machine learning methods, such as Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Decision Tree (DT), and Random Forest (RF), are utilized to predict breast cancer recurrence. The findings indicated that the integration of graph-based feature associations significantly enhanced the prediction of breast cancer recurrence, with the Spearman rank correlation and SVM model achieving the highest level of precision.
  4. Unsupervised Link Prediction Improvement Using Centrality Measures
    2024
    Predicting potential links in complex networks is one of the major challenges in network analysis. This issue has significant applications in areas such as social, biological, and transportation networks. For example, in social networks, predicting potential links can help suggest potential friends and improve the user experience. In biological networks, more accurate prediction of protein interactions can lead to significant advancements in drug discovery and understanding biological mechanisms. However, traditional link prediction methods have limitations in terms of accuracy and considering the roles of nodes in the network. This research presents an innovative approach to improving the accuracy of link prediction in complex networks. The proposed method is designed by intelligently combining basic link prediction algorithms (such as CN, JC, RA, AA, and PA) with node centrality measures (degree, betweenness, closeness, eigenvector, and PageRank). This combination allows for the simultaneous utilization of the local network structure and the overall importance of nodes. The evaluation results of the proposed method on ten diverse datasets showed that this method outperformed the basic methods in most cases. For example, in the "lesmis" network, the improved PA method with the eigenvector centrality measure achieved a Precision of 0.3152, a significant improvement over the basic PA method (Precision of 0.1567). This improvement in performance was especially noticeable in larger and more complex networks and also performed excellently in smaller networks. Additionally, the study showed that selecting the best method for link prediction depends on the specific characteristics of each network. For example, in the "Karate" network, the improved PA method with the degree centrality measure performed the best, while in the "Jazz" network, the improved AA method with the eigenvector centrality measure provided the best result. These findings highlight the importance of considering the structure and specific features of each network when selecting the appropriate method for link prediction. This research has taken a significant step towards improving the accuracy of link prediction in complex networks. However, this study also had some limitations. Considering these limitations and the obtained results, several directions for future research are suggested. These include developing link prediction methods capable of considering network dynamics, testing more advanced centrality measures, improving the computational efficiency of algorithms, combining the proposed methods with advanced machine learning techniques, and examining the impact of other network features on link prediction.
  5. Improving Liver Disease Detection Using Oversampling and Network Analysis
    2024
    Liver diseases represent a significant global health challenge, impacting millions of individuals and leading to morbidity and mortality due to their often asymptomatic nature. The early detection and accurate diagnosis of liver disorders are critical for effective treatment and management, making it imperative to leverage advanced technologies such as machine learning. As healthcare systems increasingly rely on data-driven solutions, employing robust predictive models for liver disease can transform clinical practices, improve patient outcomes, and reduce the burden on healthcare providers. This thesis presents an investigation into the application of machine learning techniques for the detection of liver diseases using the Indian Liver Patient Records dataset, which includes clinical data from 579 patients. The study meticulously preprocesses the data by addressing class imbalance through the ADASYN algorithm, encoding categorical variables with LabelEncoder, and calculating feature correlations using the Spearman method. A graph-based approach was adopted to extract insights from patient features, enabling the creation of enriched data representations that were subsequently used to train various machine learning classifiers, including HistGradientBoostingClassifier, RandomForestClassifier, and AdaBoostClassifier. The findings of this research reveal substantial improvements in predictive accuracy, with the HistGradientBoostingClassifier achieving an impressive accuracy of 98.49%. The model outperformed existing methodologies, demonstrating the effectiveness of advanced feature extraction techniques and robust data preprocessing strategies in enhancing the reliability of predictions for liver disease diagnosis. This study not only highlights the expanding role of machine learning in healthcare but also serves as a validation of the potential benefits of data-driven approaches in disease management. Despite the promising results, several limitations are acknowledged in this research. The reliance on a specific dataset may restrict the generalizability of the findings, and the methodologies employed may require validation on diverse datasets to confirm their effectiveness across different populations. Additionally, there is a need for further exploration of deep learning techniques and the integration of multimodal data sources to improve diagnostic accuracy. Future research should aim to address these limitations while continuing to expand the understanding and application of machine learning within the realm of liver disease detection and beyond.
  6. Drug Abuse Detection Improvement using Graph Analysis Techniques
    2024
    Drug abuse remains one of the most significant public health challenges globally, affecting millions and resulting in profound social and economic consequences. Traditional detection methods, largely reliant on self-reporting and clinical assessments, often fall short in capturing the complex reality of substance use behaviors. As substance abuse continues to evolve, innovative approaches are required to enhance detection, prevention, and intervention strategies while providing healthcare professionals and policymakers with robust data-driven insights. This study utilized the UCI dataset on drug consumption, comprising 1885 respondents with 12 attributes including personality traits, demographic information, and drug consumption behavior. We employed graph analysis techniques to enhance drug abuse detection, focusing on nicotine consumption. previous work used machine learning, we also used machine learning except that we added new features that we get from the graph. Our methodology involved data preprocessing, correlation analysis using Spearman's coefficient, graph construction with different thresholds for nicotine users and non-users, and feature extraction from the resulting graphs. We extracted seven centrality measures: Degree, Betweenness, Closeness, Eigenvector, Pagerank, Harmonic, and Load Centrality. We then combined these graph-derived features with the original dataset and applied various machine learning models for classification. The results demonstrated strong predictive performance, with the best model (Logistic Regression) achieving an accuracy of 0.985964 and an AUC of 0.999015. Other models, including Histogram-based Gradient Boosting, MLP, and SVM, also showed high accuracy above 0.85. This represents a significant improvement over recent studies in the field of drug abuse detection. Future research should focus on validating these results on diverse external datasets to ensure generalizability. Exploring temporal dynamics within drug abuse networks and integrating advanced techniques like Graph Neural Networks could further enhance the methodology. Additionally, expanding the approach to other substances and behavioral health issues could provide a more comprehensive understanding of addiction patterns. Ethical considerations regarding the use of highly accurate predictive models in healthcare settings should also be carefully addressed to ensure responsible application of these techniques.
  7. Software Defect Prediction Using Ensemble Learning derived from Graph analysis
    2024
    Software defect prediction plays a crucial role in enhancing software quality and reducing development costs. As software systems grow in complexity, the ability to accurately identify defect-prone modules becomes increasingly vital for efficient resource allocation and risk mitigation. Traditional approaches to defect prediction often struggle to capture the intricate relationships between software components, leading to suboptimal predictive performance. There is a pressing need for more sophisticated methods that can leverage the structural properties of software systems to improve defect prediction accuracy. This thesis presents a novel approach to software defect prediction by combining graph-based feature extraction with ensemble learning techniques. We transform software modules into graph representations, extracting meaningful features that capture the complex dependencies within the system. These graph-based features are then used to train a variety of ensemble classifiers, including Histogram Gradient Boosting, Extra Trees, and Random Forest. Our methodology is applied to three diverse datasets from the NASA Metrics Data Program: CM1, JM1, and KC1, representing spacecraft instruments, real-time ground systems, and storage management software, respectively. The results demonstrate significant improvements in defect prediction accuracy compared to existing state-of-the-art methods. Our approach achieves accuracy scores ranging from 0.966 to 0.994 across the datasets, with Area Under the Receiver Operating Characteristic Curve (AUC) scores consistently approaching or exceeding 0.99. These findings represent a 3% to 15% improvement over recent studies, highlighting the effectiveness of our graph-based ensemble learning method. The approach shows remarkable versatility, performing exceptionally well across diverse software domains and maintaining a balanced performance in terms of precision and recall. Future work will focus on exploring more advanced graph representation techniques, incorporating temporal information into the models, and investigating the application of explainable AI methods to enhance model interpretability. Additionally, expanding the study to a wider range of software projects and integrating the approach with existing development tools present exciting opportunities for practical application. As software systems continue to evolve in complexity, the proposed graph-based ensemble learning approach holds significant promise for advancing the field of software defect prediction and improving software quality assurance practices across the industry.
  8. Integrating Graph-Based Techniques with Machine Learning for Disease Detection
    2024
    The study explores the use of Graph Neural Networks (GNNs) for disease prediction in various medical scenarios. It proposes a methodology that transforms tabular patient data into graph-structured representations, capturing intricate linkages and patterns inherent in healthcare data. The methodology includes five essential stages: data preprocessing, graph generation, node embedding and feature extraction using GNNs, feature integration, and machine learning classification. During the graph generation step, similarity metrics like Gaussian, Jaccard, Cosine, and Spearman correlations are used to generate patient graphs that represent different aspects of patient similarities. Link prediction is used as an unsupervised learning objective to train GNN models, including Graph Convolutional Networks (GCN), Graph Attention Networks (GAT), and GraphSAGE, to acquire significant node embeddings. The latent features obtained by GNNs are then combined with baseline preprocessed features, resulting in an enhanced feature set that incorporates both node-level and graph-level information. Machine learning classifiers such as Support Vector Machines (SVM) and Random Forest are trained using this enriched feature set. The empirical findings show that GNN-based approaches consistently surpass earlier state-of-the-art methods in all three disease categories. Graph Attention Network (GAT) shows outstanding performance in stroke prediction. The integration of GNN information with conventional classifiers leads to synergistic effects, producing highly accurate and robust prediction models. This work significantly enhances the medical informatics domain by demonstrating the remarkable capabilities of graph-based deep learning in disease prediction. It suggests that GNN-based methods can significantly increase the precision and dependability of disease prediction models, leading to earlier detection, more tailored treatment approaches, and better patient outcomes.
  9. Graph-based improvement of machine learning algorithms for Alzheimer's prediction
    2024
    Alzheimer's disease (AD) is one of the most significant global health challenges today, profoundly impacting the quality of life of patients and their families. According to the World Health Organization, over 55 million people worldwide are affected by this disease, and this number is projected to increase to more than 150 million by 2050. AD is the seventh leading cause of death globally and imposes a substantial economic and social burden on societies. The disease is characterized by progressive memory loss, cognitive decline, and behavioral changes. Early diagnosis of Alzheimer's is crucial as it can lead to better disease management and improved quality of life for patients. This research presents an innovative graph-based approach for predicting and diagnosing Alzheimer's disease using clinical data from the OASIS dataset. By constructing a patient similarity network and discovering connections and correlations between patients, we were able to extract highly informative features that significantly enhanced conventional clinical variables used in AD classification. We employed five correlation methods, including Jaccard similarity, Spearman correlation, Pearson correlation, Cosine similarity, and Euclidean distance to create this network. This approach allowed us to identify and analyze complex relationships between various factors that might be overlooked in traditional methods. Our results demonstrate that combining advanced graph analysis techniques with machine learning algorithms can significantly improve our ability to predict and manage this complex disease. We evaluated eight machine learning algorithms, including RandomForestClassifier, LogisticRegression, SVC, KNeighborsClassifier, GradientBoostingClassifier, MLPClassifier, AdaBoostClassifier, and DecisionTreeClassifier. Using the SMOTE balancing method with Jaccard similarity measure in combination with GradientBoosting and AdaBoost algorithms, we achieved a peak accuracy of 0.9970. Additionally, notable results were obtained with other similarity measures, including Pearson and Spearman correlations using RandomForest (achieving accuracies of 0.9479 and 0.9464 respectively). However, our method has limitations that should be addressed in future work. The number of features used in this study was limited, and using larger datasets with more features could improve results. Additionally, the use of more advanced methods such as Graph Neural Networks (GNN) could be explored in future work. These methods could help extract more complex features and provide a deeper understanding of the network structure. Furthermore, validating the results on independent and larger datasets could help increase confidence in the generalizability of the proposed method. Overall, this research has the potential to lead to more accurate early diagnosis and improved patient care, representing a significant step forward in addressing the challenges posed by Alzheimer's disease.
  10. A new method based on network analysis to predict student’s dropout
    2024
    The educational revolution in the digital space has entered a new phase with the emergence of Massive Open Online Courses (MOOCs). This phenomenon, which has seen significant growth in recent years, faces challenges such as high dropout rates and low course completion percentages. The present study examines innovative methods for analyzing and classifying educational data to predict student dropout rates. Online education data includes interactive information, academic progress, and digital content, which help analyze the quality and effectiveness of educational materials. The datasets used in this study were obtained from the university's learning management system and include students' academic and behavioral information. This research examines the prediction accuracy among students at risk of dropping out and those who continue their studies. The use of innovative data analysis methods can improve prediction accuracy. In this research, online educational systems and data are first introduced, followed by a discussion of educational data mining and the issue of student dropout. The importance of early detection of at-risk students is discussed, and data is converted into graphs to analyze complex relationships and patterns. Effective graph features are extracted to provide information about students' behavioral and academic patterns. Three methods are examined for predicting dropout rates. In the first method, Harvard and MIT data with 22 features and 6 newly extracted features are used. The second method examines KDDCup data with 15 features and 5 new local features. In the third method, by converting the data into two separate sets, 5 local features and 5 new global features are extracted. Finally, various classification algorithms are used to identify students at risk of dropping out, and this approach can help more accurately identify at-risk students and enable timely interventions. The results of this study demonstrate the positive impact of the graph-based approach in analyzing educational data and improving the accuracy of predicting student dropout rates. This method is more efficient than traditional methods and helps educational institutions identify at-risk students more quickly and take preventive measures. The graph structure allows for examining complex relationships between educational features and extracting more effective characteristics. In the first proposed method, the InfoMap algorithm performed best. The second method improved prediction accuracy by 5.33%, and the third method, combining local and global features, improved it by 6.04%, reaching 100% accuracy. These findings suggest that extracting and combining appropriate features can significantly increase the accuracy of predicting dropout rates in MOOCs. Despite positive results, this research also has limitations. One of the main challenges is the difficulty in managing and processing large datasets, which can make the analysis process time-consuming. To overcome this limitation, deep graph methods can be used, enabling faster and more efficient data analysis. In future work, advanced community detection methods could be used to extract multiple features, or different encodings could be used for feature extraction. These approaches can not only help increase efficiency in processing large volumes of data but also enable the discovery of hidden and more complex patterns in educational data, potentially leading to more accurate and comprehensive predictions of student dropout rates.
  11. Heart Disease Diagnosis by Simultaneous Use of Electrocardiogram Signals and Demographic Data
    2024
    Cardiovascular diseases are one of the leading causes of mortality worldwide, and timely and accurate diagnosis can play a crucial role in reducing complications and improving patients' quality of life. In recent years, significant advances in artificial intelligence and machine learning have opened new horizons in the field of heart disease diagnosis. Advanced computational methods, with the ability to process massive amounts of data and identify complex patterns, have enabled faster and more accurate diagnoses. Among these, the use of electrocardiogram (ECG) signals alongside demographic data, as a comprehensive approach, has attracted the attention of many researchers. This study aims to leverage this potential and proposes a novel method to improve the accuracy and efficiency of heart disease diagnosis. This research was conducted with the aim of presenting a new method for diagnosing heart diseases using visual graphs and graph neural networks. In this study, the PTB-XL dataset, which includes demographic information and 12-lead ECG signals, was used. The proposed method involves data preprocessing, transforming ECG signals into horizontal visual graphs, graph combination, feature extraction using graph neural networks (GNN), and the integration of extracted features with demographic data. Three different methods for feature extraction were examined: using signal information, using the structural information of the graph, and simultaneously using both signal and structural information. In the final stage, advanced machine learning algorithms, such as Bagging Classifier and Hist Gradient Boosting, were employed for classification. The results showed that all three methods had significant performance, with accuracies above 99.8% and AUC values close to 1.0. The hybrid method, which utilized both signal and structural information, demonstrated the best performance. This indicates that combining these two types of information can lead to richer feature extraction and, consequently, more accurate heart disease diagnosis. The use of horizontal visual graphs to represent ECG signals played an important role in the success of this approach, as these graphs were able to render the complex patterns present in ECG signals in a form that is processable by graph neural networks. Despite the promising results, this research faced challenges such as computational complexity, the need for robust resources, and limitations in model interpretability. However, this study has taken an important step towards improving heart disease diagnosis using advanced AI, machine learning, and deep learning techniques. It is expected that by overcoming existing limitations and conducting broader studies, this method could be used as an effective tool alongside cardiologists for more accurate and faster heart disease diagnosis.
  12. Web page Classification using Network Analysis Approach
    2024
    Web page classification is a fundamental task in the field of web mining, playing a crucial role in organizing and managing the vast amount of information available on the internet. As the web continues to grow exponentially, the need for accurate and efficient classification methods becomes increasingly important. Proper categorization of web pages enables more effective information retrieval, enhances search engine performance, and facilitates content management across various domains. However, the dynamic nature of web content, diverse page structures, and the sheer volume of data pose significant challenges to traditional classification approaches. This thesis addresses these challenges by proposing a novel method that combines network analysis with conventional content-based techniques, aiming to improve the accuracy and robustness of web page classification systems. This thesis presents a novel approach to web page classification, addressing the challenges posed by the dynamic and complex nature of web content. By integrating graph-based features with traditional content-based methods, we develop a more robust and accurate classification system. Our methodology involves constructing network graphs from web page datasets, extracting centrality measures, and incorporating these as additional features for machine learning algorithms. We utilize the Dmoz dataset, a comprehensive web directory, to train and evaluate various classification algorithms. Our approach employs both Pearson and Spearman correlation methods to capture linear and monotonic relationships between web pages. We compare the performance of multiple machines learning algorithms, including Naive Bayes, Decision Trees, Support Vector Machines, and ensemble methods such as Random Forests and Gradient Boosting. The results demonstrate significant improvements in classification accuracy compared to existing methods. Our best-performing model, the Histogram-Based Gradient Boosting Classifier, achieves an accuracy of 77.17% using the Spearman method, outperforming previous benchmarks. We provide a comprehensive analysis of classifier performance using multiple metrics, including precision, recall, F1-score, and Area Under the Curve (AUC). This research contributes to the field of web mining by offering a more adaptable and efficient approach to web page classification. The integration of graph-based features enhances the model's ability to capture complex relationships between web pages, leading to improved classification accuracy. Our findings have important implications for various applications, including search engine optimization, content management, and information retrieval systems. The thesis concludes by discussing the limitations of the current approach and proposing future research directions, including the integration of deep learning techniques, exploration of dynamic graph analysis, and investigation of multi-modal classification methods.
  13. A novel method for Multilayer link prediction using GNN
    2024
    Graph Neural Networks (GNNs) have proven to be highly effective for various graph-related tasks, including link prediction. However, most existing GNN-based methods are designed for single-layer graphs, which include only nodes and links of a single type. This limitation poses a significant challenge, as many real-world applications, such as social networks, involve multilayer graphs with multiple types of edges between nodes. Addressing the need for effective multilayer link prediction is crucial for better performance and insights in these complex networks. To tackle this issue, we have proposed a novel method for multilayer link prediction using GNNs. Our approach begins with transformation multilayer networks into flat network by leverages three different kinds of features: graph features, community features, and embedding features. By integrating these features with the most effective GNN model, we can capture the intricacies of multilayer graphs. We employ a Multilayer Perceptron (MLP) as the decoding mechanism, which enhances the prediction process. This methodology ensures a comprehensive analysis of the multilayer graph structure, facilitating more accurate link predictions. We evaluated our proposed model on six real-world multilayer datasets, demonstrating its effectiveness in handling the complexities of multilayer link prediction. Our results show that our model outperforms other existing models, highlighting its robustness and reliability. The successful application of our method to these diverse datasets underscores its potential for broad applicability in various real-world scenarios, marking a significant advancement in the field of graph-based machine learning.
  14. Weak Tie Finding Improvement using Density Peak Clustering based Community Detection
    2024
    Nowadays, the identification of weak ties has gained significant importance due to the high informational load they carry, especially in social networks and social research. Weak ties often serve as bridges between different groups or communities, providing opportunities for new cognitive and social insights that may lead to innovative ideas, research collaborations, or even job opportunities. In this study, we combined two scientific domains, community detection, and link prediction, to identify high-betweenness links in both large and small networks from the NetworkRepository database. For community detection, we utilized the density peak clustering method, which benefits from its automatic determination of the number of clusters and independence from the size and shape of the clusters. One of the challenges of using this method for community detection is that the input is in the form of a distance matrix, while network input is in the form of an adjacency matrix. However, leveraging previous work in this field, we successfully addressed this challenge. After clustering the target network, links between clusters are introduced as weak links. Subsequently, to rank weak links from the most to least important, we employed inverse link prediction for scoring. Finally, using the modularity measure, we evaluated the community detection performance of our method against a competitor. The results indicated the superiority of our method in most datasets. Then, utilizing the Efficiency measure, we examined the importance of the identified weak links in this study and previous works. The results revealed that in small networks, our method consistently outperformed, but in large networks, there were occasional instances where we were outperformed by the rival method, possibly due to the unique characteristics of the network.
  15. Graph-Based Improvement of Student Performance Prediction
    2024
    Educational data analysis faces the challenge of optimizing predictive models for student performance. While traditional statistical and machine learning methods dominate, graph-based data representations remain underexplored. Graphs offer holistic insights into students’ learning journeys, revealing patterns beyond conventional models. The surge in educational data underscores the need to harness it effectively for student outcomes. This research Graph-Based Improvement of Student Performance Prediciton (GBISPP) bridges the gap by investigating graph-based methodologies for performance prediction. These techniques make relationships among students, courses, and resources, aiming to enhance predictive accuracy. In our study, After pre-processing and converting the data to graph. Then, we started by setting a threshold of (0.75), and we used (Gaussian filter) and (Spearman correlation) similarities for our research process. Then we added graph features (Cluster Coefficient, Betweenness Centrality, Eigenvector Centrality, Degree Centrality, Closeness Centrality, Average Weighted Degree, Average Clustering, Density, and Degree). The outcomes of our study for the five algorithms employed (Random Forest, Naïve Bayes, Decision Tree, AdaBoost, and SVM) are displayed, The Random Forest recorded the highest accuracy it was (86.34). For the data analysis process we used (5000) records in the Open University Learning Analytics Dataset (OULAD) from Kaggle, we focused on ‘studentInfo’ and ‘studentAssessment’ tables. This reliable source contributes to educational research in Educational Data Mining (EDM).
  16. Improving long-tail product recommender system using tripartite graph and link prediction
    2023
    Graph-based tripartite systems and link prediction are considered innovative approaches in the field of content recommendation to users. These systems utilize the interactions among users, products, and features as a tripartite graph and recommend suitable content to users by predicting new links within this graph. Link prediction here refers to predicting the likelihood of connections between users and products. These models can effectively capture the complexity of various relationships within the graph and calculate the probability of connections between elements. This information assists recommendation systems in offering products related to users' preferences with higher accuracy. The objective of this research is to enhance a recommendation system for sequential products using the graph-based tripartite approach and link prediction. The results indicate that graph-based tripartite and link prediction recommendation systems show significant improvements in prediction accuracy, content diversity, and the delivery of sequential content compared to user and product-based systems. These enhancements are attributed to the capability of these systems to understand complex interactions between users and products, as well as improving the prediction of crucial links within the tripartite graph. Furthermore, it was evident that graph-based tripartite recommendation systems typically outperform in prediction accuracy and content diversity due to their unique capabilities in modeling complex relationships and features.
  17. Multilayer link prediction improvement using effective utilization of community detection and centrality
    2023
    One of the topics that has been heavily studied in network analysis is the link prediction problem, which is very important in biological, scientific, and social network issues and involves scoring non-existent edges. A specific type of link prediction that has many applications is interlayer link prediction in multilayer networks. The two main types of multilayer networks are: 1) multiplex networks where the number and type of nodes are the same across all layers, and the interlayer links connecting nodes in two layers are one-to-one, essentially connecting nodes of the same entity, and 2) interconnected networks where the number and type of nodes are not necessarily the same across layers, the interlayer links are non-one-to-one, connecting nodes of different entities, and each node from one layer can connect to any node in another layer. Link prediction in multilayer networks is done in two ways: 1) intralayer link prediction, predicting non-existent links within a single layer, and 2) interlayer link prediction, predicting non-existent interlayer links between two different layers. Most studies so far have focused on intralayer link prediction, and research on interlayer link prediction is still in early stages. The interlayer link prediction studies done so far have all worked on multiplex networks, a subset of multilayer networks with a minimum number of layers (2 layers). Therefore, in this thesis, we perform interlayer link prediction on interconnected multilayer networks without limitations on the number and type of nodes in layers, number of layers, and number of interlayer links. We use three approaches to do interlayer link prediction: 1) converting the multilayer network to flat networks, 2) reducing the multilayer network to bipartite networks, and 3) utilizing community detection and centrality. The link prediction algorithms used are basic algorithms: Common Neighbors, Jaccard Coefficient, Preferential Attachment, and Adamic Adar. The community detection algorithm used is the well-known Girvan-Newman algorithm. We also use closeness centrality to determine node importance. The datasets used include a 3-layer network from the movie script of the famous movie The Avengers 2012, and 3-layer, 4-layer and 5-layer networks of the Star Wars series. Ultimately, the accuracy results of the proposed approaches are presented in four phases: 1) Predicting interlayer links through a flat network, 2) Predicting interlayer links through a bipartite network, 3) Predicting interlayer links by combining the results obtained from the first approach (predicting interlayer links through a flat network) and the second approach (predicting interlayer links through a bipartite network), and 4) Predicting interlayer links by combining the results obtained from the first approach (predicting interlayer links through a flat network), the second approach (predicting interlayer links through a bipartite network) and the third approach (predicting interlayer links using community detection and centrality). In general, the purpose of presenting the third phase (combining the first and second approaches) and the fourth phase (combining the first, second and third approaches), which use a combination of the results of the proposed approaches to calculate accuracy, is to improve the accuracy of the results obtained from the first and second phases. According to the presented results, the best performance belongs to the third phase (combining the first and second approaches). Also, the best results for AUC for the four-layer Star Wars 3 network and the five-layer Star Wars 2 network with a value of more than 0.9 for the third and fourth phases for all four link prediction scoring measures were obtained.
  18. تحلیل و تشخیص بیماری‌های مرتبط با مغز بر اساس روش‌های مبتنی بر کاوش گراف
    2023
    داده‌های مرتبط با بیماری‌های مغز از روش‌های مختلف و در قالب‌های متنوعی تهیه می‌شوند که از جمله آن می‌توان به داده‌های بالینی و اطلاعات سلامت بیماران (EHR)، تصویربرداری مغزی، اطلاعات ژنتیکی و سری‌های زمانی حاصل از ثبت علایم اشاره کرد. ثبت علایم مغز که عمدتا در قالب سری‌های زمانی است، تاکنون به صورت وسیع برای تشخیص انواع بیماری‌ها توسط روش‌های یادگیری ماشین مورد بررسی قرار گرفته است. نگاه گرافی به داده‌های سری زمانی مرتبط با مغز در ده سال اخیر رواج فراوانی یافته است، که رایج‌ترین شکل آن، تبدیل سری زمانی سیگنال‌های مغز به گراف پدیداری است و به این ترتیب تحلیل گراف پدیداری مغز برای بیماری‌های آن، اکنون روشی کارآمد و شناخته شده به حساب می‌آید. این پایان‌نامه به بررسی روش‌های نوین تحلیل و طبقه‌بندی سیگنال‌های الکتروانسفالوگرام (EEG) به منظور تشخیص خودکار تشنج در بیماران مبتلا به صرع می‌پردازد. صرع یک بیماری مغزی شایع است که باعث بروز حملات تشنجی می‌شود. مجموعه‌داده استفاده شده در این پژوهش در دانشگاه بون به‌دست‌آمده و به صورت عمومی در دسترس است. این مجموعه داده شامل پنج گروه است که ما به بررسی دقت تشخیص در بین دو گروه D و E که به ترتیب برای افراد مبتلا به صرع در فواصل بدون تشنج و تشنج است، خواهیم پرداخت. تشخیص تشنج صرع مبتنی بر EEG است که الگوهای پیچیده فعالیت‌های الکتریکی مغز را ثبت می‌کند. تحلیل دستی EEG برای تشخیص تشنج زمانبر و خطاپذیر است. در این پژوهش ابتدا به معرفی ساختار و عملکرد مغز و نقش سیگنال‌های EEG در بررسی اختلالات مغزی پرداخته می‌شود. سپس اهمیت تشخیص به‌موقع تشنج و چالش‌های موجود در تحلیل دستی EEG مورد بحث قرار می‌گیرد. آنگاه مجموعه داده مورد بررسی به گراف پدیداری افقی تبدیل می‌شود و برای افزایش کیفیت تبدیل، از پیش‌بینی پیوند برای بهبود ساختار شبکه ایجاد شده بهره گرفته می‌شود. آنگاه نسبت به شناسایی و استخراج مؤثرترین ویژگی‌های گراف‌های حاصل شده مشتمل بر جمله ضریب خوشه‌بندی، چگالی و شاخص پیچیدگی اقدام می‌شود. سپس با به‌کارگیری الگوریتم‌های مختلف طبقه‌بندی،SGD، KNN و SVM با کرنل RBF تشنج در بیماران مبتلا به صرع تشخیص داده می‌شود. نتایج حاکی از تأثیر مثبت بهبود ساختار شبکه با پیش‌بینی پیوند، قبل از اعمال روش‌های طبقه‌بندی و حصول دقت بالاست. این شیوه نسبت به سایر روش‌های تشخیص محاسباتی بیماری‌های مغز دارای پیچیدگی زمانی کمتر و کارآمدی بالاتر است و می‌تواند به پزشکان در تشخیص سریع‌تر صرع و کنترل حملات تشنجی کمک کند. در نهایت با توجه به تنوع روش‌های پیش‌بینی پیوند و انتخاب ویژگی و همچنین بیماری‌های مختلف مرتبط با مغز که داده در قالب سری زمانی دارند، می‌توان توسعه‌های آتی متنوعی برای این پژوهش تعریف نمود.
  19. بهبود پیش‌بینی پیوند وزنی با استفاده از الگوریتم‌های تشخیص اجتماع
    2023
    پیش‌بینی پیوند وزن‌دار یک مسئله در شبکه‌های پیچیده و پویا است که به پیش‌بینی ایجاد یا قطع ارتباطات بین گره‌ها می‌پردازد. این مسئله کاربردهای گسترده‌ای در حوزه‌های مختلف از جمله شبکه‌های اجتماعی آنلاین، بازیابی اطلاعات، تجارت الکترونیک، بیوانفورماتیک و غیره دارد. برای رسیدن به این هدف، از روش‌های مختلفی استفاده شده است. یکی از این روش‌ها، استخراج ویژگی‌های ساختاری شبکه (ها) است. به این معنی که یک یا چند ویژگی از ساختار شبکه برای پیش‌بینی ایجاد ارتباط جدید بین گره‌ها مورد استفاده قرار می‌شود. روش‌های پیش‌بینی پیوند وزن‌دار بدون ناظر، عمدتا مبتنی بر پردازش اطلاعات همسایگان مشترک یا تعداد آن‌ها هستند که روش‌های جاکارد، همسایگان مشترک، آدامیک/آدار و الحاق ترجیحی از رایج‌ترین آن‌ها به شمار می‌روند. با توجه به اینکه روش‌های کشف اجتماع رایج نیز از اطلاعات ساختاری و همسایگی گره‌ها برای یافتن بیشینه شباهت آن‌ها استفاده می‌کنند، تاکنون پژوهش‌هایی برای بهبود دقت پیش‌بینی پیوند با کمک کشف اجتماع صورت گرفته است. در این پژوهش با دو ایده جدید زیر، نسبت به بازتعریف روش‌های پیش‌بینی پیوند اقدام خواهیم کرد: لحاظ کردن امتیاز بیشتر برای همسایگان مشترک دو گره که اجتماع مشترک دارند و لحاظ کردن بزرگترین اجتماع دربرگیرنده بیشترین تعداد همسایگان مشترک. بدین ترتیب تراکم همسایه‌های مشترک در اجتماعاتی که از روش‌های رایج کشف جامعه مانند گیروان نیومن، لووین و الگوریتم انتشار برچسب ناهمزمان حاصل می‌شوند، سبب بهبود پیش‌بینی پیوند خواهند شد. پس از پیاده‌سازی دو ایده پیشنهادی در این پژوهش، ارزیابی مبتنی بر محاسبه AUC نشان می‌دهد که نتایج پیش‌بینی پیوند وزن‌دار در مجموعه داده‌های Animal Social، USAir، Celegans و Net Science بهبود یافته است. به عنوان مثال، در مجموعه داده Animal Social، استفاده از ترکیب روش‌های آدامیک/آدار و لووین منجر به بهبود 18.5 درصدی شده است. همچنین، در مجموعه داده USAir، استفاده از ترکیب روش‌های آدامیک/آدار و گیروان-نیومن بهبود 5.5 درصدی را نشان داده است. در نتیجه، در مجموعه داده Net Science، استفاده از ترکیب روش‌های آدامیک/آدار و لووین نسبت به رویکرد CCNI_FCNI_DS در مقاله رقیب، بهبود 0.5 درصدی داشته است. در رویکرد تجربی که در مقاله کومار و همکاران آمده است، در دیتاست USAir، استفاده از روش‌های ترکیبی به صورت میانگین منجر به بهبود 29.21 درصدی گردیده است و در دیتاست مشترک Celegans نیز استفاده از روش های ترکیبی به صورت میانگین 13.85 درصد نسبت به روش مقاله مرجع بهبود یافته است. تمامی روش‌های پیش‌بینی پیوند وزن‌دار و روش‌های تشخیص اجتماع مورد استفاده در این تحقیق، در بهبود نتایج نقش مهمی ایفا کرده‌اند. روش آدامیک/آدار بیشترین بهبود را در میان روش‌های پیش‌بینی پیوند داشته است، و روش‌های لووین و گیروان-نیومن به ترتیب بیشترین بهبود را در میان روش‌های تشخیص اجتماع ارائه داده‌اند. توسعه‌های آتی این پژوهش می‌تواند گسترش حیطه به روش‌های با ناظر یا بهره‌گیری از روش‌های قوی‌تر مبتنی بر پردازش مسیر و لحاظ نمودن ویژگی‌های سراسری گراف باشد. همچنین می‌توان معیارهای ارزیابی بیشتری مانند مؤلفه‌ای بودن یا اطلاعات متقابل را نیز مورد آزمون قرار داد. علاوه بر آن می‌توان بر روی روش‌هایی کار کرد که پیش‌بینی همزمان یال و وزن‌ آن را پوشش دهند.
  20. Improving graph-based phishing Websites detection using Complex Network Analysis
    2023
    Phishing attacks are among the most destructive and widespread security threats in today's cyberspace, primarily targeting email, financial institutions, payments, social media, and e-commerce. These attacks, leveraging social engineering and imitating reputable brands, deceive users into divulging their sensitive information to attackers. According to statistics provided by the Anti-Phishing Working Group, the variety and number of these attacks are increasing progressively. Given the complexity and growing diversity of phishing attacks, there is a pressing need to develop novel and effective solutions for timely detection of these attacks. Various computational methods have been proposed to identify phishing websites, primarily based on similarity or deep learning. In this thesis, different anti-phishing methods have been thoroughly reviewed for collecting graph-based techniques. Considering the limitations and deficiencies of previous graph-based phishing detection methods, a new approach has been proposed, which involves creating two separate weighted graphs based on legitimate and phishing datasets. This approach selects URL-based features from both datasets and creates a graph for each dataset based on the correlation coefficient between these features. After filtering weak edges, features based on the analysis of complex networks, such as clustering coefficient, centrality measures, etc., are extracted and the most important features are selected as input for classification and differentiation between legitimate and phishing websites. In addition, evaluation metrics such as accuracy, precision, F1-Score measurement, and ROC are used to find the best classifier. The results show that the proposed method has an accuracy of 99.57% in detecting phishing websites, which is higher than similar methods. It also has the ability to detect new and unknown phishing websites. Overall, the proposed method, by considering graph structural features and complex patterns, possesses high capability in detecting phishing pages and can be used as an effective solution to counter phishing. For the future work of this research, it is possible to mention the formation of a heterogeneous graph to simultaneously consider the relevant features of phishing and legitimate websites. Additionally, it is possible to consider the latent or global features of the graphs in the performance of classifiers.
  21. Improving Community Detection Using Mixed Link Prediction
    2023
    Community detection means dividing the nodes in complex networks into different groups. Nodes within the same group are closely connected, while nodes in different groups have fewer connections. Community detection is fundamental problem in network analysis, aiming to uncover the underlying structures and organization within complex networks. Traditional methods focus on network topology, neglecting valuable information contained in different types of links. Improving the network structure purposefully can result in better outcomes in community detection. In this study, we have utilized mixed link prediction as a technique to enhance the network structure. Our goal was to eliminate any noise in the network and restore any missed links without altering the number of nodes and edges. We then proceeded to apply various community detection algorithms to compare the quality of the results. To ensure the generality of our approach, we chose the most popular community detection methods (Louvain, Giravan Newman, and Fast Greedy) and link prediction ranking formulas (Common Neighbors, Jaccard Coefficient, Adamic/Adar, Preferential Attachment, and Recourse Allocation) as the core of mixed link prediction. To evaluate the effectiveness of our proposed method, we test it on four different real-world datasets from various domains based on modularity and normalized mutual information measures. Our findings demonstrate that our novel framework for community detection using mixed link prediction improves community detection results in most cases. The success rate also depends on the network properties. Furthermore, this approach has the potential to be extended to stronger community detection and link prediction methods in future researches.
  22. بهبود کیفیت تبدیل سری زمانی به گراف‌ پدیداری نفوذپذیر محدود با ایجاد نسخه وزن‌دار و پیش‌بینی پیوند
    2023
    امروزه تحلیل سر‌ی‌های زمانی از منظر شبکه پیچیده، علاقه بسیاری از پژوهشگران را برانگیخته است. برای تبدیل نوع داده سری زمانی به شبکه (گراف) روش‌های مختلفی وجود دارد که رایج‌ترین آن‌‌ها استفاده از گراف پدیداری است. در یک دسته‌بندی کلی، خانواده الگوریتم‌های گراف پدیداری شامل گراف پدیداری طبیعی(NVG)، افقی(HVG) و نفوذپذیر محدود(LPVG) است که هر یک به اقتضای نیاز پژوهشگر و موضوع مورد پژوهش می‌توانند مفید واقع شوند. گراف‌های پدیداری کاربردهای متعددی در شناخت و کشف ویژگی‌های خاص سری‌های زمانی و حتی پیشگویی مقادیر آتی آن‌ها دارند.‌‌ زمینه‌های انجام پژوهش در این حیطه، تحلیل رفتار سری زمانی، پیش‌بینی رفتار سری زمانی، بهبود کیفیت تبدیل سری زمانی و توسعه مفهوم به گراف‌های پیچیده‌تر است. حاصل اعمال الگوریتم گراف پدیداری بر داده‌های سری زمانی، گرافی ساده است و دقت انجام چنین کاری نیز صد درصد نیست. دراین راستا، گراف پدیداری نفوذپذیر محدود(LPVG)، به عنوان یک نسخه قوی‌تر با مقاومت بیشتر نسبت به نویز ارائه شد. همچنین گراف ساده‌ حاصل از تبدیل، ممکن است منعکس کننده ماهیت اصلی داده‌های سری زمانی نباشد و گراف غنی‌تری از نظر اطلاعات موجود، برای نمایش نیاز باشد. لذا تاکنون نسخه وزن‌دار گراف پدیداری ساده نیز عرضه و کارایی آن به اثبات رسیده است. با توجه به امکان وزن‌دار کردن گراف پدیداری نفوذپذیر محدود که تاکنون انجام نشده است و امکان بهر‌ه‌برداری از روش‌های کاهش نویز در گراف مبتنی بر پیشگویی پیوند، هنوز راه برای بهبود تبدیل داده‌های سری زمانی به گراف پدیداری باز است و افزایش دقت و کیفیت تبدیل، کماکان یک چالش کلیدی محسوب می‌شود. اولین مرحله، تبدیل نوع داده سری‌های زمانی به گراف پدیداری نفوذپذیر محدود(نسخه قوی‌تری از گراف پدیداری طبیعی) است. سپس از سه روش وزن‌دار کردن فاصله اقلیدسی، تانژانت زاویه دید و فاصله زمانی برای ساخت گراف وزن‌دار استفاده شده است. در مرحله بعد با اعمال پیش‌بینی پیوند، سعی در بهبود هرچه بیشتر کیفیت گراف شده است. برای امتیازدهی به ارتباطات در پیش‌بینی پیوند از معیارهای شباهت همسایگان مشترک، اتصال ترجیحی و ضریب جاکارد در نسخه وزن‌دار پیشنهاد و ارزیابی شده است. برای اثبات اعتبار روش پیشنهادی، سه مجموعه داده سری زمانی Taiex، فروش خانه و فروش شامپو اتخاذ شده است که در آن از معیار مبتنی بر پیش‌بینی پیوند AUC برای ارزیابی عملکرد گراف وزن‌دار استفاده می‌شود. نشان داده شده است که در گراف وزن‌دار ساخته شده با روش‌های پیشنهادی و اعمال پیش‌بینی پیوند، مقدار AUC حداکثر تا 0.99376 افزایش می‌یابد و تا حد زیادی بهتر از گراف بدون وزن به دست آمده توسط نظریه گراف پدیداری نفوذپذیر محدود عمل می‌کند.
  23. تحلیل گراف پدیداری داده‌های آموزشی
    2023
    داده‌های سری زمانی آموزش الکترونیک مانند داده‌های جریان کلیک و داده‌های بایگانی اهمیت زیادی در رابطه با کشف الگوی‌های رفتاری دانشجویان آن سامانه‌ها دارد. شناخت و تحلیل این نوع داده‌ها اطلاعات باارزشی در اختیار مدیران سازمان‌های مرتبط می‌گذارد، همانند تشخیص دانشجویان مستعدد ترک تحصیل، شناسایی دانشجویان فعال در پی‌گیری تکالیف علمی، گروه‌بندی دانشجویان براساس شباهت‌های رفتاری، تصمیم‌گیری متناسب با الگوی رفتاری آن‌ها، تشخیص علایق دانش آموزان به یک محتوای آموزشی خاص یا دوره تحصیلی یا یک مدرس خاص براساس فعالیت‌ها و تعاملشان با سامانه و غیره. از طرفی تحلیل گراف پدیداری زمینه‌ای نوظهور در تحلیل شبکه است که تاکنون در زمینه‌هایی مانند پزشکی، اقتصاد، معماری، پردازش تصویر، زمین‌شناسی و برخی زمینه‌های دیگر مطرح شده است که خروجی این بررسی‌ها سبب پیش‌بینی به موقع بیماری‌ها جهت جلوگیری از پیامدهای خطرناک آن‌ها، برآورد بازده بازارهای مالی با برنامه‌ریزی استراتژیک، اصلاح مدل محاسباتی جهت کارایی هزینه‌های بصری و غیره بوده است. همچنین داده‌های سری زمانی آموزش الکترونیک تاکنون در حوزه‌های پژوهشی مانند کشف دانش در سیستم‌های آموزشی، شناسایی الگوهای رفتاری مختلف و پیش‌بینی نتایج آینده و غیره با روش‌های یادگیری ماشین از جمله شبکه عصبی بازگشتی، ماشین بردار پشتیبان و شبکه عصبی مصنوعی مورد تحلیل قرار گرفته‌اند. اما بیشتر پژوهش‌های انجام شده تاکنون بر داده‌های جریان کلیک آموزشی، مبتنی بر روش‌های غیر شبکه‌ای و مرتبط با الگوریتم‌های یادگیری ماشین بوده است. با توجه به اهمیت الگوریتم‌های گراف پدیداری و نقش آن در حیطه تحلیل داده‌های سری زمانی، با نگاشت مناسب آن به حیطه داده‌های آموزشی می‌توان از این پتانسیل بهره برد. هدف این پژوهش توسعه زمینه پژوهشی تحلیل گراف پدیداری به حیله داده‌های آموزشی برای اولین بار است. بدین منظور یک نمونه موردی نیز تعریف و بررسی شده است که عبارت است از تشخیص دانشجویان ضعیف از قوی براساس تحلیل گراف پدیداری داده‌های جریان کلیک سامانه آموزشی براساس معیار‌های تحلیل شبکه مانند مرکزیت درجه، مرکزیت نزدیکی و توزیع درجه و غیره. داده ها از سامانه OULAD که حاوی اطلاعات تعامل کاربران با سامانه آموزشی است، انتخاب شده است. نتایج نشانگر این است که بالاتر بودن مرکزیت درجه، مرکزیت نزدیکی و توزیع درجه در گراف پدیداری حاصل از سری زمانی کلیک دانشجویان، متمایز کننده دانشجو ممتاز از ضعیف و تاییدکننده عدم شباهت رفتاری دانشجویان براساس میانگین کلیک‌هایشان در سامانه است. از طرفی هر سه معیار مذکور با p-valueبسیار پایین نسبت به سایر پارامترها به صورت مشخصی توانستند دانشجویان ممتاز از ضعیف را به درستی تشخیص دهند. میانگین دقت این پارامترها با الگوریتم‌های مختلف یادگیری ماشین با اعتبارسنجی متقاطع ده لایه حاصل شده است. الگوریتم درخت تصمیم با میانگین دقت 78 درصد نسبت به سایر الگوریتم‌ها در تشخیص دانشجویان ممتاز از ضعیف بهتر عمل کرده است.
  24. Improving Android Malware Detection using Complex Networks Analysis Techniques
    2022
    Android operating system is one of the most popular global mobile platforms. Smartphones that run the Android operating system are currently the most popular, with an astonishing 81.7% share of the global market. Due to the ever-increasing number of Android applications and continuous advancements in software development techniques, there is a need for scalable and flexible malware detectors that can effectively address the Big Data challenges. So far, various computational methods have been offered to detect and identify Android malware, which is mainly based on machine learning algorithms. Recently, With the motivation of increasing the speed of calculations, scalability, comprehensiveness, and reducing the complexity, solutions based on network analysis have been offered, which have shown high accuracy in detecting Android malware. In this thesis, considering the limitations and shortcomings of previous methods that are based on complex network analysis, we have come up with a new solution that extracts the functions of applications to build two separate weighted graphs of applications in two benign and malware cases. First, the effective features of the application’s graphs are extracted, including clustering coefficient, centrality indices, and the total weight of edges connected to each node. Then, Adding these features to other static features of the application generates data that is the basis for the classification of the malware applications from benign ones. The results of the implementation of random forest, decision tree, logistic regression, nearest neighbor, naive Bayes, etc with criteria for evaluating the confusion matrix, show improvement in the accuracy of malware detection by up to 99% on Intdroid and 2018 datasets. In addition, the proposed new method has better efficiency in terms of scalability and runtime overhead. To develop this research, it can also be considered its ability to detect new real-world Zero-Day malware. For this purpose, instead of two separate networks for malware and benign applications, a heterogeneous app-app network can be considered and take advantage of other network analysis methods, e.g., community detection.
  25. رویکرد مخلوط برای شناسایی گره های اثرگذار با استفاده از ترکیب کارآمد معیارهای محلی و سراسری
    2022
    یکی از موضوعات مهم و داغ در شبکه ها که از اهمیت نظری و عملی برخوردار است، یافتن گره های اثرگذار و با نفوذ است که روش های زیادی تاکنون برای این کار ارائه شده است. در نظریه گراف و تجزیه تحلیل شبکه، معیارهای تاثیر گره به معیارهایی گفته می شود که نوعی از رتبه بندی را بر اساس اهمیت گره در انتشار معرفی می کنند. از گره های تاثیرگذار می توان برای بیشینه کردن، کمینه کردن و حتی کنترل فرآیند انتشار بهره برد. معیارهای یافتن گره اثرگذار اغلب با شاخص های مرکزیت مرتبط هستند و عمدتا اثرگذاری را به صورت محلی یا سراسری مشخص می کنند. روش های اندکی برای لحاظ کردن همزمان تاثیر گره به صورت محلی و سراسری، پیشنهاد شده است و این مهم همچنان به صورت یک مسأله باز تحت پژوهش است. همچنین معیارهای تعیین اهمیت گره ها در برخی گراف های دیگر مانند شبکه های زیستی نیز بررسی شده است که برخی از آن ها تاکنون در حیطه های گره های اثرگذار استفاده و بررسی نشده اند و این خود می تواند منجر به ایجاد پتانسیل ها و روش های جدید در این حیطه شود. ما در این پژوهش اول با ترکیب روش های محلی و سراسری یک معیار جدید به نام Hybrid را برای امتیازدهی به گره ها و یافتن اثرگذارترین گره پیشنهاد کرده ایم، که با این عمل در می یابیم با بهره گیری همزمان از معیارهای محلی و سراسری می توان ضمن کاهش پیچیدگی محاسباتی دقت الگوریتم را نیز افزایش داد و همچنین با تغییر در مقدار آلفا در رابطه ی آن جهت تنظیم مقادیر محلی و سراسری، بهینه ترین مقدار از معیار پیشنهادی را معرفی کردیم و دوم علاوه بر آن نیز از معیارهای یافتن ژن ها و پروتئین های اساسی در شبکه های زیستی بهره گرفتیم که تاکنون در شبکه های پچیده استفاده نشده اندکه در بهترین حالت منجر به یافتن گره های اثرگذار شوند. ما در آزمایشات خود از هشت شبکه واقعی و یک شبکه نمونه با ویژگی و اندازه های مختلف استفاده کردیم و نتایج بدست آمده را در قالب انواع نمودارها و جداول نمایش داده ایم. برای ارزیابی معیارها از مدل معروف و رایج شبیه سازی SIR بهره گرفتیم و عملیات آن را با میانگین هزار مرتبه اجرا درنظر گرفتیم و در نهایت تاثیرگذاری گره ها را در این شبیه سازی با درنظر گرفتن تعداد گره های بهبودیافته در زمان پایان عملیات تعیین نمودیم، سپس نتایج را به کمک ضریب همبستگی تای کندال Kendall’s tau ارزیابی کردیم و نتایج را توسط انواع نمودار و منحنی نشان دادیم.
  26. بیشینه کردن کارایی الگوریتم های پیش بینی پیوند بدون ناظر با ترکیب مؤثر روش های محلی و سراسری
    2022
    پیش بینی پیوند مساله ای در شبکه های پیچیده است که به پیش بینی به وجود آمدن ارتباط های جدید بین گره ها می پردازد و کاربردهای مختلفی در حوزه های گوناگون از جمله شبکه های اجتماعی، بازیابی اطلاعات، تجارت الکترونیک و بیوانفورماتیک دارد. روش های متفاوتی برای تحقق این هدف استفاده شده است. یک دسته از این روش ها، مبتنی بر استخراج ویژگی های ساختاری شبکه می باشند. به این معنا که یک یا چند ویژگی از ساختار شبکه را جهت پیش بینی به وجود آمدن ارتباط جدید بین گره ها مد نظر قرار می دهند. ویژگی های محلی، بیشتر اطلاعات گره ها را در نظر می گیرند و ویژگی های سراسری، اطلاعات ساختاری گراف مانند طول مسیرها را معیار قرار می دهند. در این پایان نامه روشی ارائه شده است که ویژگی های محلی پایه مانند Common Neighbors، Jaccard ، Adamic Adar و غیره را با اطلاعات حاصل از الگوریتم های تشخیص اجتماع درگراف ترکیب می کند. ایده اصلی آن است که پس از تشخیص اجتماع با الگوریتم های Louvain، Newman-Girvan و Greedy Modularity Communication، نحوه پراکنش و تراکم همسایه های مشترک در اجتماع های کشف شده را معیار قرار می دهیم و امتیازهای همسایه های مشترک قرار گرفته در آن ها را برای الگوریتم های پایه به شیوه خاصی تقویت می کنیم. این روش بر روی مجموعه داده های معروف (کاراته کلاب، دلفین، نت ساینس، سی الگنس و ...) در حوزه پیش بینی پیوند آزمایش شده است. ارزیابی AUC و دقت محاسبات نشان می دهند که با استفاده از این شیوه، نتایج پیش بینی پیوند بر روی این مجموعه داده ها در اغلب ویژگی های محلی به طور قابل ملاحظه ای بهبود یافته است. روش استفاده شده قابلیت توسعه برای بهبود سایر الگوریتم های پیش بینی پیوند را نیز داراست.
  27. پیش بینی صادرات و واردات محصولات پتروشیمی با روش های تحلیل گراف
    2022
    صنعت پتروشیمی نقش مهمی در ایجاد ارزش افزوده در منابع نفت و گاز به ویژه برای ایران دارد. پیش بینی کشورهای صادرکننده یا وارد کننده پتروشیمی به همراه نوع محصول تبادلی، کمک بزرگی به ذی نفعان این صنعت برای برنامه ریزی بهینه تجاری است. از سوی دیگر، روش های محاسباتی ویژه شبکه های اجتماعی، اکنون کاربردهای متعددی در حیطه های مختلف یافته اند. هدف این مقاله، استفاده از روش های تحلیل شبکه برای اولین بار در پیش بینی تجارت محصولات پتروشیمی در سطح جهانی است. داده های مورد بررسی از وبسایت سازمان ملل در رابطه با تبادلات تجاری به ازای صادرات و واردات محصولات رایج صنعت پتروشیمی برای سال های 2017 تا 2019 استخراج و پیش پردازش شدند. همچنین از روش های محاسباتی پیش بینی پیوند، برای پیش بینی ارتباطات سال های بعد هر کدام برمبنای سال قبل، استفاده شد. الگوریتم های مورد استفاده، روش های پایه رایج با نام های همسایگان مشترک، ضریب جاکارد، آدامیک آدار و الحاق ترجیحی هستند. ارزیابی به دو شیوه محاسباتی و مقایسه پیش بینی ها با نتایج موجود انجام شد. بهترین روش پیش بینی با بیش از 90 درصد امتیاز AUC، الحاق ترجیحی به دست آمد که بر اساس آن مقایسه با داده های واقعی نیز صورت گرفت. یافته های پژوهش، مستعدترین کشورها برای واردات را اسپانیا، اسلونی، استرالیا، نروژ و آرژانتین شناسایی کرد و خوش آتیه ترین کشورها برای صادرات برای ایران را صادرات محصول استون به اسپانیا برآورد کرد. در نهایت روش های افزایش کارایی پیش بینی ها نیز بیان شد که استفاده از الگوریتم های قوی تر مانند روش های یادگیری ماشین با ناظر و مدل سازی غنی تر شبکه از قبیل در نظر گرفتن وزن ارتباطات، از جمله موارد مهم قابل انجام است.
  28. Weighted Mixed Link Prediction and its Applications
    2022
    Link prediction is an important technique in network analysis. It can be used to estimate the future status of network edges. Of course, newer versions can also find possible extra or spurious edges. But some networks, such as the disease network, have simultaneous deletion and addition changes to become the next stage and require mixed link prediction. In terms of explicit link prediction that predicts both added and deleted edges to the network at the same time, only one study has been done, and that only for a simple graph. In this study, for the first time, two explicit mixed link prediction algorithms for weighted networks have been proposed. To do this, the section on removing edges needed a new idea. Two new ideas named weighted edge reverse removal and weighted edge sumplement removal were introduced for this purpose. In addition, the idea of incremental link prediction was tested along with routine link prediction. Also, to evaluate the performance, a comparison was made with the weightless link prediction through matching criteria on Alzheimer's disease data. The data set, prepared from the Alzheimer's Disease Imaging Institute (ADNI), is the brain network in four stages of Alzheimer's disease, including healthy, early mild cognetive impairment, late mild cognetive impairment, and Alzheimer's disease (Normal, eMCI, lMCI, AD), there is an increase and decrease in communication between the regions in each stage compared to the previous stage. The proposed method was tested with four scoring functions including common neighbors (CN), Jacquard coefficient (JC), Adam / Adar (AA) and preferential joining (PA). For transition from Normal stage to eMCI, incremental JC method, from eMCI stage to lMCI incremental CN method, from lMCI stage to AD incremental JC method and from Normal stage to AD incremental JC method had the best performance. In the best method for each transition, the results improved by an average of seven percent compared to the weightless mode. The largest increase was from Normal to eMCI. The sequence of changes in brain areas, the order of deletions and additions have also been extracted for the use of brain researchers. Examining these changes may help to better understand Alzheimer's disease and be an effective help in treating or preventing it. To improve the proposed method, other path-based scoring functions or methods based on similarity of node properties, embedding, etc. can be used. The proposed algorithm can also be applied to a variety of networks with multiple stage of deletion and addition of connections.
  29. شناسایی گرههای تأثیرگذار در شبکه های پیچیده با استفاده از پیشگویی پیوند معکوس
    2022
    درک وکنترل شبکه های پیچیده مختلف از اهمیت بسزایی در انتشار اطلاعات و اتصال شبکه برخوردار است. شناسایی گرههای تاثیرگذار، تعریف شده به عنوان گرههایی که بیشترین قابلیت انتشار، نسبت به سایر گره های شبکه را دارند یک مسئله مهم است که کاربردهای مهمی مانند شناخت و شبیه سازی انتشار بیماری کرونا دارد. بدین ترتیب همواره روشهای جدید و کارآمدتر برای یافتن گره های اثرگذار، پیشنهاد میشوند. در این پایان نامه، با کمک یک ایده کاربردی، استراتژی خاصی از پیشگویی پیوند به نام پیشگویی پیوند معکوس را برای امتیازدهی به گره های شبکه، مورد استفاده قرار گرفته است با روشهای امتیازدهی پایه در پیشگویی پیوند) همسایگان مشترک، ضریب جاکارد، آدامیک آدار و الحاق ترجیحی( آزموده شده است. همچنین به منظور ارزیابی کارایی روش پیشنهادی و مقایسه آن با جدیدترین روشهای برتر، از مدل اپیدمی حساس-آلوده و برای اندازهگیری همبستگی بین روش پیشنهادی و فرایند انتشار از ضریب تاوکندال در پنج مجموعه داده استاندارد، کاراته کلوب ، دلفین، فوتبال، جاز و ایمیل استفاده شده است. نتایج بدست آمده نشان دهنده آن است که روش پیشنهادی ما برای یافتن گره های اثرگذار، عملکرد خوبی را نسبت به روشهای مقایسهای در پژوهش دارد. همچنین روش پیشنهادی به دلیل دارا بودن روشهای امتیازدهی مختلف در پیشگویی پیوند، قابل اعمال به شبکه ها با ویژگیهای متفاوت جهان کوچک و مقیاس آزاد است. علاوه بر آن امکان بهبود عملکرد روش پیشنهادی با به کارگیری توابع امتیازدهی قویتر و روشهای پیشرفته تر پیشگویی پیوند، میسر است.
  30. Designing a computational cognitive model based on genetic data for predicting possible biological relations causing cognitive deficits in Alzheimer’s Disease
    2021
    Alzheimer's disease is a progressive and degenerative nervous system disorder that causes cognitive impairment and a variety of psychosocial problems. Alzheimer's disease has a pathophysiological process that begins before clinical diagnosis, and early detection is crucial. Because improved descriptions of cellular and molecular processes, as well as miRNA-gene connections, lead to a better understanding of Alzheimer's pathogenesis, the development of computational cognitive models that aid in the prediction of disease biomarkers, can be accelerated. People at risk of Alzheimer's disease should take preventative and remedial actions. A method to exploit the miRNA-gene communication data from the biological database is proposed in this work, which uses recommender systems and a machine learning algorithm in collaborative filtering, has the ability to anticipate additional relations in the miRNA-gene that are linked to Alzheimer's disease. To assess the method's performance, we utilize cross-validation and AUC calculations. Thirty novel miRNA-gene relations implicated in Alzheimer's disease were predicted and tested. In comparison to other machine learning algorithms employed in collaborative filtering, which were evaluated in this work, experimental findings showed that our selected method, with an error of RMSE = 0.89 and AUC = 0.97, may provide good performance. Future research might look towards hybrid techniques, artificial neural networks, or deep learning.
  31. Bioinformatics identification of morphine-related microRNAs and evaluation of expression of purine receptors in rat brain after induction of morphine tolerance and withdrawal
    2021
    Morphine is a potent pain reliever, but its repeated use can lead to the drug dependence and addiction leading to changes in the signaling of neural pathways. The first goal of this study was to investigate possible changes in purine receptors gene expression including p2rx4 and p2rx7 in rat striatum and cerebellar cortex after induction of morphine tolerance and one month after its withdrawal. Four groups of male Wistar rats were used. Morphine tolerance was induced by repeated injections of morphine twice daily for 10 days. A control group received saline instead of morphine during the schedule. Induction of morphine tolerance was assessed using a hotplate test of analgesia on day 10. Two hours after the last repeated injections on day 10, each rat was anesthetized, decapitated, and the striatum and cerebellar cortex were dissected on an ice-chilled surface. Two other groups of rats subjected to 30 days withdrawal after 10 days of the repeated saline or morphine treatments, and the intended brain areas were extracted on day 30 of the withdrawal. Changes in gene expression were assessed using real-time PCR. Real-time PCR results showed that expression of p2rx4 and p2rx7 in the cerebellar cortex significantly decreased in morphine-tolerant rats. After morphine withdrawal, no group difference was detected for p2rx4 expression, but p2rx7 expression significantly increased compared with the control group. The gene expression results in the striatum of morphine-tolerant rats revealed no group difference for the p2rx4 gene expression, but there was a significant decrease in expression of p2rx7 compared with saline-treated control group. However, expression of p2rx4 in the striatum of rats after withdrawal significantly increased compared with control group. No group difference was detected in expression of p2rx7 between the experimental groups. It can be concluded that morphine tolerance site-specifically affects the gene expression of P2X4 and P2X7 receptors in the cerebellar cortex and striatum, which may be compensated after morphine withdrawal. The present results suggest important functional interaction between the purinergic system and morphine tolerance and withdrawal. The second goal of the study is to bioinformatically predict possible connections between parts of a bipartite network, one of which is miRNAs and the other is genes related to addiction and morphine tolerance in rats. This achieved by building the relevant network from previous studies and online data on mirdb.org and TargetScan.org and applying link prediction computational algorithms to find the most likely unrecorded connections. Promising future of the results are computationally provable but in practice more experiments are needed.
  32. بهبود انتخاب ویژگی بر پایه گراف با استفاده از پیش گویی پیوند و روش حفره های ساختاری
    2021
    انتخاب ویژگی، یکی از راهکارهای اساسی یادگیری ماشین برای رفع مشکل پردازش داده های با ابعاد بسیار بالا است. بررسی و بکارگیری روش های کارآمدتر انتخاب ویژگی با هدف دستیابی به نتایج بهتر در انتخاب ویژگی، می تواند سبب بهبود و تسریع نتایج کارآیی الگوریتم های مرتبط با یادگیری ماشین شود. در این پژوهش یک روش شش مرحله ای برای بهبود انتخاب ویژگی بدین شرح پیشنهاد می شود. در گام اول، پیش پردازش، مجموعه داده از نظر مقادیر گم شده و تکراری، اصلاح می شود و سپس نرمال سازی می شود. همچنین یکبار امتیاز فیشر را برای همه ی ویژگی ها محاسبه می کنیم و تعداد n-Top ویژگی با بیشترین امتیاز فیشر را حفظ می کنیم و مابقی را حذف می کنیم. در گام دوم با استفاده از ضریب همبستگی پیرسون وابستگی بین رئوس محاسبه می گردد و گرافی وزن دار از ویژگی ها و مقدار وابستگی بین آن ها تشکیل و بازنمایی می گردد و به دلیل عملکرد بهتر الگوریتم خوشه بندی، یال های با مقادیر وزن کمتر از مقدار آستانه بهینه 0.5 از گراف حذف می شوند. در گام سوم برای بهبود ساختار گراف و بازیابی روابط محتمل به اشتباه حذف شده یا از قلم افتاده، با استفاده از الگوریتم های پیش گویی پیوند یال هایی را به گراف اضافه می کنیم. در گام چهارم، با استفاده از الگوریتم تشخیص جامعه لووین بدون ناظر به دلیل سادگی و سرعت اجرای بالا و شناسایی خودکار خوشه ها، جوامع را در گراف ایجاد شده می یابیم. در گام پنجم با استفاده از روش حفره های ساختاری که ارتباطات نهفته بین ویژگی ها را نیز لحاظ می کند، رأس های بحرانی و مرکزی تر در هر خوشه شناسایی می شود. در نهایت، در گام ششم، در یک فرآیند تکراری برای هر خوشه، براساس روش گام قبلی، اعضای خوشه رتبه بندی می شوند سپس بصورت نزولی مرتب شده و تعداد w ویژگی ابتدای لیست را انتخاب می کند. اگر تعداد ویژگی هر خوشه کمتر از w باشد آنگاه همه آن ها انتخاب می شوند. به عبارتی دیگر، تعداد w ویژگی در هر خوشه بعنوان نماینده خوشه حفظ کرده و سایر ویژگی ها از خوشه حذف می شوند. در پایان، همه ویژگی های باقی مانده در خوشه ها را به عنوان زیر مجموعه ویژگی های نهایی بهینه گزارش می کنیم. مقایسه نتایج با استفاده از چهار طبقه بند مشهور SVM، KNN، NB و DT حاکی از کارآیی و برتری روش پیشنهادی جدید در مقایسه با روش های اخیر به ویژه در مجموعه داده های با ابعاد بسیار بزرگ و با تعداد نمونه بیشتر است.
  33. انتخاب ویژگی چند برچسبه مبتنی بر اطلاعات متقابل و الگوریتم بهینه سازی کلونی مورچه
    2021
    طبقه بندی داده های چند برچسبه با مسائلی روبه رو است که در آن ها هر نمونه با تعدادی بیشتر از یک برچسب در ارتباط است. امروزه با توجه به پیشرفت رویکردهای دیجیتال، تعداد بسیار زیادی از کاربردهای دنیای واقعی برای داده های چند برچسبه با تعداد ابعاد بالا شکل گرفته اند که سبب کاهش کارایی طبقه بندی می شود. انتخاب ویژگی یک رویکرد موفق و شناخته شده برای کاهش ابعاد داده ها با نگه داشتن ویژگی های مفید و مرتبط و حذف ویژگی های نامربوط یا دارای شباهت به دیگر ویژگی ها است. بسیاری از روش های انتخاب ویژگی که ارائه شده اند از نوع روش های پوششی هستند که از یک طبقه بند چند برچسبه در حین عمل انتخاب ویژگی استفاده می کنند. برای حل این مشکلات، در این پایان نامه دو روش انتخاب ویژگی برای داده های چند برچسبه مبتنی بر اطلاعات متقابل و الگوریتم بهینه سازی کلونی مورچه ارائه شده است. روش پیشنهادی اول ابتدا فضای ویژگی ها را به یک گراف تبدیل می کند که وزن های این گراف بر اساس میزان شباهت ویژگی ها است. سپس الگوریتم بهینه سازی کلونی مورچه به منظور رتبه بندی ویژگی ها اعمال می شود. نوآوری ما در این روش ارائه یک تابع شایستگی جدید و مختص داده های چند برچسبه است که هر دو معیار بیشترین ارتباط با برچسب ها و کمترین میزان شباهت با سایر ویژگی ها را در هر انتخاب در نظر می گیرد و نیز از هیچ مدل یادگیری حین عمل انتخاب ویژگی استفاده نمی کند. روش پیشنهادی دوم بر اساس استراتژی جستجوی روش پیشنهادی اول ارائه شده است. در روش دوم، از رویکردی جدید در ساخت گراف ویژگی ها استفاده می کنیم که بر مبنای ارتباط ویژگی ها با مجموعه برچسب ها می باشد. سپس از یک رویکرد خوشه بندی گراف به منظور دسته بندی ویژگی های مشابه استفاده شده و در نهایت نیز از الگوریتم بهینه سازی کلونی مورچه به منظور رتبه بندی ویژگی ها استفاده می شود. عملکرد روش پیشنهادی اول و دوم را با شش روش جدید و شناخته شده انتخاب ویژگی داده های چند برچسبه بر روی مجموعه داده های چند برچسبه مختلف، مقایسه شده است. همچنین از معیار های ارزیابی متنوع طبقه بندی چند برچسبه و نیز انواع گوناگونی از آزمایش ها در این تحقیق استفاده شده است. نتایج به دست آمده، برتری روش های ارائه شده را در توانایی تشخیص و انتخاب ویژگی های مرتبط و مفید و در نتیجه دقت بالای این روش ها را نشان می دهند.
  34. روشی جدید برای تشخیص ناهنجاری یال بر اساس پیشگویی پیوند
    2020
    تشخیص ناهنجاری در داده ها یک کار بسیار مهم و حیاتی است و کاربرد های زیادی در حوزه های مختلف از جمله امنیت، سلامت، امور مالی، مراقبت های بهداشتی و اجرای قانون دارد. در سال های اخیر روش های زیادی برای تشخیص ناهنجاری یا داده های پرت در مجموعه های بدون ساختار داده های چند بعدی ارائه شده است که بعضی از این روش ها روی ساختار گراف متمرکز شده اند. در این پایان نامه بر روی تشخیص ناهنجاری یال در گراف کار شده و دو روش بر اساس پیشگویی پیوند منفی برای تشخیص ناهنجاری یال پیشنهاد شده است. روش اول برای گراف های بدون وزن و روش دوم برای گراف های وزن دار ارائه شده و بر اساس عملکرد این روش ها، یال های ناهنجار در گراف با الگوریتم پیشگویی پیوند منفی تشخیص داده شده است. در دو روش پیشنهادی، از چهار الگوریتم پیشگویی پیوند، شاخص جاکارد، پیوست امتیازدهی، همسایه های مشترک و آدمیک-آدر به صورت بدون نظارت و مجزا استفاده شده است. همچنین از چهار مجموعه داده استاندارد دلفین، جاز، ایمیل و ترینیتی برای گراف های بدون وزن و از چهار مجموعه داده لسمیس ، پادشاه جیمز ، شبکه علمی و نوجوان برای گراف های وزن دار استفاده شده است. به منظور ارزیابی و کارایی روش پیشنهادی اول، چند درصد از کل یال های گراف، یال ناهنجار به گراف ها اضافه شد و با استفاده از روش پیشنهادی و هشت الگوریتم دیگر سعی شده که یال های ناهنجار تشخیص و نتایج روش ها باهم مقایسه گردد. نتیاج با معیاری های صحت، دقت، فراخوانی و معیار F1 ارزیابی شده است. برای روش پیشنهادی دوم، سعی شده است که با حذف یال های ناهنجار جوامع بهتری به وجود بیاید و جهت ارزیابی دو الگوریتم برچسب گذاری نامتقارن و الگوریتم وزن دار بهینه سازی شده گروین- نیومن مورد استفاده قرار گرفته است. سپس برای تعیین بهبود جوامع از سه تابع کیفیت اجتماعات، ماژولاریتی، کارایی و کاوریج ، استفاده می شود البته نیاز به ابداع روشی برای پیشگویی پیوند منفی در گراف های وزن دار و همچنین روشی برای اضافه کردن یال های ناهنجار به گراف های بدون وزن نیز وجود داشت که انجام شد.
  35. به سوی یک معیار ارزیابی بهتر برای پیشگویی پیوند وزن دار
    2020
    پیشگویی پیوند تغییراتی که در آینده در یال های یک شبکه صورت می گیرد را پیش بینی می کند و یکی از موضوعات با اهمیت در علم شبکه محسوب می شود. پژوهش های بسیاری بر الگوریتم های پیشگویی پیوند در گراف های ساده متمرکز شده اند. با این وجود شبکه های بسیاری در دنیای واقعی با استفاده از گراف های وزن دار مدل می شوند. سنجش دقت پیشگویی پیوند، چه در شبکه های ساده و چه وزن دار، صرفاً معطوف به درستی پیشگویی وجود یال بوده است و بر اساس شناخت و بررسی پژوهشگران مرتبط با این پایان نامه، تاکنون وزن یال ها در پیشگویی پیوند وزن دار، در محاسبه دقت پیشگویی، در نظر گرفته نشده است. در این پایان نامه، روشی برای لحاظ نمودن امتیاز پیشگویی پیوند هر الگوریتم، در پیش بینی وزن همان پیوند ارائه می شود. طبق پژوهش این پایان نامه، روشی در پیشگویی پیوند وزن دار، برتر است که همزمان با پیشگویی وجود یا عدم وجود پیوند، وزن آن را نیز با بیشترین میزان دقت پیشگویی کند. برای تست این روش از الگوریتم های پیشگویی پیوند وزن دار پایه مبتنی بر همسایگی از قبیل همسایه های مشترک، ضریب جاکارد، الصاق ترجیحی، آدامیک-آدار و تخصیص منابع استفاده می شود. در عین حال از امتیاز محاسبه شده برای پیشگویی پیوند در هر کدام از الگوریتم ها، برای پیشگویی وزن آن نیز استفاده خواهد شد. بدین منظور برای همسان سازی امتیاز پیشگویی پیوند جهت استفاده در پیشگویی وزن، از روش های نرمال سازی نمایی منفی، لجستیک و خطی بهره برده می شود. دیتاست های مورد استفاده Lesmis، Celegans، Netscience و Airport هستند. از معیارهای AUC و Precision برای ارزیابی پیشگویی پیوند و از PCC و RMSE برای ارزیابی پیشگویی وزن، استفاده خواهد شد. با توجه به معیارهای ارزیابی، در اکثر دیتاست ها الگوریتم تخصیص منابع بهترین نتیجه را برای پیشگویی همزمان پیوند و وزن آن داشت. نرمال سازی خطی برای PCC و نرمال سازی لجستیک برای RMSE بهتر جواب داد. برای توسعه و افزایش دقت یافته های این پژوهش می توان از سایر الگوریتم های قابل استفاده در پیشگویی پیوند وزن دار مانند روش های مبتنی بر مسیر یا مبتنی بر یادگیری ماشین بهره برد. همچنین راهکارهای برای تطبیق وزن پیشگویی شده نرمال شده با توجه به شبکه مورد استفاده نیز ارائه کرد.
  36. غلبه بر محدودیت پیشگویی پیوند در شبکه های خلوت با کمک خوشه بندی
    2019
    پیشگویی پیوند سعی دارد تا پیوندهای گم شده یا پیوندهایی که ممکن است در آینده با توجه به ساختار شبکه یا ویژگی های گره به وجود بیاید را تشخیص دهد. پیشگویی پیوند در بسیاری از حوزه ها مانند شبکه های اجتماعی، آزمایشات زیستی، شبکه های جرم شناسی و غیره کاربرد دارد. روش های پایه از ساختار شبکه و ویژگی های مسیر و اطلاعات همسایگی برای پیشگویی استفاده کرده اند. روش های زیادی برای بهبود روش های پایه ارائه شده، اما یک چالش اساسی در همه این روش ها آن است که بسیاری از شبکه های موجود خلوت هستند و این سبب حجم زیادی از افزونگی در محاسبات، زمان پردازش بیشتر، حافظه ذخیره سازی بیشتر و نتایج ضعیف تر می شود. این پژوهش به ارائه روشی جدید و متمایز برای پیشگویی پیوند براساس خوشه بندی در شبکه های خلوت مقیاس بزرگ می پردازد. در روش پیشنهادی از خوشه بندی مانند کارهای گذشته فقط برای بهبود نتایج استفاده نشده است، بلکه علاوه بر آن، از خوشه بندی برای پرهیز از محاسبات اضافی نیز بهره گرفته است. در این پژوهش ابتدا به تشخیص خوشه ها در شبکه پرداخته می شود، سپس درون هرخوشه یافت شده عمل پیشگویی پیوند با استفاده از روش های مبتنی بر همسایگی (AA,CN,JC,PA,RA) انجام می شود. سپس برای استفاده از حداکثر ظرفیت شبکه، پیشگویی پیوند در بین خوشه های یافت شده، با لحاظ کردن موارد مهمی انجام می شود. برای ارزیابی روش پیشنهادی از دو معیار دقت و زمان محاسبات در این پژوهش استفاده شده است. نتایج بر روری مجموعه داده های مختلف نشان می دهد، علاوه بر اینکه از افزونگی از طریق حذف بسیاری از درایه هایی که از نظر محاسباتی قابل توجیه نیستند در محاسبات پرهیز شده است، دقت قابل قبولی نیز توسط روش پیشنهادی ارائه شده است و زمان اجرا نیز به طور چشمگیری کاهش داده شده است، همچنین در حافظه نیز صرفه جویی شده است. روش پیشنهادی برای اولین بار نسخه جدید روابط پروتئینی انسانی (HPRD) را پیشگویی نموده است. این روش خوش آتیه به نظر می رسد و می توان آن را از طریق دیگر روش های مبتنی بر مسیر و تلفیق آن با سایر روش های با ناظر و یادگیرنده بهبود داد.
  37. افزایش کارایی پیش واکشی صفحات وب در اینترنت با استفاده از رویکردهای پیش بینی
    2019
    امروزه انجام بسیاری از امور روزمره و درازمدت از قبیل خرید اینترنتی، تجارت الکترونیک، بانکداری الکترونیک ، آموزش الکترونیک و... به صورت آنلاین و آفلاین از طریق صفحات وب انجام می شود. با توجه به اینکه منابع وب و سرویس دهنده های آن ها محدود است لذا پاسخگویی به این حجم از نیازهای وبگرا باعث بروز تاخیرهای زیاد در دسترسی ستتی به خدمات و نیز کاهش کیفیت خدمات به کاربران می شود. لذا سرعت بارگذاری صفحات وب کاهش یافته و استفاده بهینه و مطلوب از منابع وب به عمل نمی آید. از دید کاربر تاخیر به وجود آمده یک موضوع بسیار مهم در بارگذاری صفحات می باشد که در سال های اخیر تلاش های بسیاری برای کاهش این تاخیر انجام گرفته است که یکی از روش های محبوب دراین زمینه پیش واکشی وب است. منظور از پیش واکشی وب، پیش بارگذاری صفحات وب است قبل ازآنکه توسط کاربر درخواست شوند. این صفحات از حافظه نهان برداشته و بارگذاری می شوند و بدین صورت سرعت بارگذاری افزایش می یابد. منظور از حافظه نهان وب یک مکانیسم برای ذخیره سازی موقت استتناد وب به منظور کاهش استفاده از پهنای باند، کاهش بار سرور و درنهایت کم شدن تاخیر بارگذاری است. به منظور رفع این تاخیر دسترسی کاربران با استفاده از پیش واکشی، از تکنیک هایی مانند زنجیره مارکوف، روش های داده کاوی و روش های مبتنی بر گراف استفاده شده است. تمرکز این پایان نامه بر استفاده از روش های پیش بینی به ویژه پیشبینی پیوند برای تحلیل و کاهش تاخیر دسترسی کاربران به صفحات وب ا ست. بدین منظور از دادههای بایگانی سرور ناسا استفاده شد. این داده ها با استفاده از یک روش ابداعی تبدیل به گراف میشوند. گره های این گراف، صفحات وب و یال های آن تعداد دفعات ورود به صفحه متناظر با گره مربوط به آن است. با توجه به اینکه قرار است صفحات وب بعدی کاربر حدس زده شود، پس نیاز است که یک سری از صفحات وبی که کاربر هنوز وارد آن نشده است به عنوان صفحات کاندید انتخاب شود. پس از آن توسط یک الگوریتم پیشنهادی وزن این صفحات محاسبه می شود. این صفحات کاندید سپس با استفاده از معیارهای AUC ،F-Score ،Recall ،Precision آن ها را مورد ارزیابی قرار داده می شود. نتایج نشان می دهد روشهای پیش بینی پیوند نتایج قابل مقایسه ای دارند و هرکدام در برخی شرایط و موارد برتری هایی نسبت به یکدیگر دارند.
  38. بهبود کارایی سیستم های اطلاعاتی مدیریت آموزش با استفاده از شیوه های پیش بینی
    2019
    ارتقای کیفیت فرآیندهای آموزشی، یکی از چالش های مهم در سال های اخیر بوده است که پیدایش و گسترش آموزش الکترونیکی در افزایش توجه به این حوزه نقش بسزایی داشته است. منظور از فرآیندهای آموزشی، تمام تعاملات میان دانشجو، درس، منبع درسی، استاد و مدیران آموزشی است. در میان این تعاملات، اخذ درس توسط دانشجو در فرآیند انتخاب واحد درسی، اخذ منابع درسی توسط دانشجو، پیشگیری از ترک تحصیل دانشجویان توسط اساتید و مدیران آموزشی، از اهمیت بالایی برخوردار است. به منظور رفع این چالش ها، تکنیک های داده کاوی، سامانه های توصیه گر، فرآیندهای تصمیم گیری مارکوف و روش های مبتنی بر گراف مورد استفاده قرار گرفتند. این تکنیک ها با تکیه بر مجموعه عظیمی از داده های ذخیره شده در سامانه های آموزشی، سعی در یافتن روابط غیرقابل مشاهده میان این مجموعه داده ها را دارند. ما در این پایان نامه برای اولین بار از الگوریتم های پیش بینی پیوند، به منظور بهبود فرآیندهای آموزشی در سامانه های آموزش الکترونیک استفاده می کنیم. هدف از این پژوهش، کشف الگوهای نهفته در فرآیند انتخاب دروس، انتخاب منابع درسی و ترک تحصیل یا انصراف از دروس توسط دانشجویان است. بدین منظور از سه مجموعه داده آموزشی Moodle، OULAD و MOOC استفاده می نماییم و روش پیشنهادی را به وسیله دو معیار Precision و AUC مورد ارزیابی قرار می دهیم. آزمایشات نشان می دهند که روش پیشنهادی، علاوه بر آنکه نتایج قابل مقایسه ای با الگوریتم های فیلترینگ مشارکتی مبتنی بر کاربر و آیتم سامانه های توصیه گر دارد، در بعضی موارد نسبت به آن ها برتری نیز دارد.