مجله مهندسی برقنشگاه دا تبریز، جلد48 ، شماره3 ، یز پای1397 اپی شماره پی85 Tabriz Journal of Electrical Engineering, vol. 48, no. 3, autumn 2018 Serial no. 85 ال مدل اعم هایگرسیون ر برجموعه زیرم برایستگی باا همب های ب هبود بدیه عدفتادا مقادیر جاگذاری جای ام ی رمسعود سف ی د ی ان 1 ، سی ارشد؛ کارشنا نگ ی ن دانشپور 2 ستادیار ، ا 1 - مهندسانشکده د ی کامپ ی وتر- نشگاه ترب دا ی ت دب ی ر ش ه ی د رجای ی- تهران- ا ی ران- amirmasoud.sefidian@sru.ac.ir 2 - مهندسانشکده د ی کامپ ی وتر- نشگاه ترب دا ی ت دب ی ر ش ه ی د رجای ی- تهران- ا ی ران- ndaneshpour@sru.ac.ir چ کی ده: حضور مقاد ی رفتادها جا در داده واقعیای دنی هایر رایج و بسیا مشکلی غ ی رقابلجتناب ا است.کتشافت از عملیا پیش ا تازم استبراین بنا فتادهاین مقادیر جا دانش، ا به طورر شوند.یق پ دق در ا ی ن مقاله ، سه رو ی کرد جدید برا ی تخم ی ن مقاد ی رده عدفتادا جا ی پیشنهاد می شود. در تام م ی روش ها یی، مدل پیشنهاد هایجموعهون بر زیرمگرسی رعمال استگی باا همبی ب های م ی شوند. جموعهنتخاب زیرم در ا مطلوب سعی می های شود تا اکثر شود.یگر صفات حدفتاده و دا بین صفت جا همبستگیجموعهب این زیرمنتخا ا ها باستفاده ا از رو ی کردهای ی مبتن ینتخاب بر ا روبه جل ونجام ا م ی شود. برای اندازه همبستگی ضریبز معیار ااط بین صفات میزان ارتبری گیستفاده ا شده است. همچن ی ن در روششنهادی پی های، یب صفات ترتفتادها جا لویتگذاری او عمل جاینجام برای ا دهی می شوند. عملکرد رو ی کردها ی پ یشده شنهاد رو بر ی پنججموعه م داده از دن ی ا ی واقع ی با مقادیر مختلف فتادگیا جا ارز ی اب ی شده است. د رو عملکر ی کردها ی ارائه شده با پنج رو ی کرد جا ی گذار ی مقدار م با ی انگ ی ن، جا ی گذار ی نزدیکده ازستفا ا با ترین همس ا ی گان، روشگذاری جای با خوشه بند یc-means فازی، روشگذاری جاییم تصم با درخت و روش ی مبتن یگرس ر بر ی ون به نام« الگور ی تم جا ی گذار یگرس با ر ی ون افزا ی ش ی صفات( » IARI ) مقا ی سه شده است. از دو مع ی ار شناخته شده ی ر ی شه م ی انگ ی ن مربعات خطاب تعیین و ضری برا یکردهاید رویقایسه عملکر م شنهادی پی روش با دیگر ها یگذاری جایستفاده ا شده. نتا است ی ج آزما ی ش هاشان ن میهد د که رو ی کردها ی ارائه شدهفتادگیارصد جا ، حتی زمانی که د است، با بهتر از د ی گر روش های مقا ی سه شده عمل م ی کنند. واژه ها ی ک ل ی د ی: گذاری جایفتاده،ا مقادیر جاگرسیون همبستگی، ر. Applying Regression Models on Subsets with High Correlations for a Better Numeric Missing Values Imputation Amir Masoud Sefidian 1 , MSc; Negin Daneshpour 2 , Assitant Professor 1- Faculty of Computer Engineering, Shahid Rajaee Teacher Training University, Tehran, Iran, Email: amirmasoud.sefidian@sru.ac.ir 2- Faculty of Computer Engineering, Shahid Rajaee Teacher Training University, Tehran, Iran, Email: ndaneshpour@sru.ac.ir Abstract: The presence of missing values in the real world data is a very prevalent and inevitable problem. So, it’s necessary to fill up these missing values accurately, before they are used for knowledge discovery process. This paper proposes three novel methods to fill numeric missing values. All of the proposed methods apply regression models on subsets of data which there are strong correlations among them. These subsets are selected using forward selection based approaches. In the selection of the desired subsets, it is tried to maximize the correlation between missing attribute and other attributes. The correlation coefficient is used to measure the relationships between attributes. The priority of each missing attribute for imputation purpose is also considered in the proposed methods. The performance of proposed methods is evaluated on five real world datasets with different missing ratios. The efficiency of the proposed methods is compared with five different estimation methods, namely, the mean imputation, the k nearest neighbours imputation, a fuzzy c-means based imputation, a decision tree based imputation, and a regression based imputation algorithm, called “Incremental Attribute Regression Imputation” (IARI) method. Two well-known evaluation criteria, namely, Root Mean Squared Error (RMSE) and Coefficient of Determination (CoD) are used to compare the performance of proposed methods with other imputation methods. Experimental results show that the proposed methods perform better than other compared methods, even when the missing ratio is high. Keywords: Missing values imputation, Correlation, Regression. رسالریخ ا تا مقاله:08 / 05 / 1396 ح مقاله:ریخ اص تا06 / 08 / 1396 یخ پذیرش مقاله: تار20 / 09 / 1396 دانشپورگینده مسئول: نویسن نام ن ده مسئول: ایرانویسن نشانی ن- تهران- لویزان- ید رجایربیت دبیر شهینشگاه ت دا- کامپیوتر. مهندسیانشکده د