Data Mining in Programs: Clustering Programs Based on Structure Metrics and Execution Values

被引：1

作者：

Wang, TianTian ^{[1
]}

Wang, KeChao ^{[2
]}

Su, XiaoHong ^{[1
]}

Liu, Lin ^{[2
]}

机构：

[1] Harbin Inst Technol, Sch Comp Sci & Technol, Harbin, Peoples R China

[2] Harbin Univ, Sch Informat Engn, Harbin, Peoples R China

来源：

INTERNATIONAL JOURNAL OF DATA WAREHOUSING AND MINING | 2020年 / 16卷 / 02期

基金：

中国国家自然科学基金;

关键词：

Clustering; Data Mining; Program Repair; Structural Metrics; Value Sequence;

D O I：

10.4018/IJDWM.2020040104

中图分类号：

TP31 [计算机软件];

学科分类号：

081202 ; 0835 ;

摘要：

Software exists in various control systems, such as security-critical systems and so on. Existing program clustering methods are limited in identifying functional equivalent programs with different syntactic representations. To solve this problem, firstly, a clustering method based on structured metric vectors was proposed to quickly identify structurally similar programs from a large number of existing programs. Next, a clustering method based on similar execution value sequences was proposed, to accurately identify the functional equivalent programs with code variations. This approach has been applied in automatic program repair, to identify sample programs from a large pool of template programs. The average purity value is 0.95576 and the average entropy is 0.15497. This means that the clustering partition is consistent with the expected partition.

引用

页码：48 / 63

页数：16

共 50 条

[1] Remote execution of data-parallel programs
Borowiec, J
INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED PROCESSING TECHNIQUES AND APPLICATIONS, VOLS I-IV, PROCEEDINGS, 1998, : 1272 - 1279
[2] Data-Centric Execution of Speculative Parallel Programs
Jeffrey, Mark C.
Subramanian, Suvinay
Abeydeera, Maleen
Emer, Joel
Sanchez, Daniel
2016 49TH ANNUAL IEEE/ACM INTERNATIONAL SYMPOSIUM ON MICROARCHITECTURE (MICRO), 2016,
[3] CONTROL AND DATA DRIVEN EXECUTION OF LOGIC PROGRAMS - A COMPARISON
KASIF, S
INTERNATIONAL JOURNAL OF PARALLEL PROGRAMMING, 1986, 15 (01) : 73 - 99
[4] INTEGRATION OF GEOPHYSICAL DATA INTO MINING EXPLORATION PROGRAMS
WRIGHT, PM
ECONOMIC GEOLOGY, 1975, 70 (01) : 253 - 253
[5] A Survey of Distance Metrics in Clustering Data Mining Techniques
Mercioni, Marina Adriana
Holban, Stefan
ICGSP '19 - PROCEEDINGS OF THE 2019 3RD INTERNATIONAL CONFERENCE ON GRAPHICS AND SIGNAL PROCESSING, 2019, : 44 - 47
[6] A PACKET BASED DEMAND DATA DRIVEN REDUCTION MODEL FOR THE PARALLEL EXECUTION OF LOGIC PROGRAMS
LEE, MKO
LECTURE NOTES IN COMPUTER SCIENCE, 1986, 237 : 214 - 221
[7] CLUSTERING IBM ENTERPRISE SYSTEM 3090 COMPUTERS FOR PARALLEL EXECUTION OF FORTRAN PROGRAMS
SCARBOROUGH, LJ
SCARBOROUGH, RG
WHITE, SW
IBM JOURNAL OF RESEARCH AND DEVELOPMENT, 1991, 35 (5-6) : 667 - 679
[8] A Data Structure Centric Method and Execution Model for Partitioning Sequential Programs into Multiple Speculative Threads
Du, Yanning
Zhao, Yinliang
Han, Bo
Li, Yuancheng
2012 IEEE 14TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS & 2012 IEEE 9TH INTERNATIONAL CONFERENCE ON EMBEDDED SOFTWARE AND SYSTEMS (HPCC-ICESS), 2012, : 556 - 563
[9] Clustering IBM enterprise system/3090 computers for parallel execution of FORTRAN programs
Scarborough, L.J., 1600, (35): : 5 - 6
[10] Improving granularity and locality of data in multiprocessor execution of functional programs
Maheshwari, P
PARALLEL COMPUTING, 1996, 22 (10) : 1359 - 1372

← 1 2 3 4 5 →