FitenBLAS:面向FT1000微处理器的高性能线性代数库

被引:1
|
作者
迟利华
刘杰
晏益慧
谢林川
甘新标
胡庆丰
蒋杰
李胜国
机构
[1] 国防科技大学并行与分布处理重点实验室
基金
国家高技术研究发展计划(863计划);
关键词
FT1000微处理器; BLAS库; 性能优化;
D O I
10.16339/j.cnki.hdxbzkb.2015.04.015
中图分类号
TP332 [运算器和控制器(CPU)];
学科分类号
摘要
BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%.
引用
收藏
页码:100 / 106
页数:7
相关论文
共 4 条
  • [1] High-performance implementation of the level-3 BLAS
    Goto, Kazushige
    Van De Geijn, Robert
    [J]. ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE, 2008, 35 (01): : 1 - 14
  • [2] Anatomy of high-performance matrix multiplication
    Goto, Kazushige
    Van De Geijn, Robert A.
    [J]. ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE, 2008, 34 (03):
  • [3] Automated empirical optimizations of software and the ATLAS project[J] . R. Clint Whaley,Antoine Petitet,Jack J. Dongarra.Parallel Computing . 2001 (1)
  • [4] ATLAS homepage. http://math-atlas.sourceforge.net .