您所在的位置:首页 新闻报道

新闻报道

关于召开建设高性能计算平台研讨会的通知

 

各相关学院:          学校拟建设面向全校的高性能计算共享平台,更好地为科研与教学提供服务。由于此项建设规划是由能源学院提出,仅涉及了矿业工程学科相关软件的使用,考虑到土木、机电、信息、计算机(含网格实验室)、化工、建筑、数学、物理和商学院等都有相关需求,学科处将组织召开上述各学院及相关职能部门参加的研讨会,讨论并确定平台的性能、场地、人员配置、维护及管理等有关事项。请各相关学院认真审阅《高性能计算平台论证报告》,结合本单位实际情况,并就现有大型软件对该计算平台的要求提出完善计算平台的建议,并派熟悉本单位应用软件情况的人员参加研讨会。有关会议具体安排由学科处另行通知。                     附件:《高性能计算平台论证报告》                                                                                                        学科建设处                                                                              2012-03-02      


            

 

附件:高性能计算平台论证报告          

申购仪器设备情况介绍                                    高性能计算平台                                   曙光         TC5000A        
                           150         万元                                         曙光公司        
主要性能及技术指标:                         高性能计算平台技术性能总体要求是实现运算能力高于         3.68T Flops         、存储能力超过         12TB         量级以上的高性能计算平台。在充分考虑我院的总体需求、应用特点和项目预算的基础上,根据我们对高性能计算行业的理解,本项目基本技术性能描述如下:                         1         )采用混合式的集群(         Cluster         )架构,计算节点为刀片服务器。         CPU         数量         ×8                 ×CPU         每个时钟周期执行浮点运算的次数         ×         主频         ×         刀片数量得出的双精度浮点运算次数理论峰值必须高于         3.68T flops                                 2         )计算节点采用         64         位八核处理器,每刀片服务器处理器核数不少于         16         核。                         3         )每刀片服务器内存配置         ≥2GB/CPU         核心,配置         ≥500 GB         磁盘。                         4         )采用         FC         构建存储系统,配置         SAS         热插拔磁盘,存储能力超过         30TB                                 5         )平台应包括作业调度         (         不限节点数         )         、系统管理和监控软件。                         6         )采用         InfiniBand                 40Gb/s                 4×DDR         高速计算网络实现计算节点间全线速无阻塞通讯。                         7         )配置         1         个管理登录节点,         1                 I/O         节点。                         8         )机房的规划和设计,提供配套机柜及内部的连接线缆。                         9         )占地面积要求         ≤15平方米,并提供平台能耗的相关数据。                         10         )提供不少于         3         年的现场保修(含部件、人工和现场)服务,提供免费上门服务年限长的投标方更具竞争优势,相关服务需由原厂商认证工程师进行,提供原厂加盖公章的服务承诺。                         11         )全面支持         IPv6         及其应用。                         12         )应提供针对各专业应用领域的开源软件的技术支持,提供各专业应用软件的测试、安装,调优和咨询等服务,配合软件厂商安装各类并行计算程序并进行效率调优。                         下面是我院主要的专业软件清单:                         1         )材料类:材料力学性能加工过程有限元分析软件         ANSYS                 ABAQUS                                 2         )动力学分析软件:         DYNA                                 3         )机电类:控制系统辅助分析与设计软件         MATLAB         ,通用         CFD         软件包         Fluent         ,三维建模软件         PRO/E                 Solidworks                                 以上各软件对并行计算环境有要求,其中:                         必须能支持         MPI                 MPICH2         等主流         MPI                                 技术规格                         品目         1         :集群服务器计算节点系统                         刀片机箱:配置         19         英寸         标准刀片机箱,管理模块,散热模块,电源模块和电源分配单元(         PDU         ),足够安装本品目序号         1.2         的计算刀片,并留有扩展空间;提供多种电源配置方案,能实现         1         块或几块电源失效时,         全部设备不减性能继续工作。                         计算刀片:计算刀片采用         64         位八核处理器,每刀片处理器核数不少于         16         核,处理器主频         ≥2.4GHz         ,每处理器核配置         ≥2 GB DDR ECC Register         内存         ;         每刀片配置         ≥300 GB         磁盘         ;         千兆以太网端口         2         个;         40Gb InfiniBand 4×DDR         高速交换模块,配置硬件监控模块。支持与         OS         无关的系统监控与诊断,支持本地和远程         KVM                 Over IP         ),支持远程开关机及远程管理,可远程监控节点机硬件运行状态。所有节点采用相同的处理器架构。                         胖节点计算服务器:         胖节点为数量为两台。配置         64         位八核处理器,每个胖节点的处理器核数不少于         32         核,处理器主频         ≥2.4GHz         。每处理器核配置         ≥2 GB          内存,每个胖节点配置         3                 300 GB 10K rpm SAS         热插拔磁盘,千兆以太网端口         2         个,         40Gb InfiniBand         高速交换模块         1         块,配置冗余的电源、风扇模块。                         品目         2         :集群机柜系统                         标准机柜:配置         42U         标准机柜,双侧门,机架式一体化键盘         /         鼠标         /         显示器,鼠标键盘共享器,         17"         液晶         TFT         显示器。                         电源分配单元:机柜中配置集群系统设备所需的分时上电         PDU         (如         APC                 AP7953         或实质上相同的产品),         CAT5e         线缆,         16A         电源线等电源配件。         PDU         和电源配件数量能保证安装所有集群设备并留有冗余。                         品目         3                 I/O         节点系统                         I/O         节点:         I/O         节点数量为         1         台。采用         64         位八核处理器,每个节点处理器核数不少于         16         核,处理器主频         ≥2.4 GHz                 每处理器核配置         ≥2 GB DDR ECC Register         内存,每个节点配置         2                 ≥300 GB 15K rpm         热插拔磁盘         2         块,千兆以太网端口         2         个,         40Gb InfiniBand 4×DDR         高速交换模块。配置         DVD±RW                 I/O         节点配置         8Gbps HBA         卡,连接光纤存储。                         品目         4         :登录、管理系统                         管理、登录节点:管理,登录节点数量为         1         台。采用         64         位八核处理器,每个节点处理器核数不少于         16         核,处理器主频         ≥2.4 GHz         ,每处理器核配置         ≥2 GB DDR3 1333MHz ECC Register         内存,每个节点配置         2                 ≥300 GB 15K rpm         热插拔磁盘         2         块,千兆以太网端口         2         个。         40Gb InfiniBand         高速交换模块。配置         DVD-RW         ,远程控制接口,配置冗余的电源、风扇。                         品目         5         :网络系统                         IB         高速网络交换模块:端口数量         ≥16                 InfiniBand 40Gb 4×DDR         交换模块,         IB         数量满足高速计算网络的联接。高速计算网络管理软件支持         Web                 GUI         管理界面,支持         Linux/Windows         系统,支持远程设备管理、各部件状态监控、网络拓扑发现、日志记录、错误信息收集、性能监测、故障诊断功能,实现计算节点间全线速无阻塞通讯。                         千兆管理、监控网络:         24         端口千兆交换机,配置需满足联接系统各节点所需的千兆交换机以太网电口数量。全面基于标准的二层交换和三层路由,用于任务计算的分发、调度、管理和监控。                         IB         连接线缆:标准         InfiniBand         连接线缆,确保实现         40 Gbps         的数据传输速率,数量满足集群安装实际需求并留有适当备件以便更换。                         网络拓扑:提供所有节点的网络拓扑结构图,包括纸质和电子文档形式。                         品目         6         :存储系统                         6.1         磁盘阵列:磁盘阵列总的裸容量         ≥30TB         。光纤存储系统,采用         8Gb         全光纤通道,双         RAID         控制器,完全冗余结构保证无单点故障影响数据的有效性,支持在同一磁盘阵列中混用         146GB                 300GB                 400GB                 SAS         硬盘及         2TB SATA II         硬盘,可热插拔,可扩充。写         Cache         必须镜像,要求有         Cache         断电保护措施,支持         LUN         动态卷扩展,支持         LUN         的在线合并,支持         LUN         的在线迁移,应具有完全在线,无需停机的扩充能力,包括系统微码升级、系统处理能力的扩充、存储容量的扩充及         I/O         能力的扩充等。磁盘阵列应支持         Linux, AIX, Sun Solaris, HP-UX, Windows Server         等服务器厂家产品以及相应的         HA         软件系统。配备冗余电源、风扇。                         6.2         硬盘:单盘为         SAS         热插拔硬盘,数量满足存储能力超过         20TB         的系统需求。                         6.3         光纤线缆:         FC         多模光纤线缆,数量满足系统安装需求。                         品目         7         :控制和视频切换系统(         KVM                                 远程服务器监控管理:支持节点远程作业递交、管理、部署、维护和监控,支持         OVER IP         的管理方式,系统可扩展。                         KVM         :集成的键盘、视频和鼠标控制系统,实现在不同节点机间任意切换,连线简单、可扩展,支持远程控制。数量满足系统需求。                         品目         8         :集群管理和监控软件系统                         集群作业管理:基于         Web         浏览器的图形化管理界面,模块化设计,系统自动部署和备份,实现对整机计算资源、任务调度和用户的高效管理,可有效统计系统运行、用户机时使用情况,能根据用户占用集群的         CPU         时间生成计费报告。支持多种调度策略,保证大作业能够得到调度。支持交互式作业,支持多队列管理,各个队列可设置不同管理策略,根据用户作业的运行情况动态调整用户优先级。具有良好的稳定性和高可用性,系统发生故障后可自动恢复对作业系统中已运行、排队作业的管理,不能丢失作业。单一系统内支持异构环境,可统一管理刀片节点与胖节点,并可对多个机群系统提供统一的系统级管理。准确的系统记账功能,自动生成用户账单。能够对系统运行情况进行动态监视和分析,提供直观的、可视化的计算机资源(         CPU         利用率、内存使用情况、节点占用情况等)运行实时监控工具、并能够按日、按月提供系统资源(如         CPU         利用率等)使用报表等。支持网格计算,支持远程管理方式,具有可扩展性。支持多种硬、软件平台。                         集群监控管理:基于         Web         浏览器的图形化监控界面,实现         CPU         负载,内存用量,网络流量,         Cache         和硬盘用量等状态的监控。可以直观地提供各节点的系统负载、内存使用、网络流量、存储空间等各种系统资源信息,整合刀片机箱管理系统,可监控各刀片节点硬件状态的实时信息,可提供故障报警,支持多种操作系统。                         品目         9         :操作系统和开发环境                         操作系统:采用         Linux/Windows         操作系统,优先考虑开放源代码软件,例如         Linux                                 应用开发环境:         GNU         编译器(支持         C/C++ Fortran77/90         ),         DataDisplay Debugger                 GNU Debugger                 C                 C++                 Fortran                 ScaLAPACK                 API Performance Tool                 CodeAnalyst         系统性能分析工具。                         并行环境:         MPICH2                 OpenMPI         (支持         InfiniBand         和以太网的         MPI         环境),         Mvapich         (支持         InfiniBand                 MPI         环境),         MPICH/Lam-MPI         (支持千兆以太网的         MPI         环境),         PVM                                 数学库:         BLAS                 GOTO                 LAPACK                 FFTW                                 品目         10         :集群安装调试服务                         安装调试:符合安装规范,调试好整个并行环境,并行软件测试。                         高级服务:用户应用软件的安装测试及调优。                         电源系统:厂商应提供解决方案的能耗数据,配合符合系统要求的         UPS         系统安装。提供         UPS         连接示意图。                         技术文档:提供完整、详细的技术参考资料,纸质文档和电子文档各         1         份。产品到货时,提供完整、详细的计算机硬件及相关软件资料以及计算机设备清单,包括相关软件的存储介质。                         品目         11         :培训和售后服务                         培训:集群系统使用和管理培训,包括基础培训和高性能计算的专门培训。有针对性地提出一揽子免费的用户培训和知识拓展计划并加以实施。主要内容应包括:高性能计算集群系统的硬件组成、体系架构,操作系统安装、驱动加载和设置         Raid         ,服务器、存储系统状态检测和故障诊断,         Linux         操作系统使用与管理,集群操作系统的使用与管理,         IB         交换机的原理与使用,存储系统与高可用,集群作业调度系统,         Linux         环境下程序开发基础,并行计算与并行算法设计。                         售后服务:要求投标方提供不少于         3         年原厂商免费上门服务,免费上门服务年限长的投标方更具竞争优势,服务包括现场、人工和部件,相关服务须由原厂商认证工程师进行,要求投标方能够提供应用软件调试、应用软件维护的现场技术支持和现场软件升级服务。投标方须附承诺书。                         品目         12         :测试方案                         平台测试:提供全面的测试方案供学校审核。提供测试环境,配合学校对特定的其他有关应用项目进行测试。学校将根据实际情况提出其他具体的测试要求,厂商应予以配合。                         品目         13         :机房建设                         布线工程:要求提供室内综合布线设计方案。学院将根据实际情况提出机房建设具体要求。                         机房工程:隔断工程,地面工程设计方案。                         配电工程:提供合理、可靠性高的供配电系统设计方案,不间断电源设计方案。                         空调工程:机房环境要求,机房散热设计方案,空调设备的选型。                         防雷工程:提供完善的防雷设计方案。        
1、         选型论证(包括所选仪器设备的技术先进程度、质量可靠程度、维修的方便程度、经济合理性、以及生产厂家(经销商)的信誉)                         曙光         5000A         高性能计算机具有以下技术特点:                         单一系统映像:系统中所有分布的资源被组织成一个统一的整体由用户管理和使用,用户感受不到单个节点计算机的存在。从用户的角度看,一个集群系统就如同一个具有巨大配置的单一计算机系统。如果构成一个集群系统的每个节点配有         1                 CPU                 512MB         内存和         4GB         硬盘,则通过         SSI         ,由         10         个上述节点构成的集群系统呈现给用户的是一个配有         10                 CPU                 5GB         内存和         40GB         硬盘的计算机系统。         SSI         由几方面的内容构成,主要包括单一控制点(         Single Control Point         )、单一登录点(         Single Entry Point         )、单一文件系统(         Single File System         )、单一内存空间(         Single Memory Space         )和单一作业管理(         Single Job Management         ),此外还有单一用户界面(         Single User Interface         )、单一进程空间(         Single Process Space         )等。         SSI         是曙光         5000A         高性能计算机中的关键技术之一。                         混和平台的服务器聚集技术:曙光         5000A         服务器在多个层次上实现操作平台的混合支持,可以同时支持         Windows NT/2000                 LINUX         操作系统,用户既可以使用熟悉的         Windows         系统进行系统监控,也可以使用         UNIX         管理控制台,如         Telnet         远程管理等等。曙光         5000A         这种混合平台工作模式对于用户应用具有尤其重要的意义。对于需要多操作系统的用户,使用曙光         5000A         混合平台集群服务器的优势就可以得到充分体现。                         高性能并行计算平台:高性能计算技术在大规模计算任务和模拟技术上极具优势,它不但能够帮助我们对宏观或微观世界进行深入和全面的理解和探索,而且能够有效地帮助我们掌握客观世界的发展规律,正确决策。曙光         5000A         集群集成了         MPI/PVM         等国际通用的并行运算平台、搭建了         fortran                 C                 C++         编译环境,适用于         PGI         编译器、         intel         编译器。用户可以应用         vtune                 total view         以及         vmpair         等调试器对数学模型进行调优。                         分时上电、电源管理技术:独特的电源管理可以令用户安全上、下电。机器上电是集群应用中很小的一个环节,但是当用电器通电时,瞬间冲击电流可以达到正常工作电流的         3         倍之多,当大规模集群上电时所有节点同时接通电流,如果不对此时的峰值电流进行处理,将使当地电网内设备受到冲击,更甚者会使电网崩溃。人工单台设备分别上电还会占用管理员大量的人力和时间。同时在集群中有些设备之间的上电时有次序的,违反了上电次序可能会造成集群系统部不能够正常工作。为此,曙光         5000A         集群的采用了细化到节点的分时上电技术。根据集群内部节点的         ID         号码,间隔         50ms         依次上电,这样就避免了对电网的冲击,保证了设备的上电顺序。                         视频切换系统:随着         Cluster         规模的不断扩大,对于系统的可管理性也提出了越来越高的要求,很多管理无法通过网络实现,也无法通过串口来实现,这时,只有直接连接在节点上的键盘、鼠标、显示器才能实现最佳的管理方式。但在大规模的         Cluster         中,不可能为每个节点都配备一套键盘、鼠标、显示器,所以需要实现用一套键盘、鼠标、显示器实现对所有节点的控制,曙光大规模         KVM         系统正是为满足这一要求所设计。                         系统支持动态扩展:曙光         5000A         的集群式架构决定了其具有优异的动态扩展性。根据用户应用需要,可以选择扩展能力很强的通用节点,节点总数可扩展到         5120         个。尤其需要指出的是,         5000A         的动态伸缩性非常强。用户如果需要减少节点数目,可以随时指定节点与整个系统隔离;用户如果需要扩展节点,只需稍微变更配置文件即可完成。系统更可以支持扩展不同操作系统和硬件平台的节点,全方位满足用户未来应用扩充的需求。        
2         、购置理由(包括所选仪器设备的主要工作任务的必要性、紧迫性及工作量等)                         我院现有三百多万的软件,但我院现有的电脑运算性能较差,严重影响相关科研工作,主要体现在几个方面:                         第一,我院的矿业工程学科科研工作常涉及到流体力学和动力学的方面的数值分析,我院现有设备对于此类简单的问题分析效率很低,短则需要数小时,多则需要分析多天;对于复杂的此类问题更是无法分析。                         第二,我院的矿业工程学科科研工作常涉及到的岩石力学数值分析,我院现有设备只能分析单元数目较少的模型,由此导致分析结果的精度较低,只有建立单元数目较多的相对更精确的模型才可得到更接近真实的结果,但现有设备根本无法进行分析单元数目较多的模型。                         第三,当前的软件都是有加密狗的,只能供一个人使用,如果软件的运行效率较低,将使我院几百万的软件的作用得不到充分发挥,无法满足相关科研工作的需求。                         第四,此次所报的高性能计算平台是一个支持并行计算的高性能计算系统,该系统具有几十个节点,且这些节点可以在系统的统一管理下对该系统所有资源进行统一管理和分配使用。该系统运行过程,可以同时运行多个软件,且每个软件对资源的需求都可以由系统自动调整,由此保证在高性能计算系统中各个数值分析软件性能都最大程度的发挥出来。                         第五,我院现有的软件如岩石力学分析软件         RFPA         、流体力学分析软件         FLUENT         和颗粒流分析软件         PFC         ,以及动力学分析软件         LS                 DYNA         均支持并行计算,而这些软件能够分析的问题均是相关学科的前沿研究问题,如果能在高性计算平台运行这些软件,将使这些软件的运行效率得到大幅度提升,对相关科研工作的开展也将有很大的推动作用。                         第六,根据调研,具有与我校矿业工程学科相同计算软件的学校均已购置该系统:                         中南大学,峰值计算速度有         23Tflops         (万亿次);                         河南理工大学,峰值计算速度有         3Tflops         (万亿次);                         昆明理工大学,峰值计算速度为每秒         3840         亿次浮点运算。                         第七,该高性能计算系统是曙光公司最新开发的,其性能先进,并且伴随这一平台的推出,曙光公司提出的相关标准将作为全球的一个行业标准,由此该平台具有非常好的扩展性和兼容性,系统可以轻松进行扩容提升性能,该设备不会被快速淘汰。                         该平台的购置,充分发挥我院先有软件的效果,可以提高相关科研工作的效率,促进学科的发展提供更好的支持。        
3         、运行条件论证(包括仪器所需要场地、环境、辅助设施,以及技术管理一般管理人员等)                         该系统可以布置在煤矿安全开采技术湖南省重点实验室,对机房建设的要求:                         1         )布线工程:要求提供室内综合布线设计方案。学院将根据实际情况提出机房建设具体要求。                         2         )机房         工程:隔断工程,地面工程设计方案。                         3         )配电工程:提供合理、可靠性高的供配电系统设计方案,不间断电源设计方案。                         4         )空调工程:机房环境要求,机房散热设计方案,空调设备的选型。                         5         )防雷工程:提供完善的防雷设计方案。        
4         、资金来源论证(包括购置及运行消耗、维修改造费用的数额、来源等)                         购置费由学校自筹资金开支;                         运行费由教学低耗费及科研费开支;                         维修费由试验设备维护费开支;                         安装调试费由厂家负责开支。        
5         、学校相同仪器设备现有情况                         学校没有相同系统。