今天是:
网站首页  |  公司简介  |  产品与营销  |  解决方案  |  新闻动态  |  在线留言  |  联系我们
网站首页 >> 解决方案
 
超算在云计算网络中的部署方案
日期:[2012-5-30 17:43:15]   共阅[2200]次

1 超级计算中心概述

    20世纪后半期,全世界范围掀起第三次产业革命的浪潮,人类开始迈入后工业社会——信息社会。在信息经济时代,其先进生产力及科技发展的标志就是计算技术。时至今日,计算科学,尤其是以超级计算机(或高性能计算机)为基础的计算科学已经与理论研究、实验科学相并列,成为现代科学的三大支柱之一。

现代超级计算基于先进的集群技术构建,就是我们常说的网格计算技术(Grid Computing)。

网格计算是伴随着互联网而迅速发展起来的,专门针对复杂科学计算的新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。实际上,网格计算是分布式计算(Distributed Computing)的一种。

超级计算在一个国家的发展中,特别是一些尖端科技的发展中,发挥着不可替代的使用。生物科技,石油勘探,气象预报,国防技术,工业设计,城市规划等经济、社会发展的关键领域都离不开超级计算。各个国家,尤其是经济、科技水平比较发达的国家,都把促进超级计算的发展作为重要的规划内容。

超级计算中心(超算中心)是指基于超级计算机系统对外提供计算资源、存储资源以及技术咨询等服务的机构或单位。

2 超级计算与云计算

2.1 云计算的概念

云计算是一种将全球范畴、高度可扩展与灵活的服务通过互联网进行发布与消费,采取按需求和实际使用付费的商业模式。云计算代表着全新的价值:它可以让企业获得高度可扩展和灵活的互联网服务;SaaS的廋客户端应用减轻了软件采购、维护成本。所有的功能都以服务的方式提供给用户。

2.2 超级计算与云计算的关系

云计算是从网格计算演化来的,能够随需应变地提供资源。网格计算可以在云中,也可能不在,这取决于什么样的用户在使用它。如果用户是系统管理员和集成商,他们就会关心如何维护云。他们升级、安装和虚拟化服务器与应用程序。如果用户是消费者,就不必关心系统是如何运行的。

网格计算要求软件的使用可以分为多个部分,将程序的片段作为大的系统映像传递给几千个计算机中。网格的一个问题是如果某个节点上的软件片段失效,可能会影响到其他节点上的软件片段。如果这个片段在其他节点上可以使用故障转移组件,那么就可以缓解问题,但是如果软件片段依赖其他软件片段完成一项或多项网格计算任务,那么问题仍然得不到解决。大型系统镜像以及用于操作和维护的相关硬件可能造成很高的资本和运营支出。

2.3 超级计算与云计算的相同点

从定义上来说,网格计算和云计算都试图将各种IT资源看成一个虚拟的资源池,然后向外提供相应的服务。云计算试图让“用户透明地使用资源”,而网格计算当初的口号就是让“使用IT资源像使用水电一样简单”。

云计算是一种宽泛的概念,它允许用户通过互联网访问各种基于IT资源的服务,这种服务允许用户无需了解底层IT基础设施架构就能够享受到作为服务的“IT相关资源”。而网格的内涵包括两个方面,一个方面是所谓的效用计算或者随需计算,在这一点上面,网格计算跟云计算是非常相似的,都是通过一个资源池或者分布式的计算资源来提供在线的计算或者存储等服务;另外一个方面就是所谓的“虚拟超级计算机”,以松耦合的方式将大量的计算资源连接在一起提供单个计算资源所无法完成的超级计算能力,这也是狭义上的网格计算跟云计算概念上最大的差别。

云计算和网格计算都是可伸缩的。可伸缩性是通过独立运行在通过Web 服务连接的各种操作系统上的应用程序实例的负载平衡实现的。CPU 和网络带宽根据需要分配和回收。系统存储能力根据特定时间的用户数量、实例的数量和传输的数据量进行调整。

两种计算类型都涉及到多承租(multitenancy)和多任务,即很多用户可以执行不同的任务,访问一个或多个应用程序实例。通过大型的用户池共享资源来降低基础设施成本,提高峰值负荷能力。云计算和网格计算都提供了服务水平协议(SLA)以保证可用性,比如99%。如果服务达不到承诺的正常运行时间,消费者将由于数据延迟而得到服务补偿。

2.4 超级计算与云计算的不同点

可以看出,网格计算和云计算有相似之处,特别是计算的并行与合作的特点;但他们的区别也是明显的。主要有以下几点:

首先,网格计算的思路是聚合分布资源,支持虚拟组织,提供高层次的服务,例如分布协同科学研究等。而云计算的资源相对集中,主要以数据中心的形式提供底层资源的使用,并不强调虚拟组织(VO)的概念。

其次,网格计算用聚合资源来支持挑战性的应用,这是初衷,因为高性能计算的资源不够用,要把分散的资源聚合起来;到了2004年以后,逐渐强调适应普遍的信息化应用,特别在中国,做的网格跟国外不太一样,就是强调支持信息化的应用。但云计算从一开始就支持广泛企业计算、Web应用,普适性更强。

第三,在对待异构性方面,二者理念上有所不同。网格计算用中间件屏蔽异构系统,力图使用户面向同样的环境,把困难留在中间件,让中间件完成任务。而云计算实际上承认异构,用镜像执行,或者提供服务的机制来解决异构性的问题。当然不同的云计算系统还不太一样,像Google一般用比较专用的自己的内部的平台来支持。

第四,网格计算用执行作业形式使用,在一个阶段内完成作用产生数据。而云计算支持持久服务,用户可以利用云计算作为其部分IT基础设施,实现业务的托管和外包。

第五,网格计算更多地面向科研应用,商业模型不清晰。而云计算从诞生开始就是针对企业商业应用,商业模型比较清晰。

总之,云计算是以相对集中的资源,运行分散的应用(大量分散的应用在若干大的中心执行);而网格计算则是聚合分散的资源,支持大型集中式应用(一个大的应用分到多处执行)。但从根本上来说,从应对Internet的应用的特征特点来说,他们是一致的,为了完成在Internet情况下支持应用,解决异构性、资源共享等等问题。

3 超级计算的分类

随着超级计算的不断发展,逐渐出现了新的应用。这些新的应用丰富了传统的网格计算的种类,同时也给网格计算带来的新的问题。

从网络的角度出发,将超级计算分为三大类:

n         并行信息处理

n         分布式I/O处理

n         并行文件处理

3.1 并行信息处理

并行信息处理指的是应用在所有计算节点并行执行,主节点管理各计算节点输入处理,节点之间高速信息交互,通过等-停机制保证信息交互视需的正确性。通常是定制的计算环境,追求最高计算性能。

这一类应用就是通常所说的科学计算,包括:气候模型,材料科学,生物系统模型,核模拟和人工智能等等。

这类应用的共同特点是对信息交互时延极敏感。对网络的要求就是高带宽、低时延(Top500高端计算应用IPC时延<10us)。

3.2 分布式I/O处理

分布式I/O处理指的是客户请求通过主节点发送到所有计算节点进行并行处理,各节点结果直接返回主节点,由主节点响应给客户端,时延要求不苛刻,但是所有计算节点以最快速度响应主节点,使得主节点网络位置短时会产生较大突发流量。

这类计算的典型应用就是网站搜索引擎。信息显示:Google 每天需要提供1.5 亿次查询服务,平均每毫秒发生1.736次查询。举例来说,搜索“高性能计算”,得到3,250,000结果,用时0.20秒(第二次再搜0.05秒)

这类应用的共同特点是对网络丢包敏感。对网络的要求就是高带宽、不丢包。对设备带宽、包缓存大小及分配方式有要求,与应用的具体规模(服务器数量等)相关。

3.3 并行文件处理

并行文件处理指的是将庞大的源数据文件通过主节点分割成多个小文件后,分发到各计算节点并行处理,处理完毕后返回主节点进行文件组装。

这类计算的典型应用就是动漫渲染和影视动画制作。将影视文件有机分割,分发到集群内相应服务器进行渲染等工作,各部分完成后组合成新的文件。

这类应用的特点是节点之间信息交互少,但都是以大文件的形式完成。网络流量很大,且存在很强的并发性。对网络的要求是高带宽互联。

4 H3C超级计算中心网络安全解决方案

4.1 超级计算在云计算中的部署方案

超级计算可以作为云计算的一种业务对internet用户提供便捷的服务。从这个角度来看,超算中心可以作为云计算数据中心的一个部分。但是超级计算与云计算还是很大区别的,因此需要看作是一个特殊的云计算服务。这种特殊性对于网络和安全方面的需求表现在:

超级计算是一种“聚合”业务,是一种特殊的服务器集群应用。这种应用要求服务器自成系统,具体表现在:

n         集群系统不能出现异构现象。

n         集群内部的通信服务质量要求非常高,因此不能与其他业务共享业务通道。

n         集群系统的安全级别很高,从接入区开始一直到超算区,要求与其他系统保持物理或是逻辑隔离。

n         集群节点的计算性能要求较高,一般不会出现虚拟机。因此,集群内部的通信流量并不是很大。

综合各种需求,H3C提出融合超级计算中心和云计算数据中心的网络解决方案。将超级计算服务作为云计算的一个独立的区;保证超级计算端到端的安全隔离;在超级计算区内实现统一交换架构。

在该组网方案中,重点强调性能、安全、可靠和易用性设计。

4.2 超级计算组网方案的高性能设计

传统的超级计算网络通常会用Infiniband进行组网,而不是用以太组网。原因是Infiniband本身就是为超级计算量身订制的,具有高带宽、低时延转发的特点(通常可以低于10us,甚至达到纳秒级)。

尽管HPC TOP500集群中,采用千兆以太网的是采用InfiniBand集群的两倍。但事实上在绝大多数商业环境中,千兆以太网高性能计算集群的规模远不够大。随着万兆以太网成本逐渐降低,高性能集群升级到万兆以太网将会有效的降低整体成本。

以太网的发展速度非常快。从1983IEEE建立了10Mbps以太网标准。之后快速以太网(100 Mbps )、千兆以太网、万兆以太网,40GE100GE标准即将推出。目前关于Tb级以太网的讨论已经开始了。尽管以太网发展迅速,但基本的以太网帧格式和运行原理本质上仍维持不变。

万兆以太网传输数据速度比千兆以太网快十倍。新一代万兆以太网网卡可以减少服务器之间延迟约八倍。由带宽增加和延迟缩小获得的更高的应用性能比想象的还要好,而且几乎与InfiniBand速度不相上下。

根据最新的Spirent测试报告,H3C的数据中心级交换机S12500的万兆端口转发时延6~14us。盒式万兆交换机的转发时延更低。

除了转发时延有了大幅度降低之外,H3C的数据中心级交换机还能够提供超高密度的万兆接入端口。S12518最大可以支持576个万兆端口,可以实现大量计算节点的高密度接入,有效的降低成本。

另外,万兆以太网每Gb的功耗比千兆以太网的要低,这使得用户可获得10倍的带宽,而能耗需求却远低于原来。

4.3 超级计算组网方案的高安全设计

H3C超算中心安全解决方案的技术特色可用:安全分区规划以及端到端的安全部署来概括。

在超算中心网络中存在不同业务种类和易受攻击程度不同的设备,按照这些业务种类和设备的情况制定不同的安全策略和信任模型,将超算网络划分为不同区域。区域之间实现逻辑隔离,重点保证高性能计算区域(HPC)的数据安全和流量服务。

端到端的安全部署强调对于不同级别、不同业务的用户,从接入到超算中心开始一直到最终的服务器,都能一直保持逻辑隔离的状态。通过端到端的安全隔离进一步加强超算中心核心业务的数据中心安全性和服务质量。

4.4 超级计算组网方案的高可靠设计

通过第二代智能弹性架构IRF II技术,可以有效地将超算业务的网络可靠性提高一个级数。极大的保证了用户业务的连续性,提高客户对于超算业务的信心。同时,使超算中心网络的性能以倍数级别灵活扩展,增强可靠性增强,简化配置,降低投入和维护成本。

IRF II可实现分布式设备管理、分布式路由和跨设备链路聚合,部署IRF II除了提高超算中心网络的可用性,减少单点故障影响,还可以:

Ø         分布式处理二三层协议,极大提高网络性能。

Ø         每组当成一个逻辑Fabric,配置管理更高效。

Ø         交换集群内设备软件版本同步升级,升级容易。

Ø         整个交换集群的设备支持热插拔,灵活管理。

Ø         交换集群实现倍数级的接入密度和背板交换能力,并提高组网的可靠性。

Ø         对高端设备而言,可将多台设备当成一台设备进行管理,实现性能倍增,简化组网。

部署IRF II后,无需再考虑MSTPVRRP等协议,解决了传统设备和链路只能工作在主/备模式和利用率低于50%的性能瓶颈。

4.5 超级计算组网方案的易用性设计

传统的超算中心网络结构异构复杂,接口不统一:前端网和管理网采用以太网;存储网采用FC;计算网用Infiniband。超算中心通信网络复杂异构、接口不统一,导致超算中心运行时协议转换开销大、速率不匹配、存在性能瓶颈、开发与部署周期长、无法满足业务快速灵活部署和性能的需求。

超算中心一体化网络通过CEE(增强以太网)和标准IP协议融合前端、计算、存储和管理四张网络,消除网络技术割裂所来的种种弊端。

   相关文章
H3C交换机的使用 [08/01]
H3C路由器登陆方法 [06/12]
典型行业安全解决方案 [01/30]
个人H3C防火墙选择建议 [03/25]
H3C路由器的两种路由协议简介 [08/09]
深信服产品销售渐入佳绩 [02/27]
山东广鹏信息科技有限公司 网站地图
您是本站第位访客