|簡體中文

比思論壇

 找回密碼
 按這成為會員
搜索



查看: 402|回復: 0
打印 上一主題 下一主題

让超算有弹性

[複製鏈接]

3396

主題

1

好友

1萬

積分

教授

Rank: 8Rank: 8

  • TA的每日心情
    奮斗
    2024-5-26 10:37
  • 簽到天數: 451 天

    [LV.9]以壇為家II

    推廣值
    0
    貢獻值
    25
    金錢
    12
    威望
    16771
    主題
    3396
    樓主
    發表於 2022-5-1 13:07:39
    阿斯顿马丁·红牛车队是世界一级方程式锦标赛(F1赛车)颁奖台上的常客。这背后的秘诀,除了红牛车队拥有性能优异的赛车和技艺娴熟的车手之外,他们还有一招“高科技”。

    在每次比赛之前,红牛车队都会动用超级计算机根据赛道及比赛环境做数字模拟,这包括但不限于使用虚拟风洞来优化赛车的空气动力学模型、模拟电源散热效率以让赛车发挥出最大功率、模拟赛车撞击来优化车身结构以及让赛车符合比赛的安全规定等等。总之,借助超级计算机,红牛车队会利用一周的时间完成这一系列针对性的模拟和优化,以保证他们在每一场比赛都有备而来。

    这是高性能计算机(HPC,也称超算)有着广泛用途的一个例证,各行各业都有机会通过超算挖掘潜力。然而麻烦在于,并非所有希望用上超算的人或团队都有红牛车队那样雄厚的背景,有机会搭建一套完全属于自己超算平台。事实上,怎么用上“高大上”的超算,长期以来都是困扰供需两方的一大难题。

    尤其是,HPC当前还面临着与大数据和人工智能应用融合的新场景。

    传统超算应用的痛点

    事实上,各大超算中心不可谓不开放。以广州超算为例,部署于此的“天河二号”超级计算机作为大湾区顶尖的超算平台,是粤港澳高校院所眼里的香饽饽。为了提高其资源共享能力,2018年广州超算还联合9家粤港澳高校成立“粤港澳超算联盟”,推动超算资源共享。

    青云QingCloud云平台&服务部高级总监陈海泉观察后认为,这类大型超算的使用方式有两个潜在的痛点:不方便和不安全。

    传统的超算中心用户在申请使用超算平台时,首先要提交申请,并等待人工审批;当审批得到通过后,用户需要自行安装VPN客户端以连接超算中心提供的登录节点。

    而要说明的是,一些大型超算中心的登录节点往往是多用户共享的。陈海泉说,共享登录节点有两个问题,一是超算中心为了保证其自身安全,不提供用户根用户权限(即root权限),这会给用户安装应用软件带来一些麻烦——比如用户如需要安装系统软件,需要到超算中心实地现场指导运维人员安装;二是Linux系统漏洞不可避免,如果漏洞被个别用户利用得到root权限,就能窃取平台上其他用户的数据。

    猛增的大数据和人工智能业务,也对传统超算提出着新的挑战。

    陈海泉认为,大数据应用自带两大需求:存储容量大、存储要求多(数据类型多样),单一超算资源难以同时满足用户“既要计算性能、又要存储容量、还要价格便宜”的诉求;而许多人工智能业务则需要充足的GPU资源,以及匹配的软件框架(如TensorFlow等),这对于以Slurm调度器为主的超算中心而言也意味着很大的挑战。

    镇痛药方:弹性高性能计算

    洞察到这些痛点,从事企业级云计算服务的青云QingCloud于11月23日宣布入局高性能计算,希望通过云平台的加持,解决超算应用中的挑战。

    青云用“云平台+超算”开出的“药方”,是弹性高性能计算(EHPC)。

    弹性,顾名思义,是希望提供的超算资源灵活可伸缩。如何做到弹性?青云的做法是,依托超算中心构建算力池,用公有云服务的方式,提供用户所需的算力及扩展。简而言之,青云EHPC对超算中心提供运营服务,对超算用户提供超算应用入口。

    换句话说,青云在超算与用户之间扮演了一个类似房屋中介的角色。

    陈海泉认为,基于上述超算应用的痛点,青云这个“中介”能够发挥独特作用。比如,在虚拟化技术加持下,QingCloud EHPC平台提供用户独立(相互隔离的)计算、网络、存储空间,用户拥有独享的登录节点,同时借助虚拟化技术还可快速为不同业务构建其所需的运行环境,并可随时在不同软件平台切换,充分利用超算中心的硬件资源满足各类业务需求。

    拥有独享登录节点并不是EHPC的全部,毕竟独享登录节点和独享HPC集群还有所区别。据QingCloud EHPC产品经理苗慧介绍,青云还可为用户提供独享的EHPC集群。

    在独享EHPC集群下,用户可以拥有一个根用户账号(root账号),这使得用户不仅能够自由安装所需系统软件,还可以自由搭配所需的计算、存储、网络等硬件,以满足特定业务场景。当然,这种模式下也不必排队等待,可以像红牛车队那样自由地享用超算便利。

    不排队不浪费的算力网络

    在为传统超算应用中存在的痛点开出药方的同时,也考验着青云QingCloud这样的“中介”的技术能力。他们一头连着超算,一头连着各行各业的用户,需要不仅摸得清超算的“脾气”,还要对不同专业有所洞察:他们用什么软件、该如何调试运行脚本、出现问题该怎么应对等等。因此,这是一个技术含量高、综合能力强的“中介”角色。

    青云是一家有着公有云服务基因的技术公司,他们在与用户的交互中也有机会锻造一批交叉技术人才。苗慧也表示,青云有专门的EHPC技术支持队伍,现在规模有数十人,他们主要面对非计算机专业用户的应用问题。当然,作为必备,QingCloud EHPC还有丰富的应用软件,涵盖分子生物学、新材料、新能源、大气海洋环境、地球物理等领域,这些软件通过共享软件目录的形式,供用户调用。

    目前,青云已经与某国家级超算中心等超算平台展开合作,通过将超算中心接入分布式云节点的方式,让超算平台实现开放共享。

    陈海泉表示,青云可以为超算中心做私有化超算云平台部署,也希望跟超算中心合作共建算力共享的算力网络,以此实现为用户提供不排队的超算资源、为超算平台减少资源浪费的愿景,真正让“突发业务显得超算资源不够用、业务量少时造成超算空置浪费”的痛点成为过去式。
    重要聲明:本論壇是以即時上載留言的方式運作,比思論壇對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,讀者及用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,讀者及用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。 由於本論壇受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者及用戶發現有留言出現問題,請聯絡我們比思論壇有權刪除任何留言及拒絕任何人士上載留言 (刪除前或不會作事先警告及通知 ),同時亦有不刪除留言的權利,如有任何爭議,管理員擁有最終的詮釋權。用戶切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。

    手機版| 廣告聯繫

    GMT+8, 2024-11-17 14:14 , Processed in 0.024519 second(s), 29 queries , Gzip On.

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回頂部