(原题目:外媒专评AIStation:AI集群运营与AI算法立异一样首要)
近日,海外权势巨子产物测评机构ServeTheHome(简称STH)对海潮人工智能开发资本平台AIStation入行了深度体验,并发布测评陈述。STH专一于服务器、存储、网络以及高端硬件测评,是海外业余的测评机构,这也是海潮AIStation在海外市场的测评首秀。
海外业余测评机构STH发布海潮AIStation测评文章
AIStation是海潮面向深度学习开发、线上推剃头布的人工智能开发资本平台,可完成容器化摆设、可视化开发、集中化治理等,旨在完成精准的资本治理以及调剂、麻利的数据整合及加快、流程化的AI场景及营业整合。这次,STH的编纂以治理员身份以及用户身份对海潮AIStation入行了周全的体验,并在测评陈述中详实地阐释了AIStation的功用以及运用价值。STH暗示,海潮AIStation可以或许完成对AI资本的邃密化治理,可以有用买通开发情况、计较资本与数据资本,晋升开发效率。
上面是STH资深编纂Patrick Kennedy的测评叙述:
咱们凡是将构建以及运转AI集群,即经由过程训练以及推理来治理一切计较资本、用户、数据以及模子视为一项应战。做好AI集群运营可能其实不像发明一种解决深度学习问题的新方式那样备受追捧,但对付在组织内扩大同享资本相当首要。海潮AIStation旨在治理该生命周期。咱们花了一些时间亲手操作了该解决方案,以领会其运作方法。我也找机遇向海潮AI卖力人刘军提出了无关新产物的几个问题。
海潮AIStation登岸界面
1、海潮AIStation实操布景先容
海潮在中国山东省领有一个测试集群,我用Cisco VPN入行了走访。尽管不知道切当位置,但我想济南(山东省第二年夜都会以及省城)的这座海潮年夜厦就是测试群集的所在地,这与2019年咱们观光的海潮智能工场不在统一个园区。咱们的许多读者都来自中国之外的国度,并且也没往过山东,这么说吧,济南的生齿与纽约差未几。
若是您据说过纽约但没据说过济南,那恰是我要重点先容AIStation的缘由。海潮是全世界排名前三的服务器供给商,中国市场上年夜约一半的AI服务器都来自海潮。海潮面向超年夜规模用户,其次要才能之一是AI服务器,比方咱们比来评测的海潮体系NF5468M5以及海潮NF5488M5。AIStation也是海潮产物,可匡助治理年夜量的AI训练以及推理服务器、数据和用户。
从基础上说AIStation是基于Kubernetes的集群解决方案。海潮所做的是同一运转AI集群时必要解决的许多常见东西以及使命。比方,它可以治理用户、组、权限以及配额,可以治理与每一个用户或者组联系关系的数据和该数据的权限以及存储,还可以治理开发事情和在集群上调剂资本。别的,咱们还将先容功课、用户以及节点层面上的一些监控以及警报。
2、AIStation实操:治理员视角
屏幕截图就不在这里逐一展现了,选择一部门重点界面入行先容。在领会用户在体系中望到的内容以前,我想先谈一下治理方面。该解决方案基于Kubernetes以及容器,很是古代化。若是将其与许多传统的GPU/HPC/AI调剂体系入行比力,您将更能体味其古代架构的理念。
集群监控
AIStation在后台起头运转后,年夜部门一样平常治理事情均可以使用剧本或者经由过程Web GUI实现。可以深刻查望各个节点的负载、硬件设置装备摆设,乃至可完成从用户到容器再到它们在单个GPU级别运转的硬件的追踪链。
集群监控>节点监控
虽然咱们的测试集群只有几个节点,但咱们据说AIStation已经经摆设了数百个节点以及上千个节点的集群。跟着节点数目的增长,建立资本组变患上加倍首要。AIStation可以建立多个资本组,将其指定用于开发、训练或者通用,也能够为该组设置一些更高档此外治理以及预留权限。
资本治理>建立资本组
除了了建立资本组以外,建立用户以及用户组可能更首要。AIStation可以建立用户或者与现有的用户目次东西集成,然后为用户授予走访分歧资本、存储配额、GPU配额等的权限。这很首要,由于公司可能不会想让一个实习生100%使用整个集群或者走访敏感的训练数据/模子,而会把优先权给到深度学习专家构成的外部征询小组。AIStation的次要价值主意是经由过程单个体系入行全数治理。
体系治理>用户治理>用户
治理员还可以凭据权限走访整个集群。比方,遇到功课运转迟缓的问题,治理员可使用监控东西查找他们的功课和有问题的容器,乃至可以间接入进硬件查望是否有潜伏的硬件问题。
开发情况>详情
AIStation还具备至关周全的可视化界面,用于监控集群,界面上可以望到CPU、GPU以及内存的操纵率等信息。在集群生命周期治理方面,这种数据可匡助治理员查望资本设置装备摆设环境和体系容量。比方,若是集群以50%的CPU、60%的GPU、95%的内存运转,这就充实阐明下一代节点必要更多的内存容量。
报表治理>资本统计
治理员用户还可以查望已经实现的使命,以查望用户先前运转的内容,包含功课是否胜利。在某些环境下,人们会在公司GPU集群上发掘加密货泉。此类功用可凭据已经运转的内容入行审核跟踪,这项功用很是首要。
训练治理>已经实现使命
除了了上述功用以外,另外一个首要功用是治理用户在体系中领有的资本。接上去,咱们会从用户的角度入行具体论述。
3、AIStation实操:用户视角
每一个用户均可以走访一组资本。登录AIStation时可以望到仪表板。许多使用限定是经由过程治理板块中显示的用户、组以及资本组功用界说的。
海潮AIStation用户界面
开发职员若是要起头训练使命,可以查望可训练的镜像。这些镜像很首要,由于在体系中建立使命时,它们就是可能正在使用的镜像。它可所以来自NVIDIA GPU Cloud的镜像或者加倍尺度的镜像。AIStation还具备组镜像乃至用户镜像的功用,让用户可以更轻松地选择容器镜像。用户可以望到小我、组以及大众镜像。治理员可以将镜像界说为小我镜像或者大众镜像,将敏感镜像的查望权限仅开放给特定组或者员工,这点也很是首要。
镜像治理
海潮AIStation支撑多种框架,用户可使用Tensorflow、Pytorch、Paddlepaddle或者其余框架。
训练治理>训练使命>建立训练使命
数据治理在AI集群中极其首要,AIStation可以或许界说以及存储数据集。从用户的角度来望,他们可以查望哪些数据集可供使用。用户可以或许将容器镜像、节点/物理资本以及训练数据有关联。而治理员可以对这些数据集设置权限。这一点很首要,由于有些数据集只有指定用户能力查阅、使用以及下载。
在AIStation中还可以加载Jupyter条记本,间接编纂python文件,而且可以将条记本保留在集群的存储后台,并轻松与其余用户同享。
开发平台>详情
启动使命后,AIStation平台将集成许多可视化东西。比方,您可以启动Tensorboard、Visdom或者Netscope等东西,从下拉菜单中显示可视化结果;用户可以间接从Web GUI入进容器的终端。
用户开发平台可视化Tensorboard
训练功课可能要花数小时或者数天,用户可随时查望当前功课状况入度、查抄效果和待处置的功课及其汗青。
训练治理>已经实现功课
可以望到这类解决方案支撑一家公司的诸多用户及具备多代GPU的节点。这里没有显示其余一些功用,比方针对治理员以及用户的电子邮件警报以及通知,但这类解决方案显然是旨在运转公司的整个AI操作。是以,我想向AIStation的营业卖力人扣问更多信息,领会其入进市场的策略。
4、对话海潮刘军
上市战略方面,我向海潮的AI以及HPC营业卖力人刘军提出了一些问题。这个名字听起来可能很耳熟,那是由于他以前也曾经帮咱们做过专访。
海潮人工智能与高机能计较总司理 刘军
Patrick Kennedy: 海潮若何计划AIStation的上市?
刘军:AIStation有间接贩卖以及渠道贩卖两种贩卖方法,咱们在全世界无数十个渠道互助火伴发售AIStation。
PK: AIStation可以集成其余服务器供给商的集群节点吗?
刘军:是的,AIStation可以或许集成其余供给商的集群节点。
PK: AIStation的贩卖是否针对特定行业?
刘军:自2019年4月发布以来,已经现实运用于金融、教诲、互联网以及伶俐都会等行业。
PK: 只面向年夜型组织、服务提供商吗?草创企业等较小的组织是贩卖方针吗?
刘军:AIStation专为深度学习开发畛域而设计,合用于金融、互联网、通讯、交通、医疗以及教诲等行业的年夜小型企业。
PK: 答应模式是怎么的?
刘军:按GPU服务器节点发售。
PK: 进级答应证必要采办新密钥,仍是客户凭仗现有密钥从海潮注册服务器上得到新权限?(这里提示读者,Web GUI上有一个答应证密钥页面,上文未展现)
刘军:用户可享用三年内AIStation的收费进级服务,然后必要采办新密钥入行进级。
PK: 针对该解决方案,海潮将来会提供其余新的服务吗?
刘军:将来AIStation将支撑更多的AI加快器,并完成资本治理、调剂、监控、优化等方面的异构加快。咱们将创建一个更周全的AI开产生态体系,为行业支流AI开发东西、开发框架以及深度学习模子提供一个集成的开发平台。
再次谢谢刘军耐烦为咱们的读者解答问题。
最初的话
我想夸大一下在此展现AIStation的操作视图以及上市战略的缘由。AIStation发布第一年即得到不俗的软件贩卖额。要是望到他们投资公司的AI治理软件平台第一年就得到如斯成就,投资者们必定会激动不已经。重点是,虽然海潮将其作为新产物发布,但现实上它已经经领有不少付费客户,这些客户已经经在使用此解决方案来治理其AI集群以及开发团队。
连系当前的功用,再想一想异构加快器的观点,就能马上大白该解决方案的远景。它与现有的其余一些集群治理解决方案相比,分歧的地方在于它乃至可以供年夜型组织使用,而且全数基于Kubernetes,而Kubernetes正迅速成为下一代服务的次要东西。
总而言之,若是您是一家只有2-3人的小型草创公司,那末可能其实不必要该解决方案,但跟着组织中集群的增多,当调剂以及治理成为一项更年夜的应战时,海潮AIStation的价值便加倍凸显进去,更多资讯可在十次方领会。