这个想法让全球更多创企看到挑战巨头的机会。
今年2月EE Times评选出“十大AI芯片创企”,其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。
英国半导体之父、Arm的联合创始人Hermann更是对Graphcore给予高度评价,他曾表示:“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。
” 资料显示,Graphcore是一家英国AI芯片硬件设计初创公司,成立于2016年,总部位于英国布里斯托,Graphcore的主要业务是设计用于AI应用程序的处理器,为云服务等应用提供产品支持。

目前其IPU GC2处理器已经量产。
截至目前,Graphcore已经获得超过4.5亿美元的融资,战略投资者不乏宝马、博世、戴尔、微软、三星等各行业巨头。
Graphcore最近的一轮融资在今年2月完成,公司估值已达19.5亿美元。
去年,这家AI芯片创企Graphcore将业务拓展至中国,我们也得以近距离了解这家企业的产品和中国市场愿景。
IPU为AI而生 16纳米GC2处理器已量产 今年5月27日,在英国Intelligent Health峰会上,微软机器学习科学家分享了使用IPU训练CXR模型的卓越性能:IPU在运行微软COVID-19影像分析算法模型时能够在30分钟内完成训练,而在NVIDIA GPU上这项工作需花费5个小时。
Graphcore IPU一战成名。
Graphcore高级副总裁兼中国区总经理卢涛介绍,之所以IPU能有如此优异的表现,是因为 “Graphcore的IPU是为机器智能专门设计的、完全不同的处理器架构,跟CPU、GPU等处理器架构非常不一样”。

GPU是针对图形和高性能计算、以向量处理为核心的处理器,而Graphcore IPU是针对计算图的处理来设计的处理器。
具体而言,“IPU应用了大规模并行MIMD的处理器核。
另外进行了非常大的分布式片上SRAM,在片内IPU能做到300 MB的SRAM。
相对CPU的DDR2子系统或GPU的GDDR、HBM来说,IPU能做到10到320倍的性能提升。
从时延的角度看,与访问外存相比,IPU时延基本为1%,可以忽略不计。
” 卢涛透露。

它在120瓦的功耗下能够达到125TFlops的混合精度,内存带宽为45TB/s、片上交换可达45TB/s、片间IPU-Links为2.5TB/s。
GC2上有1216个独立处理器核心(Tile),其300MSRAM能够把完整的模型放在片内。
” 据悉,Graphcore采用构建大规模数据中心集群的BSP(Bulk Synchronous Parallel)技术,该技术目前在谷歌、Facebook、百度这样的大规模数据中心都已获得应用。
卢涛强调:“IPU是目前全球第一款BSP处理器,通过硬件能支持BSP协议,并通过BSP协议把整个计算逻辑分为计算、同步、交换。
对软件工程师或开发者来说,这将非常易于编程;而用户也无需纠结于这里面是1216个核心(Tile)还是7000多个线程、任务具体在哪个核上执行,因此这是一项非常用户友好型的创新。
” 与IPU相辅助的是Poplar软件,该软件专门针对AI应用程序所需的密集型计算而设计。
卢涛透露:“目前Poplar已提供750个高性能计算元素的50多种优化功能,支持标准机器学习框架,如TensorFlow、ONNX和PyTorch,很快也会支持百度飞桨。
在部署方面,目前Poplar可以支持容器化部署,能够快速启动并运行。
在标准生态方面,Poplar能够支持Docker、Kubernetes,以及Hyper-v等虚拟化技术和安全技术。
在操作系统方面,目前Poplar SDK支持最主要的三个Linux发行版:ubuntu、RedHat Enterprise Linux、CentOS。
” IPU服务AI优势凸显 比GPU效率大幅提升 目前基于IPU的应用已覆盖到包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型在内的多个机器学习应用领域。

”Graphcore中国销售总监朱江介绍, “在自然语言处理方面,IPU速度能够提升20%至50%;在图像分类方面,IPU能够达到6倍的吞吐量和更低时延;在MCMC算法方面,IPU具有26倍的性能提升;在ResNeXt这类比较新的计算机视觉类应用方面,IPU能做到6倍的吞吐量、22分之1的时延。
”

BERT训练在NVLink-enabled的平台上,大概50多个小时才能做到一定精度,而在基于IPU的戴尔DSS-8440服务器上,只需要36.3小时,相当于训练时间缩短了25%。

这里组维度512就是应用得较多的 “Dense卷积网络” ,典型的应用如ResNet。
此时IPU GC2性能比V100要好近一倍。
随着稠密程度降低、稀疏化程度增加,在组维度为1或32时,针对EfficientNet或MobileNet,IPU对比GPU展现出巨大的优势,可以达到成倍的性能提升,同时时延大大降低。
据朱江介绍,Graphcore IPU现已广泛应用于金融、医疗、电信、搜索引擎等诸多垂直领域,并在这些领域表现出显著优势。
除了前面提到的IPU在运行微软COVID-19影像分析算法模型时的优异表现外,在金融领域,包括算法交易、投资管理、风险管理及诈骗识别等方面,IPU可以使MCMC采样速度提高26倍,强化学习的训练时间缩短至1/13。


除了稠密的数据之外,现在代表整个AI发展方向的大规模稀疏化数据,在IPU上处理就会有非常明显的优势。
” 进入中国已与百度阿里合作 7纳米IPU新品今年发布 现在Graphcore携其IPU登陆中国市场,以期在中国市场大展拳脚。
目前,如果用户想访问IPU系统,可以通过购买戴尔服务器或微软云来访问IPU资源。
在中国,Graphcore和金山云合作,即将上线针对中国开发者和创新者的云业务。
卢涛透露,今年5月12日,在OCP Global Summit上,阿里巴巴宣布Graphcore支持ODLA的接口标准。
随后5月20日,在百度Wave Summit 2020上,百度宣布Graphcore成为飞桨硬件生态圈的创始成员之一。
Graphcore希望通过这样的方式来积极融入中国的AI生态圈。
在谈到中美AI市场的差异时,卢涛向TechWeb表示:“目前,美国在IPU的落地与推进速度方面比中国要更快一些,不过现在中国的推进速度也愈发快速。
这是因为美国用户更多来自于较为活跃的研究者社区,而中国用户非常注重产品落地。
国外的AI应用更加侧重研究,而中国更加看重产品化的训练和产品化的推理,更加侧重AI如何解决应用问题。
” 为了适应这一市场差异,卢涛介绍:“长期来讲,Graphcore会针对中国市场的需求,进行产品的定制化。
从服务角度而言,Graphcore中国目前有两支技术团队——一支是以定制开发为主要任务的工程技术团队,另一支是以对用户技术服务为主的现场应用团队。
工程技术团队承担两方面工作,一是根据中国本地的AI应用特点和需求,将AI的算法模型在IPU上实现落地;二是根据中国本地用户对AI稳定性学习框架平台软件的需求,进行功能性的开发加强工作。
现场应用团队则是帮助客户完成现场的技术支持工作。
” 卢涛说:“我们对中国市场的期望非常高,期望中国市场能够占到Graphcore全球市场的40%甚至50%。
虽然Graphcore在中国市场的整体启动比北美要晚一年左右,但从目前进展来看,我们发展得非常不错。
” 另据卢涛透露,Graphcore下一代7纳米处理器将于今年下半年正式发布,相信新产品会有卓越表现。
【来源:Techweb】【作者:果青】
原文地址:https://waphdw.com/bbs-301249.html