深度神经网络就像遥远地平线上的海啸一样涌来。
鉴于该技术仍在演变的算法和利用,,,目前还不明显深度神经网络(DNNs)最终会带来什么变动。但是,,,迄今为止,,,它们在翻译文本、鉴别图像和说话方面所获得的成就,,,明显地批注他们将重塑推算机设计,,,而这种变动正在半导体设计和制作方面产生同样深刻的变动。
量身定制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能必要几周或几个月的功夫,,,因而这些芯片可能是迄今为止制作的最大的,,,因而也是最昂贵的大规模商用集成电路芯片。
今年的行业可能会看到来自创业公司Graphcore的一款微处置器,,,该公司不使用DRAM,,,而是来自竞争敌手Cerebras Systems的晶圆级集成启发前锋。英特尔收购的2.5-D Nervana芯片已经在出产样片,,,其他十几个处置器正在开发中。同时,,,从Arm到西部数据(Western Digital)的芯片公司正在钻研内核,,,以加快深层神经网络的推理部门。
“我以为(2018年)将是一场即将到来的派对!!奔又荽笱Р死中C淌诖笪馈づ撂厣―avid Patterson)暗示::“我们刚刚起头看到很多公司正在评估一些设法!!
这个趋向极度显著,,,帕特森和合着者约翰·亨尼西(John Hennessey)在上个月颁发的关于推算机的开创性文本的最新版本中,,,为它写了一个新的篇章。作者对内部设计提供了深刻的见解,,,例如Patterson为其贡献的Google TensorFlow处置器(TPU),,,以及最新Apple和Google智能手机芯片中的Microsoft Catapult FPGA和推理?。
“这是推算机系统结构和封装的回复!! Patterson说::“明年我们会看到比从前十年更有趣的电脑!!
深度神经网络的鼓起在从前几年里把风险投资的资金带回到了半导体领域。 “EE Times(电子工程专辑美国版)”最新推出的草创公司评比项目“Silicon 60”中,,,列举了七家草创公司,,,其中蕴含两个鲜为人知的名称::寒武纪科技Cambricon Technologies(北京寒武纪科技)和Mythic Inc.(Austin,,,Texas)。
“我们看到基于新架构的新创公司激增。我自己跟踪了15到20家......从前10到15年中,,,在职何一个细分领域中半导体行业都未曾有超过15家的半导体公司同时涌现的事件”,,,企业家Chris Rowen说。他从Cadence Design Systems去职后,,,成立了一家公司Cognite Ventures,,,专一于神经网络软件。
“Nvidia由于其壮大的软件职位,,,将难以与高端服务器进行训练的竞争。若是你去追求智能手机市场你会感触自己疯了,,,由于你必须在好多方面都做得杰出。不外在高端或是低端的智能手机市场,,,还是会可能有一些机遇!!甭尬乃。
市场观察家Linley集团掌管人Linley Gwennap暗示,,,Nvidia在最新的GPU(Volta)方面做得极度杰出,,,他们调整了对DNN的速度培训。 “但我当然不以为这是最好的设计,,,”Gwennap说。
Gwennap说,,,Graphcore(英国布里斯托尔)和Cerebras(加利福尼亚州Los Altos)是培训芯片最多的两家草创公司,,,由于他们筹集的资金最多,,,并且似乎占有最好的团队。由Google前芯片设计师缔造的草创公司Groq宣称,,,它将在2018年推出一款推理芯片,,,在每秒的总操作和推论中城市以四倍的优势战胜竞争敌手。

英特尔的Nervana是一个大型线性代数加快器,,,位于硅中介层上,,,紧邻四个8-GB HBM2存储器仓库。新闻起源::Hennessy和Patterson着写的《推算机系统结构::一种定量步骤》
Intel的Nervana,,,被称为Lake Crest(上图),,,是最受关注的定制设计之一。它执行16位矩阵操作,,,数据共享指令集中提供的单个5位指数。
与Nvidia的Volta一样,,,Lake Crest逻辑器件位于TSMC的CoWoS(衬底上芯片上芯片)中介层上,,,紧邻着四个HBM2高带宽存储器仓库。这些芯片被设计成网状,,,提供五到十倍于Volta的机能。
固然去年微软在DNN上使用了FPGA,,,但Patterson依然对这种步骤持疑惑态度。 “你为(FPGA)的矫捷性支出了好多价值。编程真的很难,,,”他说。
Gwennap在去年年底的一项分析中指出,,,DSP也将阐扬作用。 Cadence、Ceva和Synopsys都提供面向神经网络的DSP内核,,,他说。
固然芯片即将问世,,,但是架构师们还没有决定若何去评估它们。
就像RISC处置器的早期,,,Patterson回顾说,,,“每个公司城市说,,,'你不能相信别人的基准,,,但是你能够相信我的',,,那不太好。
那时,,,RISC供给商在SPEC基准测试中进行了合作。此刻,,,DNN加快器必要自己界说的测试套件,,,涵盖各类数据类型的训练和推理以及独立的或是集群的芯片。
听取了这个呼吁,,,买卖处置机能委员会(TPC)是一个由20多个顶级服务器和软件制作商组成的小组,,,12月12日颁发已经组建了一个工作组来界说机械学习的硬件和软件基准。 TPC-AI委员会主席Raghu Nambiar暗示,,,指标是创建与加快器是CPU还是GPU的测试。但是,,,这个团队的成员名单和功夫框架还处于不休变动之中。
百度公司于2016年9月颁布了一个基于其深度学习工作负载的盛开源代码基准测试工具,,,使用32位浮点数学进行训练工作。它在六月份更新了DeepBench以涵盖推理工作和16位数学的使用。
哈佛钻研人员颁发的Fathom套件中界说的八个AI工作负载支持整数和浮点数据。帕特森说::“这是一个起头,,,但是要获得一个让人感触舒服的全面基准测试套件,,,还必要更多的工作!!
“若是我们把致力做成一个好的基准,,,那么所有投入工程的钱城市花得值得!!彼。
除了基准之外,,,工程师必要跟踪仍在演变的神经网络算法,,,以确保他们的设计不会被置之不理。
高通公司下一代主题研发总监Karam Chatha暗示::“软件总是在变动,,,但是你必要尽早把硬件拿出来,,,由于它会影响软件- 你不得不督促让它产生。到目前为止,,,移动芯片供给商正在骁龙SoC的DSP和GPU内核上运行神经网络工作,,,但一些观察家预计,,,它将为机械学习定制一个新的?,,, 放在2019年7纳米骁龙SoC里。

Patterson说::“市场决定哪种芯片最好。 “这是凶残的,,,但这是设计电脑让人兴奋之处。 ”
早期进入的玩家已经有机遇进入到游戏中。
例如,,,Facebook最近证明,,,通过大幅增长打包到所谓批量巨细的职能数量,,,能够将培训功夫从一天缩短到一小时。对于试图在本地SRAM中运行所有操作的Graphcore来说这可能是个坏新闻,,,解除了外部DRAM接见的延长,,,同时也限度了它的内存占用。
“他们为小批量数据包而设计的,,,但几个月前的软件了局批注你想要一个大批量数据包。这批注事件变动的速度有多快,,,“帕特森说。
另一方面,,,雷克斯电脑(Rex Computing)以为正在迎来一个有利的机缘。该草创公司的SoC最初是为高机能服务器设计的,,,它使用了一种新鲜的暂存器内存。 Rex的步骤解除了在虚构页面表中缓存数据的需要,,,这是GPU使用的一种技术,,,增长了他们的延长,,,结合首创人Thomas Sohmers说。
因而,,,Rex芯片比此刻的GPU要好得多,,,出格是在处置盛行的矩阵/矢量运算神经网络时,,,他说。新创公司打算6月份推出16纳米的256核的SoC,,,但愿能提供256 Gflops / watt的运算能力。
与此同时,,,钻研人员正在尝试从32位到单元浮点和整数数学的所有可能,,,以找到最有效的步骤来推算神经网络了局。他们似乎赞成的一点是,,,最好不要在精确度级别之间转换。
编译::Mike Zhang
文章起源: eMedia Asia Ltd.
关注行业动态,,,相识产业信息,,,以实现与时俱进,,,启发创新,,,稳步发展。
标签:   人为智能 芯片

