在本期节目中,我们采访了Mythic联合创始人兼首席执行官戴夫·菲克 (Dave Fick) 。 Mythic 开发了模拟计算技术,可提供高性能 AI 处理器,其能效和成本效益比数字解决方案高十倍。
在本次演讲中,我们讨论了为什么模拟计算由于低能耗、低延迟和高性能而特别适合边缘机器学习。我们还讨论了当今使用模拟计算的几种工业应用。
关键问题:
● 什么是模拟计算?
● 模拟和数字解决方案在形式和成本结构上有何区别?
● 模拟计算如何处理“杂乱数据”?
音频文字.
埃里克:戴夫,非常感谢您加入我们的播客。
戴夫:谢谢你邀请我。
埃里克:戴夫,我真的很期待这一集。这对我来说是一个很新的话题。我总觉得当我主持这个播客时,这是我的一些高级研究。这是我在技术方面的继续教育。这是我非常期待进入的一个话题。但在此之前,我实际上有兴趣了解您是如何创办这家公司的。这是非常雄心勃勃的,对吧?我的意思是,这是一个非常有趣的技术领域。基本上毕业后你就已经设置好了。因此,如果我看到你的简历,就好像我做了一些实习,获得了博士学位,然后成立了一家公司并筹集了 1.65 亿美元。所以就成功了。至少,融资成功了。我知道商业上的成功与风险投资上的成功不同。但我很想了解是什么让您在人生的那个阶段觉得自己可以接受这个非常雄心勃勃的挑战。
戴夫:是的,绝对是。我们完成了博士学位课程。事实上,我毕业于安娜堡密歇根大学。密歇根州拥有最好的芯片博士项目之一。我相信在 90 年代或 2000 年代初,他们与英特尔合作,提出了一个真正实用的计划。因此,密歇根州在帮助学生做好准备方面做得非常出色,不仅让他们了解芯片设计过程的一部分,还让他们了解如何从头到尾地完成整个过程。所以在那里做这个项目,我出来了,随着经验的积累,我想当我完成我领导的项目以及我的同事和我协助完成的项目时,我想几乎有十几个芯片。
我的联合创始人迈克·亨利 (Mike Henry) 来自弗吉尼亚理工大学。他和我有这样的想法:申请 SBIR 项目(这是一个政府研究计划),并创办一家公司来开发新技术。从博士课程毕业后,您已经习惯了与教师一起工作。他们给你工作的项目。这是我们第一次有机会真正追求直接符合我们利益的技术,我们自己申请资助并追求它。因此,我们赢得了两份合同——一份用于 GPS 信号采集的模拟计算,一份用于神经网络。我们能够将其分包给大学,这样我们就能够获得一点办公空间,一些硕士生的一些时间,并在大学环境中作为孵化器工作。
这两个项目都做得非常好。它们的性能和能源效率均提高了约 100 倍。我们发现神经网络空间正在爆炸。我们从 2012 年开始。我相信,2012 年多伦多大学发表了这篇基础论文 Alexnet。我们正在加速该算法。那时候,这个神经网络空间真的爆炸了。它从 20 赔率中的一个好奇事物发展成为 2010 年代的主流研究领域。从那时起,围绕它建立技术和公司就获得了相当多的经验。
埃里克:好的。时机太好了。而且,这是一种奢侈,但它也是能够做你个人感兴趣的事情的真正成功因素,对吗?当你与充满热情的创始人交谈时,他们往往会坚持解决问题并取得更大的成功。
戴夫:是的,任何时候你要建立一家公司或从头开始开发一项新技术,你总是会遇到挑战。因此,你越愿意坚持到底,越愿意花更多的时间思考和解决这些难题,你成功的可能性就越大。毫无疑问,致力于有趣、令人兴奋的技术对我们很有帮助,而且对招募和寻找投资者也很有帮助。人们对我们正在开发的技术感到兴奋。这对我们的成功产生了巨大的影响,不仅仅是我们自己的热情,还有我们周围的所有人。
埃里克:好吧,让我们来看看你实际上在做什么。先给我们101。什么是模拟计算?它与更传统的计算方法有何不同?
Dave:模拟计算——当我们想到数字时,数字就是关于 1 和 0。因此,如果要表示像 125 这样的数字,实际上至少需要 7 位来表示。当我们谈论位时,这些实际上是只能用一或零表示的数字。所以二元的。如果你想要更大的数字,比如数百万或数十亿,那么你将需要更多的 20 位、30 位。从物理上来说,这意味着,对于每一位,都必须有一根单独的电线。这些单独的电线连接到单独的晶体管,这些晶体管是可以向上或向下移动电线的设备。每当你向上或向下移动电线时,你都会消耗能量。因此,当我们想到,嘿,我的处理器消耗 100 瓦或类似的功率时,100 瓦的作用是上下移动一堆电线。每次向上或向下移动电线时,都会消耗一点能量。
当我们进行模拟计算时,它的作用是,它可以在一根电线上表示 27 位信息,而不是让电线代表 1 或 0。 27 将是 1.28 亿个不同的值。您可以在该线路上拥有 1.28 亿个值,而不是只有两个值。通过将所有信息压缩到少量电线和少量晶体管中,可以大大减少移动的电线数量。现在您已经大大减少了能源消耗。但您也缩短了信息传输的距离。我认为电线上的信号传输速度还不到光速的一半。所以光速看起来真的很快。但是当你以千兆赫兹的速度运行时,它实际上是以厘米而不是微米为单位来测量的。通常,当我们在芯片上移动信号时,您会想,我在芯片上移动了多少微米?这需要多少时间?即使以光速,这也会减慢你的速度。这就是为什么你只能在 5 GHz 频率而不是 5 太赫兹频率下工作。
我们能够通过模拟实现的信息密度使我们能够节省能源。它使我们能够更快地行动。这使我们能够构建基本上更智能的系统、更强大的系统、更高效的系统。现在,缺点是,当您使用模拟时,如果一根电线上有 1.28 亿个不同的值,那么在任何时候都很难确定该电线上的精确值。模拟信号中总会有噪音。因此,如果您将立体声扬声器的音量开得很大,您就会开始听到一点噼啪声。总是存在所谓的“本底噪声”。无论您构建什么系统,最终都会产生一点噪音。
因此,您不能使用模拟计算来运行 Excel 或任何您希望最终获得极其精确的值的程序。因为一旦它是模拟的,就会有一定程度的随机性。但在神经网络和其他信号处理应用中,这些不需要精度,而是需要非常好的估计。我想我们会更深入地讨论一下。所有最困难的计算问题 - 我不应该说全部,但当今许多最困难的计算问题都是获取某种信号,例如相机或麦克风,并试图找出所看到的或所说的内容。或者,即使你想到某人在你面前采取了一些行动,你也会试图解释他们在做什么。这可能不仅仅是愿景。它可能试图弄清楚他们的肢体语言和意图。这些问题没有像 Excel 电子表格那样具有相同级别的具体答案。这是一个预测问题。因此,这是一个我们可以真正利用模拟计算的领域。
埃里克:好的。这就说得通了。因此,如果您正在进行财务分析,就会有正确和错误的答案。您希望使用数字计算,以便拥有一个仅提供正确答案的结构。如果您正在使用模拟或正在处理任何类型的机器学习,那么您正在处理概率答案。因此,模拟就可以了。因为无论如何,数据只允许一个概率答案,而模拟可以让你更快、更便宜、用更少的能量得到这个答案,然后我猜成功率足够高。模拟的成功率是否会在某种程度上与数字机器学习相比受到影响,或者您是否也能够匹配或超过预测的准确性?
戴夫:我们绝对可以赶上或超过。这有几个不同的方面。一是,神经网络首先有多强大?较小的往往更脆弱一些。他们可能无法拥有足够的额外容量来承担模拟性质。但大多数现代神经网络或几乎每个新的现代神经网络都将具有足够的能力来处理模拟计算。
在实践中,我们看到的是,如果您使用的计算技术可以将能源效率和性能提高几个数量级,那么您可以应用更大的神经网络来解决问题。因此,在今天的实践中,我们的客户通常无法运行研究中最新、最好的神经网络。您会看到涉及庞大网络的研究论文,需要数千美元的 GPU 才能运行。它将无法实时运行。这当然不在设备制造商目前的硬件预算范围内。例如,您无法将 1,000 美元的 GPU 放入 250 美元的消费设备中。所以问题就变成了,如果我要购买价值 10 美元的硅并将其放入这个设备中,它可以放入其中的最大神经网络是多少?
围绕这个问题进行了一整套研究。 MobileNet 和 EfficientNet 等网络专门针对这些嵌入式系统。我们如何将至少具有中等能力的神经网络纳入该预算?两者都有从成本角度来看的预算,还有只是冷却系统的预算。例如,您无法在小型相机的空间内消耗 500 瓦的功率。因此,我们允许他们做的就是从这些专为小型嵌入式系统设计的非常小的神经网络进行升级,然后将它们升级到更先进的神经网络。仅对您所使用的模型进行改进即可大幅提高准确性。
现在,我们还看到,对于数字系统,市场上的许多竞争产品——无论是特定的加速器还是像 Nvidia GPU——都会非常关注模型压缩。这就是它的名字。因此,以神经网络为例,它可能有 1000 万个权重。所以神经元参数。他们试图削减其中的 90% 或 99%,以使模型更小、执行效率更高。很多时候,我们看到的是,设备制造商为了将这些模型安装到嵌入式系统中而被迫进行的打印量最终会导致准确性的巨大损失,并且远远超出了切换所带来的影响。模拟信号。
埃里克:好的。有趣的。因此,如果谷歌或其他人想要建立大型法学硕士,他们可能会在数据中心使用 Nvidia A100 芯片来完成此任务。因为他们可以将数据放在某个地方,集中在能源便宜、空间丰富的地方,而且高度集中。但如果他们想在嵌入普通设备的任何东西上部署算法——我猜无论是计算机还是某种物联网设备、汽车还是类似的东西——那么这种方法就行不通,或者他们我们将不得不大幅削减规模,直到结果开始受到影响。
如果我们然后从能源方面查看设备规格,您已经确定了。如果我们看看外形尺寸、尺寸,如果我们看看成本,这些之间的比较如何?我猜你正在比较一堆变量,所以这不是同类比较。对于复杂的物联网设备来说,模拟解决方案与数字解决方案在外形尺寸和成本结构方面通常有什么区别?
戴夫:当然。让我补充一下应用程序方面的成本差异。我想我最近正在阅读一份行业分析报告,其中提到 ChatGPT-4(这是目前在 LLMS 上受到广泛关注的模型之一)运行该模型需要两台大型服务器。每件都花费超过25万美元。从外形尺寸的角度来看,它可能是 16 uto,50 万美元。您能找到的最新、最伟大的研究以及占据头条新闻的就是这些极其昂贵的系统。但是,当我们考虑尝试进行研究并影响行业时,我们正在使用的许多系统就像相机系统或小型机器人。总功率预算可能消耗 5 到 20 瓦的功率。硬件的成本(如计算硬件)可能需要低于 100 美元。我的意思是,例如,这在工业领域是相当统一的。我认为我们在那里得到了非常一致的画面。在消费者方面,它的限制性更大,因为消费者通常不会这样做——除了苹果设备。他们不会为一套系统支付数千美元。
就实现模拟计算加速器与数字加速器的外观而言,从外部来看,它实际上非常相似且相同。我们的芯片用作 PCI Express 连接加速器。意思是,有点像将 Nvidia GPU 连接到 PC 上。在我们的系统中,您将拥有一个 SOC,例如附件 P 平台或 TI 平台。它有一个 PCI Express 端口,可以与我们的芯片通信。我们的芯片内部有模拟计算引擎,但架构的顶层实际上是数字的。所以并不是说整个芯片都是模拟的。而是有一些关键操作可以很好地映射到模拟域。这些就是矩阵乘法运算。当你想到神经元时,你的大脑就像有数十亿个神经元。在神经网络中,它们位于所谓的层中。一层可能只有 64 个神经元,另一层有几千个神经元。
在我们的模拟计算引擎中,我们可以存储 1,000 个神经元。每个神经元最多可以接收 1,000 个来自其他神经元的信号。它可以一次性计算 25 万个矩阵乘法运算。实际上,我应该说一次矩阵乘法的乘法累加运算。矩阵乘法运算是在模拟域中完成的。但这些模拟计算引擎之间的信号、神经元之间的信号是数字的。因此,我们这样做的方法是,在矩阵乘法的输入上,我们从数字域转换到模拟域。然后我们在模拟域中进行这种非常强大的复杂操作。然后我们将结果转换回数字形式。我们的系统能够做的是,我们可以享受模拟计算的好处——效率、性能——为神经元进行大矩阵乘法。但我们也获得了数字通信的好处——存储和可编程性。所以我们可以将任何神经网络映射到系统。因为最终会有一个软件来管理每个模拟计算引擎。因此,从软件的角度来看,我们是一个计算网格,恰好内置了非常高性能的矩阵乘法运算。
埃里克:好的。明白你了。好的。伟大的。可用性是相似的。外形尺寸和成本结构相似,但针对某些类型问题的能力要高得多。让我们来探讨一下最适合这里的问题类型。所以你们的团队通过电子邮件分享了一些无人机、工业自动化、视频安全、智能家居、AR、VR的案例。所以这里我们讨论的是混乱的数据。我想这就是这里的主题。所以谈论视频、图像、音频,然后根据这些进行预测。对您来说,什么定义了一个伟大的用例?如果您必须保留客户名称的专有性,也许您可以举几个例子来说明。但如果你想用几个例子来说明。
戴夫:是的,我们实际上就像一个通用信号处理系统。所以我们早期从事的另一个研究项目是GPS信号采集。它使用了非常相似的技术。今天我们实际上可以在模拟计算下实现这一点。在这种情况下,它在这里接收来自低于本底噪声的卫星的信号。这意味着,如果您查看来自卫星的信号,它看起来就像噪声。实际上你根本看不到任何信号。这是通过这些大规模的百万项矩阵乘法运算恢复的。您必须通过将不同时间戳与模式进行比较来进行搜索才能找到该卫星信号。
任何类型的信号处理应用程序都适合。我们今天讨论的一些内容,或者我应该说的一些我们讨论的神经网络内容,是对象检测或图像分类,当您试图查找时,您正在查看图片,例如、人或物体,或者您试图找出某种产品的缺陷。我们还可以进行信号处理,以放大图像。例如,人们对电视领域很感兴趣,一开始的质量可能很低。想想你的有线电视盒。它的分辨率较低,信号高度压缩,因为通道发送时的带宽有限。您想将其升级到您的 8K 电视。因此,您可以使用神经网络将高度压缩的低质量、低分辨率信号实时升级到高达 8k 的图像,消除压缩伪影,提供更高分辨率等。例如,雷达和传感器融合领域存在机遇。同样,像激光雷达系统一样,您可能正在寻找 3D 点云中的对象,或者试图找出汽车空间中自动驾驶汽车的墙壁或车道的位置。我认为今天我们非常关注计算机视觉作为起点。我们植根于信号处理领域,并且在该领域也看到了很多机会。
就我们目前与客户合作的内容而言,许多客户正在寻找更经典的计算机视觉。因此,如果您在一家工厂,您可能会将一些产品分类为不同的等级。如果是农产品,您可能正在尝试分类。这是真正的优质苹果还是劣质苹果?例如,这个是有人会在商店挑选并想要购买的东西,而这个可能更适合苹果酱。这些机器需要非常快速地移动。您可以轻松计算。就处理速度而言,如果我能处理完这个,而不是10毫秒,那就是5毫秒,这样可以节省多少钱?如果我可以将准确率从 90% 提高到 95%,可以节省多少钱?因此,工业领域有很多机会更早地应用这些技术。消费者可能看不到它们。他们对供应链的影响比对他们日常互动的事物的影响更大。
我认为在消费应用方面,我们已经看到了智能门铃和安全摄像头。至少在我在家中使用过的那些系统中,有人尝试将计算机视觉融入到这些系统中。但目前,考虑到成本和外形尺寸,他们能够实现的处理能力还不够高,无法实现真正高精度的神经网络。我们希望能够改变这一点,这样当你在家中进行面部检测时,我想我的安全摄像头最近告诉我,我的兄弟在我家里。他现在在明尼苏达州,我在德克萨斯州。我当时想,好吧。显然,他不在我家。那么我们能否让这项技术真正可靠呢?这将需要计算性能提高一个数量级。我认为这些模拟计算技术可以帮助纠正这一问题。
Erik:听起来,仅根据您给出的工业机器视觉示例,您可能会想到每台设备的价格约为 10,000 美元,可能还需要订阅。制造商很乐意承担这笔费用,因为其背后有强大的商业理由。如果您谈论消费者应用程序,那么您谈论的可能是每台设备 100 美元。或者无人机也可以。我猜你有工业无人机,你可能会谈论数万或数十万美元。但消费者,你又处于数百美元的范围内。
您认为从当今的工业边缘计算解决方案转向消费设备的合理时间范围是多少?我想很多工厂宁愿只使用现成的相机并能够使用它,而不是花钱购买真正更复杂的解决方案。因此,如果您还可以将其嵌入到具有非常实惠的微型计算功能的或多或少现成的设备中,我相信您也会在工业领域拥有市场。但降低到该成本水平的时间范围是多少?
戴夫:我们今天正在与工业客户合作。我认为我们的第二代在成本和能源效率方面将有一个巨大的飞跃。因此,我们正在开发的第二代产品将于 2025 年、2026 年上市。实际上还需要一两年的时间才能真正进入市场,因为它需要内置到这些消费设备中。因此,我预计在 2026 年、2027 年的时间范围内,消费领域会出现这种情况。但可以肯定的是,据我所知,工业领域往往更注重省钱。通常,这是为了以某种方式省钱。那么消费空间更注重便利性、新奇性或娱乐性。这往往会有点软。这是人们愿意支付的费用,而不是直接的公式。因此,我认为降低成本对于推动发展非常重要。我预计这将在未来几年内发生。
埃里克:我想另一个重要因素是规模,对吗?如果苹果公司每年不销售 1 亿部 iPhone,那么 iPhone 中的芯片成本将会高得多。如果他们卖 10,000 个,价格点就不会是现在的水平。如果你看看模拟,它是否使用与更大众市场的芯片相同的基本制造能力,或者你是否还必须创新并弄清楚如何扩展制造技术?
戴夫:不,我们使用标准制造技术。唯一独特的部分是我们使用嵌入式闪存,这不太常见。但这仍然不是我们创造的技术。几乎每个铸造厂和一部分流程都可以使用它。当然,如果我们销售的芯片数量与苹果一样多,我们就能够与供应商协商更好的定价。我们最终会到达那里。但我们今天使用的是标准技术。这是我们的主要优势之一。
另一件事是,因为我们在能量密度和性能方面取得了这些进步,所以我们实际上能够使用旧的工艺技术。我们的第一代采用 40 纳米工艺,这是现代的。我想说的是 2006 年。那是很久以前的事了。但由于我们通过令人难以置信的信息密度大幅提高了能源效率和性能,这使我们能够使用这些更具成本效益的工艺,例如 40 纳米。我们的第二代将采用 28 纳米工艺。我们对摩尔定律进行了重新设定,这很重要。因为当今较新的工艺技术——我想我看到苹果正在使用 3 纳米——这些技术非常昂贵。对于一家初创公司甚至一家大公司来说,尝试采用一项新技术,仅从实施成本的角度来看,这将是非常具有挑战性的。因此,考虑到我们今天所处的技术价格,我们非常幸运能够使用该技术并具有很强的竞争力。
Erik:我注意到你们市场中没有涉及到一个我认为很有趣的主题,那就是汽车行业。因为如果你谈论机器视觉,好吧,也许这更多的是汽车行业的未来,而不是今天。但这似乎是一个重要的话题。对于这种情况,低延迟的价值主张似乎相当强大,因为那里存在与信息处理有关的生死问题。您如何看待汽车?您是否认为这是一个具有巨大潜力的行业,或者您认为这更像是 5 到 10 年的时间框架,然后他们才真正在车辆运营边缘的机器学习上进行大量投资?
戴夫:确实感觉空间在增加。每辆车上的摄像头数量一代又一代地增加了一倍。所以我们认为这是一个我们想要追求的空间。我们有一些引人注目的优势——正如你提到的,我们还没有讨论过延迟优势。只是成本优势,能够将人工智能计算放入每个摄像机中,并流回高级信息,而不是尝试将超高分辨率视频从每个摄像机流回中央处理单元,从而降低了复杂性该系统非常努力地尝试能够将计算分散到各个摄像机上。所以我们看到了一个很大的优势。作为一家初创公司,我们还没有进入这个领域。每当您追求汽车或医疗,任何涉及安全关键方面的领域时,都会大大增加您的成本和上市时间。因此,我们开始建设更标准、移动速度更快的工业空间。一旦我们在那里站稳脚跟,我们也会进入汽车领域。
埃里克:是的,明白了。好吧,让我们更多地讨论一下延迟。因为通常,当我们谈论延迟时,我们谈论的是收发器和数据从传感器移动到云计算到位置或某些边缘计算机位置。但在这种情况下,执行操作的延迟是否会更大?当我们在这里谈论改进时,这就是我们所谈论的吗?
戴夫:是的,当我们考虑机器学习中的延迟时,存在一个问题,如果我将图像发送到加速器,它需要多长时间才能返回?这就是反对派。不是反对,但这与吞吐量不同,即每秒可以处理多少张图像?之所以不同是因为你可以并行处理多个图像。因此,您可以批量处理,一次可能处理 16 个组,也可以在管道中处理,一次可能处理 4 个。它们是连续的,但需要四个时隙才能通过系统。
因此,当我们研究处理神经网络的数字系统时,这是一个巨大的挑战,神经网络和其他机器学习技术需要处理大量的权重。比如说,神经网络可能有 1000 万或 1500 万个权重。数字系统,特别是在嵌入式领域,通常无法同时将所有这些权重存储在芯片上。因为芯片太小,无法容纳那么多 SRAM。您只是在小型微芯片上通常没有大量兆字节的 SRAM。所以他们要做的是,加载神经网络的第一部分,对其进行处理,然后加载第二部分,即第二组权重。处理神经网络的那部分。加载第三组权重,处理神经网络的最后三分之一,然后对每一帧重复。但由于每次加载神经网络的不同部分时都会出现延迟,因此从 DRAM 或其他存储(通常是 DRAM)获取权重时会出现延迟。为了分摊该成本,系统通常会进行批处理,例如一次处理 16 个图像。所以现在加载神经网络的下一部分有延迟,但该延迟已分摊到 16 个输入而不是一个。
在神经网络中,这是一个很大的影响。因为一次运行一个部分,所以每一帧都会执行此操作。因此,如果您以每秒 30 帧的速度运行以匹配视频速度,则意味着每秒 30 次我们加载第一部分、第二部分、第三部分、第一部分、第二部分。所以这些延误加起来。模拟计算为我们所做的是,我们实际上拥有——我在该领域早些时候提到过嵌入式闪存技术。我们实际上正在使用这个。
闪存晶体管就是这些存储设备。实际上,您现在已经将它们存储在手机的 SSD 上。因此,您的 SSD、笔记本电脑或手机中的 SD 卡,这些设备都是为使用闪存晶体管而构建的。闪存晶体管是一种特殊类型的晶体管,其内部有一个可以存储电荷的浮动电容器。因此,您将在每个晶体管内存储数千个电子。您实际上可以存储多个级别,而不是仅存储两个级别(例如 1 或 0)。因为您不是存储 2,000 个电子,而是存储 250 个电子。这意味着一些数字。这称为多级电池技术。如今高密度 SSD 实际上已经具备了这一点。您可以在亚马逊上购买每个单元使用多个级别的硬盘。
Mythic 所做的是,我们将在其中一个闪存晶体管上存储 128 个级别,而不是存储 16 个级别。这使得我们的芯片上不仅仅有 10 兆字节的权重。实际上我们芯片上有 8000 万个权重。因此我们能够同时在芯片上存储整个神经网络,因为我们能够在每个闪存晶体管上存储数百个级别。通过这样做,我们不需要加载神经网络的部分。我们可以一次性运行整个神经网络。我们不需要批量处理。所以我们可以一次运行一帧。因此,我们通过神经网络的延迟比您在数字系统中看到的要快得多。因此,任何应用程序(例如 AR、VR 或具有移动部件的系统(例如我之前提到的分拣机)或延迟最终非常关键的导航系统),这项技术都可以产生巨大的影响。
埃里克:好的。伟大的。感谢您经历了这一切。很有意思。这是一种完全不同的数据存储方式,然后进行处理以实现此功能。戴夫,我还想谈两个问题——第一个问题是你如何与客户合作。从客户的角度来看,模拟工程与他们今天可能做的事情相比是什么样的?如果有人正在构建物联网设备,他们说:“嘿,我想探索这个。我想构建一个原型,”构建原型需要什么?然后,如果他们说,“我想将其投入生产”,那需要做什么?你如何与他们合作?您基本上只是运送芯片并说“如果您有疑问请致电我们”,还是倾向于在开发过程中进行更深入的参与?
戴夫:今天肯定更多的是实践参与,因为我们正处于公司的早期阶段。每当您开发新软件时,它的边缘往往会有些粗糙。因此,我们与今天的客户密切合作,解决我们遇到的问题。这对于这个领域来说并不罕见。
长期愿景是,这将与进行所谓的量化感知训练和数字系统编译相同。每当您将神经网络部署到系统上时,您都需要分析该神经网络在系统上执行的效率如何。每个系统都有计算限制和内存。因此,根据您开发该网络架构的方式,它将影响您在芯片中看到的性能。因此,研究人员将进行所谓的网络架构搜索,他们有一个工具可以在给定目标硬件平台的情况下搜索最有效的神经网络架构。我们将像任何数字系统一样插入这些工具。
然后对于模拟计算,今天我们使用所谓的模拟感知训练。因此,您可以使用神经网络,并使用模拟效果模型进行训练。这使得神经网络能够适应这些模拟效果。就像您现在一样,当您环顾房间时,您看不到眼睛固有的所有噪音,因为您的大脑会过滤掉这些噪音。但如果你早上真的很昏昏沉沉,有时你的视力会受到一些堆栈噪音的影响。因为当你累了的时候,过滤就不再那么有效了。神经网络的模拟训练是类似的。神经网络可以学会忽略任何模拟随机性。因此我们提供了培训工具。然后我们将使其自动化,就像量化感知训练一样。
埃里克:有趣。好的。这是一个不同的话题,但我最近一直在听一些关于大脑如何处理信息的播客。这确实很有趣,也很违反直觉,但又不同。
戴夫:是的,当我读到有关大脑及其信号传导的内容时,我发现我们人类所使用的计算技术非常令人难以置信。我相信人类神经元的准确性与我们在 Mythic 中使用的类似。我们以 8 位精度进行操作。如果我没记错的话,人脑的神经元大约有 7 位。因此,我们绝对能够利用此类技术实现非常强大的算法。问题在于围绕它构建正确的软件和系统。
埃里克:是的,没错。你对人类如何处理信息了解得越多,你就越会觉得,是的,我们可能会建造一台基本上与大脑一样运作的硅计算机。至少,在某些领域,对吗?我的意思是,大脑并没有什么神奇之处。这只是一台非常精密的加工机器。
戴夫:我们在所有这些方面都处于早期阶段。了解大脑还处于早期阶段。 ChatGPT 等神经网络研究还处于早期阶段。那么我们现在做的模拟计算也非常非常早期。今天这是我们的第一代产品。当然,当你第一次将某些技术推向市场时,你会了解到,“哦,我所做的每一个决定,我现在都知道如何做得更好了。”因此,我们对第二代产品感到非常兴奋。之后我们还有一个令人兴奋的路线图。
埃里克:嗯,这将是我的最后一个问题,基本上就是,未来让你兴奋的是什么?第二代即将到来。我不知道还有什么其他的,但是关于Mythic的未来你有什么想分享的吗?
戴夫:是的,我们的第一代,我们有今天。在第二代上,我们立即能够在能源效率和性能方面实现一个数量级的飞跃。这就是为什么我们能够进入消费领域并真正为消费设备带来强大的神经网络。比如说,为您的消费级相机系统以每秒 30 帧的速度运行 4K 视频是您今天无法想象的。
在那之后,法学硕士如今引起了巨大的轰动。在那个服务器环境中,我们讨论了价值 50 万美元的服务器对。巨大的动力,巨大的材料成本。如果您可以将其降低到 1,000 美元之类的价格,然后将其放入烤面包机大小的设备中并以 100 瓦的功率运行,会怎么样?这将对工业领域的企业产生重大影响。我不知道这是否会因成本而影响消费领域。但也许如果苹果制造了它,我们就可以把它卖掉。但我认为这就是我们下一步要做的事情。它试图将巨型服务器缩小到可以放在厨房柜台上的东西。
埃里克:我的意思是,即使只是将其放入一个可以放在公司园区的运输箱中。因为我和很多工业界的人谈论过使用法学硕士。而仅仅将数据放到云端,即使是 Azure,对于很多工厂来说也是不可能的,对吧?因此,他们只想在本地部署许多此类应用程序。
戴夫:你不希望你的数据被传播。而且,您还需要担心正常运行时间,对吗?如果您的互联网连接中断,您不希望工厂停工。因此,能够在本地拥有所有内容可以让您获得更高的可靠性、更好的延迟和可扩展性。所以我确信法学硕士正在走向边缘。云非常适合新技术和大规模部署。但最终,现实生活发生在边缘。因此,我们认为我们可以在这方面产生重大影响。它将这些产品带到使用的地方。
埃里克:太棒了。好吧,戴夫,非常感谢您今天抽出时间与我们讨论这个问题。我肯定会在两年内与您联系,并且很乐意在您推出下一代产品后获得更新。对此,我真的非常感激。谢谢。
戴夫:当然。很高兴来到这里。感谢您的款待。