Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

人工智能工作负载分为两个不同的类别：训练和推理。虽然训练需要较大的计算和内存容量，访问速度并非主要因素，推理则是另一回事。在推理中，人工智能模型必须以极快的速度运行，为最终用户提供尽可能多的词块（单词），从而更快地回答用户的提示。

一家人工智能芯片初创公司 Groq 曾长期默默无闻，但现在它利用专为大型语言模型（LLM）（如 GPT、Llama 和 Mistral LLM）设计的语言处理单元（LPU），在提供超快推理速度方面取得了重大进展。

Groq LPU 是基于张量流处理器（TSP）架构的单核单元，在 INT8 时可达到 750 TOPS，在 FP16 时可达到 188 TeraFLOPS，具有 320x320 融合点乘矩阵乘法，此外还有 5120 个矢量 ALU。

Groq LPU 拥有 80 TB/s 的带宽，并具有大规模并发能力，其本地 SRAM 容量为 230 MB。所有这些共同作用，为 Groq 提供了出色的性能，在过去几天的互联网上掀起了波澜。

在Mixtral 8x7B 模型中，Groq LPU 的推理速度为每秒 480 个令牌，在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中，Groq 每秒可提供 300 个令牌，而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中，Groq LPU 每秒可输出 750 个令牌。

根据LLMPerf Leaderboard 的数据，Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商，其配置参数从 70 亿到 700 亿不等。在令牌吞吐量（输出）和到第一个令牌的时间（延迟）方面，Groq处于领先地位，实现了最高的吞吐量和第二低的延迟。

ChatGPT 采用 GPT-3.5 免费版，每秒可输出约 40 个令牌。目前的开源 LLM（如 Mixtral 8x7B）可以在大多数基准测试中击败 GPT 3.5，现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及，等待聊天机器人回应的日子似乎开始慢慢消失了。

这家人工智能初创公司直接威胁到英伟达（NVIDIA）、AMD 和英特尔提供的推理硬件，但业界是否愿意采用 LPU 仍是个问题，您可以在这里进行试用：

https://groq.com/

对文章打分

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

最新资讯

编辑精选

热门评论

相关文章

OpenAI CEO Sam Altman将向特朗普就职典礼基金捐赠100万美元

Meta首次推出用于为AI生成的视频添加水印的工具"Video Seal"

OpenAI深夜上新：ChatGPT能视频聊天了一键共享屏幕、召唤“圣诞老人”

现在可以让 ChatGPT 在节日期间发出圣诞老人的声音

微软和OpenAI宣布支持新的机构数据倡议 (IDI)

哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集

Top 10

中国最大沙漠被围起来了

解决方案在技术上过于落后中国企业仍然不愿采用国产芯片

贾跃亭又卖一台国际超模喜提FF 91

中芯国际将继续采用7纳米光刻技术至少到2026年尽管政府的预算几乎无上限

微软：今天起中国区Windows可以直接运行安卓手机App了

幽灵巨狮吃掉35名工人 126年后人们从它的牙缝毛发中发现一份惊人食谱