快捷搜索:  

谷歌狂喜:jax本能超越pytorch、tensorflow,或成gpu推理先生最疾选取

"谷歌狂喜:jax本能超越pytorch、tensorflow,或成gpu推理先生最疾选取,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作谷歌狂喜:JAX性能超越Pytorch、TensorFlow,可能成GPU推理训练最快选择新智元·2024-04-02 07:23关注7项指标排名第一。

JAX在最近的基准测试中的性能已经不声不响地超过了Pytorch和TensorFlow,也许将来会有更多的大模型诞生在这个平台上。谷歌在背后的默默付出终于得到了回报。

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。 

而且测试并不是在JAX性能表现最好的TPU上完成的。 

虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。 

但将来,也许有更多的大模型会基于JAX平台进行(Carry Out)训练和运行。 

01 模型

最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch达成以及搭配TensorFlow的Keras 2进行(Carry Out)了基准测试。 

首先,他们(They)为生成式和非生成 式人工智 能任务选择了一组主流的计算机视觉和自然(Nature)语言处理模型: 

对于模型的Keras版本,其采用了KerasCV和KerasNLP中已有的达成进行(Carry Out)构建。而对于原生的PyTorch版本,则选择了网站上最流行的几个选项: 

- 来自HuggingFace Transformers的BERT、Gemma、Mistral

- 来自HuggingFace Diffusers的StableDiffusion

- 来自Meta的SegmentAnything

他们(They)将这组模型称作「Native PyTorch」,以便与使用PyTorch后端的Keras 3版本进行(Carry Out)区分。 

他们(They)对所有基准测试都使用了合成数据,并在所有LLM训练和推理中使用了bfloat16精度,同时在所有LLM训练中使用了LoRA(微调)。 

根据PyTorch团队的建议,他们(They)在原生PyTorch达成中使用了torch.compile(model, mode="reduce-overhead")(由于不兼容,Gemma和Mistral训练除外)。 

为了衡量开箱即用的性能,他们(They)使用高级API(例如HuggingFace的Trainer()、标准PyTorch训练循环和Keras model.fit()),并尽可能减少配置。 

02 硬件配置

所有基准测试均使用Google Cloud Compute Engine进行(Carry Out),配置为:一块拥有40GB显存的NVIDIA A100 GPU、12个虚拟CPU和85GB的主机内存。 

03 基准测试结果(Result)

表2显示了基准测试结果(Result)(以步/毫秒为单位)。每步都涉及对单个数据批次进行(Carry Out)训练可能预测。 

结果(Result)是100步的平均值,但排除了第一个步,因为第一步包括了模型创建和编译,这会额外花费时间。 

为了确保比较的公平性,对于相同的模型和任务(不论是训练还是推理)都使用相同的批大小。 

然而,对于不同的模型和任务,由于它们(They)的规模和架构有所不同,可根据需要调整数据批大小,从而避免因过大而导致内存溢出,可能是批过小而导致GPU使用不足。 

过小的批大小也会使PyTorch看起来较慢,因为会增加Python的开销。 

对于大型语言模型(Gemma和Mistral),测试时也使用了相同的批处理大小,因为它们(They)是相同类型的模型,具有类似数量的参数(7B)。 

考虑到用户对单批文本生成的需求,也对批大小为1的文本生成情况进行(Carry Out)了基准测试。 

04 关键发现发现1

不存在「最优」后端。 

Keras的三种后端各展所长,重要的是,就性能而言,并没有哪一个后端能够始终胜出。 

选择哪个后端最快,往往取决于模型的架构。 

这一点突出了选择不同框架以追求最佳性能的重要性。Keras 3可以帮助轻松切换后端,以便为模型找到最合适的选择。 

发现2

Keras 3的性能普遍超过PyTorch的标准达成。 

相对于原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明显的提升。 

特别是,在10个测试任务中,有5个的速度提升超过了50%。其中,最高更是达到了290%。 

如果是100%,意味着Keras 3的速度是PyTorch的2倍;如果是0%,则表示两者性能相当 

发现3

Keras 3提供一流的「开箱即用」性能。 

也就是,所有参与测试的Keras模型都未进行(Carry Out)过任何优化。相比之下,使用原生PyTorch达成时,通常需要用户自行进行(Carry Out)更多性能优化。 

除了上面分享的数据,测试中还注意到在HuggingFace Diffusers的StableDiffusion推理功能上,从版本0.25.0升级到0.3.0时,性能提升超过了100%。 

同样,在HuggingFace Transformers中,Gemma从4.38.1版本升级至4.38.2版本也显著提高了性能。 

这些性能的提升凸显了HuggingFace在性能优化方面的专注和努力(Effort)。 

对于一些手动优化较少的模型,如SegmentAnything,则使用了研究作者提供的达成。在这种情况下,与Keras相比,性能差距比大多数其他模型更大。 

这表明,Keras能够提供卓越的开箱即用性能,用户无需深入了解所有优化技巧即可享受到快速的模型运行速度。 

发现4

Keras 3的表现始终优于Keras 2。 

例如,SegmentAnything的推理速度提升了惊人的380%,StableDiffusion的训练处理速度提升了150%以上,BERT的训练处理速度也提升了100%以上。 

这主要是因为Keras 2在某些情况下直接使用了更多的TensorFlow融合操作,而这可能对于XLA的编译并不是最佳选择。 

值得注意的是,即使仅升级到Keras 3并继续使用TensorFlow后端,也能显著提升性能。 

05 结论

框架的性能在很大程度上取决于具体使用的模型。 

Keras 3能够帮助为任务选择最快的框架,这种选择几乎总能超越Keras 2和PyTorch达成。 

更为重要的是,Keras 3模型无需进行(Carry Out)复杂的底层优化,即可提供卓越的开箱即用性能。 

参考资料: 

https://keras.io/getting_started/benchmarks/ 

本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+10

好文章,需要你的鼓励

新智元特邀作者0收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了Deepmind创始人警告“AI币圈化”:巨额资金涌入,带来炒作和欺诈吴伯凡:竞争力来自爱,而不是AISuno奇袭音乐(Music)圈,AI能制造万能青年旅店吗?假如AI圈有世纪大和解DeepMind首发游戏(Game)AI智能体SIMA,只用自然(Nature)语言就能玩转 山羊模拟器 教授说经常用AI写论文会变蠢?吓得我赶紧打开ChatGPT查一下AIGC时代,新闻(News)不存在了?从万元私董会到滥用AI,抖音(Tik Tok)封杀“割韭菜”内容最新文章推荐奇瑞出手相助,观致“复活重启”?祖国经济(Economy)第一城,正在打破“天花板”36氪首发 | 数字生命技术公司「MyTwins.ai」完成天使轮融资,将来将会把数字分身带给每一位用户大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了Deepmind创始人警告“AI币圈化”:巨额资金涌入,带来炒作和欺诈腾讯投资的网约车公司,三年亏20亿,要上市了女性题材剧迎小高潮,谁是下一个“破局者”?吴伯凡:竞争力来自爱,而不是AISuno奇袭音乐(Music)圈,AI能制造万能青年旅店吗?极氪的烦恼:小米变“娘”了新智元特邀作者

作者有点忙,还没写简介

发表文章2029篇最近内容谷歌狂喜:JAX性能超越Pytorch、TensorFlow,可能成GPU推理训练最快选择36分钟前DeepMind首发游戏(Game)AI智能体SIMA,只用自然(Nature)语言就能玩转 山羊模拟器 37分钟前AI程序员Devin独角兽,半年估值20亿美元?业内曝AI泡沫:买卡500亿,收入30亿16小时前阅读更多内容,狠戳这里下一篇DeepMind首发游戏(Game)AI智能体SIMA,只用自然(Nature)语言就能玩转 山羊模拟器

SIMA从视频游戏(Game)中学习

37分钟前

热门标签完达山奶粉北大荒张沫凡产业结构优化高附加值风险点payoneer我独自生活(Life)日日顺百视通上海文广英镑汇率心理账户m17三角洲离岸鞋离岸运动员冷冻电镜搬家公司收费情况罗迦陵哈同成份股规模化养殖场乐居群星vfx电容话筒文书摩根大通银行刘看山关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

谷歌狂喜:JAX性能超越Pytorch、TensorFlow,或成GPU推理训练最快选择

您可能还会对下面的文章感兴趣:

赞(658) 踩(22) 阅读数(2705) 最新评论 查看所有评论
加载中......
发表评论