CUDA GPU Pytorch - 搜索 News

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「 ...

腾讯网

天下苦英伟达久矣！PyTorch免CUDA加速推理，Triton时代要来？

近日，PyTorch 官方分享了如何实现无 CUDA 计算，对各个内核进行了微基准测试比较，并讨论了未来如何进一步改进 Triton 内核以缩小与 CUDA 的差距。在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与 ...

5 天

还在手写CUDA内核？CODA来了！LLM和新手也能让Transformer跑出光速

5 月 22 日，Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道：「经过一些数学重写，结果发现 Transformer 的所有内容都是一系列 GEMM + ...

8 个月

AI生成苹果Metal内核，PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核，比官方的还要好？ Gimlet Labs的最新研究显示，在苹果设备上，AI不仅能自动生成Metal内核，还较基线内核实现了87%的PyTorch推理速度提升。

快科技

努力替代CUDA！摩尔线程Torch-MUSA插件升级v1.3.0 完全开源

快科技10月31日消息，摩尔线程宣布，针对PyTorch深度学习框架的MUSA插件“Torch-MUSA”，迎来重大更新新版本v1.3.0，全面兼容PyTorch 2.2.0。新版进一步提升了PyTorch在摩尔线程GPU MUSA架构上的模型性能与覆盖度，能更友好地支持模型迁移到摩尔线程GPU。 PyTorch是全球 ...

太平洋科技资讯中心

AI巨头公开吐槽谷歌TPU生态壁垒揭示英伟达软件护城河与行业混合算 ...

作为应对，谷歌在近期发布了采用训练与推理分离设计的第八代TPU，并推出了旨在让PyTorch原生运行在TPU上的“TorchTPU”项目，试图降低生态迁移门槛。与此同时，行业也出现了混合策略的范例，例如Anthropic公司同时使用英伟达GPU、谷歌TPU和亚马逊Trainium芯片，根据不同工作负载选择最合适的平台，以平衡研究效率、训练成本与供应链安全。

电子工程专辑

英伟达或封杀第三方GPU，不再允许其他芯片兼容CUDA

近日，一则有关英伟达试图在其CUDA软件中封杀第三方GPU公司的消息，正引起国内外人工智能及芯片行业的关注。在CUDA 11.6版本开始，安装的时候会在EULA（最终用户许可协议）中看到相关警告条款：“你不能逆向工程、反编译或反汇编使用此SKD生成的任何结果 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果