写CUDA到底难在哪?

2025-06-21 18:45:16

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
Postgres 和 MySQL 应该怎么选?

Postgres 和 MySQL 应该怎么选?

目前来看,主要指标pg全方位优于mysql... 本内容是对...

2025-06-26
各大媒体预测顺位皆在首轮之后,杨瀚森实际顺位大涨是因为什么?

各大媒体预测顺位皆在首轮之后,杨瀚森实际顺位大涨是因为什么?

天时(签约Klutch),地利(大国国籍身份加成),人和(自...

2025-06-26
uni***真的很垃圾吗?

uni***真的很垃圾吗?

案例1:写了个H5的SDK给写前端的同事用,它集成到uni*...

2025-06-26
如何评价 6 月 26 号发布的小米AI眼镜?

如何评价 6 月 26 号发布的小米AI眼镜?

我就想要个这种UI效果的AR眼镜。 。 。 其实开盒功能没...

2025-06-26
如果我把索命咒改良成会带给人巨大的快感,属于什么成就?

如果我把索命咒改良成会带给人巨大的快感,属于什么成就?

划重点“达到人体生理上能体验的极限” 伏地魔对詹姆射出一道绿...

2025-06-26