Chinese, Simplified subtitles

← cs344_unit5_22_l_配置图块划分代码

Get Embed Code
2 Languages

Showing Revision 2 created 05/15/2013 by Wencheng Hu.

  1. 好的,所以在这里我们对这个函数再次运行了 NVVP。
  2. 我会放大这些第二次的函数。
    这里是我们每元素图块的转置矩阵。
  3. 这是我们刚写的内核。
  4. 正如你所看到的,它通过32x32的线程块运行,每个线程块都有 32x32个线程。
  5. 我们能足够确定将实现100%的全局负载效率和 100%全局存储效率。
  6. 不过,我们的DRAM利用实际上轻微地下降了。

  7. 那么发生什么了?为什么我们达到的带宽仍然是那么低?
  8. 答案会在下面的这一统计数字里 —— 共享内存重播开销。
  9. 但在我们讨论共享内存重播开销的详细信息,
  10. 即那意味着什么,对此需要做什么,我想稍微回顾一下谈过的内容,
  11. 谈谈我们如何让GPU变得快速的一般原则。