perf record 如果核心利用率大致不变,则有助于找到优化候选对象。但是,对于具有多个不同并行性阶段的代码,计算cpu周期将强调严重的并行性阶段,而不强调影响壁时间的顺序或有限的并行性阶段。简而言之,中堂性能使用可能会突出显示 amdahl's law
perf record
所以问题是如何 性能记录 / perf report 为了找到减少墙时间的优化候选者,从一致并行代码中最热的循环到中等并行瓶颈再到长的单线程阶段。
性能记录
perf report
已知的解决方法会留下一些需要的东西:
meta:这是一个perf特定的跟踪 to a more general question