《性能之巅》学习笔记之Dtrace

前言：

《性能之巅》这本书，从推荐序开始，就不停的给Dtrace打广告,按照书中的描述，这是一个非常高级的调试工具,可以用于排查难以定位的线上问题。

看到cpu这章，讲了一个应用场景。如果一个进程pidstat显示sys的CPU使用率很高,可以通过dtrace -n profile-997 / pid == xxx / {@[stack()] = count();}列印进程的内核栈信息，看cpu都消耗在了什么方法上。

于是我就在我的Centos虚拟机上执行了一下这个命令，结果居然返回invalid option, -n man了一下发现，文档中确实没有-n选项。

然后我又在Mac上试了一下，这次命令有-n参数，但是并没有执行成功，而是报了一大堆dtrace: error on enabled probe ID 1 (ID 34: profile:::profile-997): invalid kernel access in action #2

百度了一下，大概的意思是没有许可权，需要怎么怎么改配置之类的。就是想试一试而已，结果就各种不能用。这个工具实在是太劝退了。

但是因为这本书实在是把这个工具写的太神了，再怎么难用也想学习一下，于是就各种百度，然后查到了这篇文章动态追踪技术漫谈,然后打开了新世界的大门。。。

(ps:后来查到，Mac在/usr/share/examples/DTTk/目录下有dtrace各种使用的例子，可以直接用)

正文：

我并没有按照网上的攻略去改Mac的某个配置，因为学习这个工具的最终目的是排查线上问题，而公司线上是linux环境，动态追踪技术漫谈文章提到了SystemTap可以在linux上试用，这貌似是一个可以查询的方向。

另外，动态追踪技术漫谈这篇文章提到了很多我没听说过的辞汇，说实话并没有帮助我理解动态追踪是什么，但是作者提到他是在Brendan Gregg 的blog里边系统的学习了动态追踪，感觉这是一个更好的方向。

在Brendan Gregg 的blog里神游了一番,找到了Linux Extended BPF (eBPF) Tracing Tools,文章提到eBPF has raw tracing capabilities similar to those of DTrace and SystemTap,找到了第二个关键字eBPF，并引导我找到了这篇文章eBPF 简史

eBPF 简史里边给出了使用ebpf的代码test_overhead_kprobe_kern.c，但是我既看不懂，也不知道怎么执行。不过找到了最后一个关键词kprobe,并且引导我找到了最后一篇文章Linux内核调试技术——kprobe使用与实现(ps:被评论称为「醍醐灌顶，失眠绝佳之读物」)最终把整个知识链路串了起来。

一、kprobe：

困扰我的第一个问题是，Dtrace，或者其他调试工具，是如何获取系统调用的栈信息，为什么能统计系统调用的次数？在linux中，这个问题的答案是kprobe

Linux内核调试技术——kprobe使用与实现这篇文章详细介绍了kprobe。抛开各种细节，简单的描述就是：内核提供了一组方法，使用这组方法可以在内核任意一个方法上加一个钩子，每当内核执行到钩子的时候，就可以执行用户自定义的代码。具体的实现原理是：

比如现在要在do_fork上加一个钩子，首先根据名称获取该方法在内核中的代码地址，类似于cat /proc/kallsyms | grep do_fork返回的地址 ffffffff81084950 处的代码，并将其改成一个软中断。当程序执行到这条指令到时候，就会陷入中断处理程序，中断处理程序执行用户指定到代码，这样就实现了hook。