kthreadd - 穆世明博客

crash 是目前广泛使用的 linux 内核崩溃转储文件的分析工具，掌握 crash 的使用技巧，对于分析定位内核崩溃的问题，有着非常重要的作用。本文首先介绍了 crash 的基本概念和安装方法，其次详细介绍了如何使用 crash 工具分析内核崩溃转储文件，包括各种常用调试命令的使用方法，最后以几个实际工作中遇到的真实案例向读者展示了 crash 的强大功能。在这篇文章中，既有详细的工具使用方法，又有丰富的实际案例分析，相信您读过以后定会受益匪浅。

如前文所述，当 linux 系统内核发生崩溃的时候，可以通过 kdump 等方式收集内核崩溃之前的内存，生成一个转储文件 vmcore。内核开发者通过分析该 vmcore 文件就可以诊断出内核崩溃的原因，从而进行操作系统的代码改进。那么 crash 就是一个被广泛使用的内核崩溃转储文件分析工具，掌握 crash 的使用技巧，对于定位问题有着十分重要的作用。

由于 crash 用于调试内核崩溃的转储文件，因此使用 crash 需要依赖如下条件：

要想使用 crash 调试内核转储文件，需要安装 crash 工具和内核调试信息包。不同的发行版安装包名称略有差异，这里仅列出 RHEL 和 SLES 发行版对应的安装包名称如下：

表 1. crash 工具和内核调试包

以 RHEL 为例，安装 crash 及内核调试信息包的步骤如下：

启动参数说明

使用 crash 调试转储文件，需要在命令行输入两个参数：debug kernel 和 dump file，其中 dump file 是内核转储文件的名称，debug kernel 是由内核调试信息包安装的，不同的发行版名称略有不同，以 RHEL 和 SLES 为例：

使用 crash -h 或 man crash 可以查看 crash 支持的一系列选项，这里仅以常用的选项为例说明如下：

-h：打印帮助信息

-d：设置调试级别

-S：使用 /boot/System.map 作为默认的映射文件

-s：不显示版本、初始调试信息等，直接进入命令行

-i file：启动之后自动运行 file 中的命令，再接受用户输入

crash 报告分析

crash 命令启动后，会产生一个转储文件的分析报告摘要，如下图所示。

KERNEL: 系统崩溃时运行的 kernel 文件

DUMPFILE: 内核转储文件

CPUS: 所在机器的 CPU 数量

DATE: 系统崩溃的时间

TASKS: 系统崩溃时内存中的任务数

NODENAME: 崩溃的系统主机名

RELEASE: 和 VERSION: 内核版本号

MACHINE: CPU 架构

MEMORY: 崩溃主机的物理内存

PANIC: 崩溃类型，常见的崩溃类型包括：

SysRq (System Request)：通过魔法组合键导致的系统崩溃，通常是测试使用。通过 echo c > /proc/sysrq-trigger，就可以触发系统崩溃。

oops：可以看成是内核级的 Segmentation Fault。应用程序如果进行了非法内存访问或执行了非法指令，会得到 Segfault 信号，一般行为是 coredump，应用程序也可以自己截获 Segfault 信号，自行处理。如果内核自己犯了这样的错误，则会弹出 oops 信息。

crash 内置命令简介

crash 命令行启动后，可以通过一些内置命令来打印系统崩溃前的信息。

bt - backtrace

bt 命令用于查看系统崩溃前的堆栈等信息，这是系统调试中非常常用和好用的一个命令。

清单 2. bt 命令结果

如上输出中，以“# 数字”开头的行为调用堆栈，即系统崩溃前内核依次调用的一系列函数，通过这个可以迅速推断内核在何处崩溃。

log - dump system message buffer

log 命令可以打印系统消息缓冲区，从而可能找到系统崩溃的线索。log 命令的截图如下（为节省篇幅，已将部分行省略）：

清单 3. log 命令结果

ps - display process status information

ps 命令用于显示进程的状态，（如图）带 > 标识代表是活跃的进程。ps 命令的截图如下（省略部分行）：

清单 4. ps 命令结果

dis - disassembling instruction

dis 命令用于对给定地址的内容进行反汇编。dis 命令的截图如下：

清单 5. dis 命令结果

这里采用笔者在实际测试工作中发现的 SLES 系统下的系统崩溃问题作为案例来进行讲解。该系统已经配置了 kdump 启用，因此在系统发生崩溃之后，在 /var/crash/ 当天日期 / 目录下面生成一个 vmcore 文件，下面我们来对这个文件进行分析。

清单 6. 启动 crash

可以看到内核版本是 3.0.8-0.11-ppc64，这是一个 sles11sp2 的开发版本。

清单 7. bt 命令

清单 8. dis 命令

清单 9. linux 源码

用 struct 命令查看数据结构

清单 10. struct 命令

对照源码和反汇编代码，我们发现第 47 行的源码，实际对应的就是反汇编的代码

ld r10,8(r11) # 将寄存器 r11 的第 8 个 byte 后的内容，load 到寄存器 r10

清单 11. struct 命令

说明 r11 的内容已经被破坏，并不是指向一个 vm_struct 结构了。

经过上面的层层分析，我们推测问题的产生过程如下：mmu.c 第 46 行， vma = vma->next 取到了一个错误的地址，导致第 47 行 addr = (unsigned long) vma->addr 产生了内核错误。当然，更深层的原因，还需要对代码逻辑进行分析，找出导致这个现象的根源。

本节列出了使用 crash 过程中可能会碰到的问题，并给出了相应的解决对策。

清单 12. 缺少调试信息包

遇到这种问题时，需要安装内核调试信息包，再重新运行 crash 命令。

清单 13. vmlinux 和 vmcore 版本不匹配

这种情况说明你所使用的 vmlinux 与产生 vmcore 的内核版本不一致，需要使用相同版本的内核来调试 vmcore 文件。

清单 14. core 文件不完整

这个提示说明你使用的 vmcore 文件不完整。导致这个问题的原因可能有多种，硬盘空间不足，网络 dump 时网络中断等等。对于这种情况，我们需要重新 dump 一个完整的 vmcore 进行分析调试。

对于内核开发人员，crash 已经成了必不可少的一个工具。内核固然高深，但是通过 kdump 和 crash 这对战友的亲密配合，很多问题都会迎刃而解。本文仅为您介绍了 crash 的基本知识，更多的技巧还需要读者在实践中不断探索和总结。

上一篇：三维数组写法

下一篇： ubuntu安装vnc viewer

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/770.html

启动参数说明

crash 报告分析

crash 内置命令简介

相关文章：