段错误原因分析和查找
阅读原文时间:2021年04月20日阅读:1

http://www.cnblogs.com/panfeng412/archive/2011/11/06/2237857.html

最近在Linux环境下做C语言项目,由于是在一个原有项目基础之上进行二次开发,而且项目工程庞大复杂,出现了不少问题,其中遇到最多、花费时间最长的问题就是著名的“段错误”(Segmentation Fault)。借此机会系统学习了一下,这里对Linux环境下的段错误做个小结,方便以后同类问题的排查与解决。

1. 段错误是什么

一句话来说,段错误是指访问的内存超出了系统给这个程序所设定的内存空间,例如访问了不存在的内存地址、访问了系统保护的内存地址、访问了只读的内存地址等等情况。这里贴一个对于“段错误”的准确定义(参考Answers.com):

A segmentation fault (often shortened to segfault) is a particular error condition that can occur during the operation of computer software. In short, a segmentation fault occurs when a program attempts to access a memory location that it is not allowed to access, or attempts to access a memory location in a way that is not allowed (e.g., attempts to write to a read-only location, or to overwrite part of the operating system). Systems based on processors like the Motorola 68000 tend to refer to these events as Address or Bus errors.

Segmentation is one approach to memory management and protection in the operating system. It has been superseded by paging for most purposes, but much of the terminology of segmentation is still used, "segmentation fault" being an example. Some operating systems still have segmentation at some logical level although paging is used as the main memory management policy.

On Unix-like operating systems, a process that accesses invalid memory receives the SIGSEGV signal. On Microsoft Windows, a process that accesses invalid memory receives the STATUS_ACCESS_VIOLATION exception.

2. 段错误产生的原因

2.1 访问不存在的内存地址

#include
#include
void main()
{
int *ptr = NULL;
*ptr = 0;
}

2.2 访问系统保护的内存地址

#include
#include
void main()
{
int *ptr = (int *)0;
*ptr = 100;
}

2.3 访问只读的内存地址

#include
#include
#include
void main()
{
char *ptr = "test";
strcpy(ptr, "TEST");
}

2.4 栈溢出

#include
#include
void main()
{
main();
}

等等其他原因。

3. 段错误信息的获取

程序发生段错误时,提示信息很少,下面有几种查看段错误的发生信息的途径。

3.1 dmesg

dmesg可以在应用程序crash掉时,显示内核中保存的相关信息。如下所示,通过dmesg命令可以查看发生段错误的程序名称、引起段错误发生的内存地址、指令指针地址、堆栈指针地址、错误代码、错误原因等。以程序2.3为例:

panfeng@ubuntu:~/segfault$ dmesg
[ 2329.479037] segfault3[2700]: segfault at 80484e0 ip 00d2906a sp bfbbec3c error 7 in libc-2.10.1.so[cb4000+13e000]

3.2 -g

使用gcc编译程序的源码时,加上-g参数,这样可以使得生成的二进制文件中加入可以用于gdb调试的有用信息。以程序2.3为例:

panfeng@ubuntu:~/segfault$ gcc -g -o segfault3 segfault3.c

3.3 nm

使用nm命令列出二进制文件中的符号表,包括符号地址、符号类型、符号名等,这样可以帮助定位在哪里发生了段错误。以程序2.3为例:

panfeng@ubuntu:~/segfault$ nm segfault3
08049f20 d _DYNAMIC
08049ff4 d _GLOBAL_OFFSET_TABLE_
080484dc R _IO_stdin_used
w _Jv_RegisterClasses
08049f10 d __CTOR_END__
08049f0c d __CTOR_LIST__
08049f18 D __DTOR_END__
08049f14 d __DTOR_LIST__
080484ec r __FRAME_END__
08049f1c d __JCR_END__
08049f1c d __JCR_LIST__
0804a014 A __bss_start
0804a00c D __data_start
08048490 t __do_global_ctors_aux
08048360 t __do_global_dtors_aux
0804a010 D __dso_handle
w __gmon_start__
0804848a T __i686.get_pc_thunk.bx
08049f0c d __init_array_end
08049f0c d __init_array_start
08048420 T __libc_csu_fini
08048430 T __libc_csu_init
U __libc_start_main@@GLIBC_2.0
0804a014 A _edata
0804a01c A _end
080484bc T _fini
080484d8 R _fp_hw
080482bc T _init
08048330 T _start
0804a014 b completed.6990
0804a00c W data_start
0804a018 b dtor_idx.6992
080483c0 t frame_dummy
080483e4 T main
U memcpy@@GLIBC_2.0

3.4 ldd

使用ldd命令查看二进制程序的共享链接库依赖,包括库的名称、起始地址,这样可以确定段错误到底是发生在了自己的程序中还是依赖的共享库中。以程序2.3为例:

panfeng@ubuntu:~/segfault$ ldd ./segfault3
linux-gate.so.1 => (0x00e08000)
libc.so.6 => /lib/tls/i686/cmov/libc.so.6 (0x00675000)
/lib/ld-linux.so.2 (0x00482000)

4. 段错误的调试方法

4.1 使用printf输出信息

这个是看似最简单但往往很多情况下十分有效的调试方式,也许可以说是程序员用的最多的调试方式。简单来说,就是在程序的重要代码附近加上像printf这类输出信息,这样可以跟踪并打印出段错误在代码中可能出现的位置。

为了方便使用这种方法,可以使用条件编译指令#ifdef DEBUG和#endif把printf函数包起来。这样在程序编译时,如果加上-DDEBUG参数就能查看调试信息;否则不加该参数就不会显示调试信息。

4.2 使用gcc和gdb

4.2.1 调试步骤

 1、为了能够使用gdb调试程序,在编译阶段加上-g参数,以程序2.3为例:

panfeng@ubuntu:~/segfault$ gcc -g -o segfault3 segfault3.c

2、使用gdb命令调试程序:

panfeng@ubuntu:~/segfault$ gdb ./segfault3
GNU gdb (GDB) 7.0-ubuntu
Copyright (C) 2009 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later http://gnu.org/licenses/gpl.html
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law. Type "show copying"
and "show warranty" for details.
This GDB was configured as "i486-linux-gnu".
For bug reporting instructions, please see:
http://www.gnu.org/software/gdb/bugs/
Reading symbols from /home/panfeng/segfault/segfault3…done.
(gdb)

3、进入gdb后,运行程序:

(gdb) run
Starting program: /home/panfeng/segfault/segfault3

Program received signal SIGSEGV, Segmentation fault.
0x001a306a in memcpy () from /lib/tls/i686/cmov/libc.so.6
(gdb)

从输出看出,程序2.3收到SIGSEGV信号,触发段错误,并提示地址0x001a306a、调用memcpy报的错,位于/lib/tls/i686/cmov/libc.so.6库中。

4、完成调试后,输入quit命令退出gdb:

(gdb) quit
A debugging session is active.

Inferior 1 \[process 3207\] will be killed.

Quit anyway? (y or n) y

4.2.2 适用场景

1、仅当能确定程序一定会发生段错误的情况下使用。

2、当程序的源码可以获得的情况下,使用-g参数编译程序。

3、一般用于测试阶段,生产环境下gdb会有副作用:使程序运行减慢,运行不够稳定,等等。

4、即使在测试阶段,如果程序过于复杂,gdb也不能处理。

4.3 使用core文件和gdb

在4.2节中提到段错误会触发SIGSEGV信号,通过man 7 signal,可以看到SIGSEGV默认的handler会打印段错误出错信息,并产生core文件,由此我们可以借助于程序异常退出时生成的core文件中的调试信息,使用gdb工具来调试程序中的段错误。

4.3.1 调试步骤

1、在一些Linux版本下,默认是不产生core文件的,首先可以查看一下系统core文件的大小限制:

panfeng@ubuntu:~/segfault$ ulimit -c
0

2、可以看到默认设置情况下,本机Linux环境下发生段错误时不会自动生成core文件,下面设置下core文件的大小限制(单位为KB):

panfeng@ubuntu:~/segfault$ ulimit -c 1024
panfeng@ubuntu:~/segfault$ ulimit -c
1024

3、运行程序2.3,发生段错误生成core文件:

panfeng@ubuntu:~/segfault$ ./segfault3
段错误 (core dumped)

4、加载core文件,使用gdb工具进行调试:

panfeng@ubuntu:~/segfault$ gdb ./segfault3 ./core
GNU gdb (GDB) 7.0-ubuntu
Copyright (C) 2009 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later http://gnu.org/licenses/gpl.html
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law. Type "show copying"
and "show warranty" for details.
This GDB was configured as "i486-linux-gnu".
For bug reporting instructions, please see:
http://www.gnu.org/software/gdb/bugs/
Reading symbols from /home/panfeng/segfault/segfault3…done.

warning: Can't read pathname for load map: 输入/输出错误.
Reading symbols from /lib/tls/i686/cmov/libc.so.6…(no debugging symbols found)…done.
Loaded symbols for /lib/tls/i686/cmov/libc.so.6
Reading symbols from /lib/ld-linux.so.2…(no debugging symbols found)…done.
Loaded symbols for /lib/ld-linux.so.2
Core was generated by `./segfault3'.
Program terminated with signal 11, Segmentation fault.
#0 0x0018506a in memcpy () from /lib/tls/i686/cmov/libc.6

从输出看出,同4.2.1中一样的段错误信息。

5、完成调试后,输入quit命令退出gdb:

(gdb) quit

4.3.2 适用场景

1、适合于在实际生成环境下调试程序的段错误(即在不用重新发生段错误的情况下重现段错误)。

2、当程序很复杂,core文件相当大时,该方法不可用。

4.4 使用objdump

4.4.1 调试步骤

1、使用dmesg命令,找到最近发生的段错误输出信息:

panfeng@ubuntu:~/segfault$ dmesg
… …
[17257.502808] segfault3[3320]: segfault at 80484e0 ip 0018506a sp bfc1cd6c error 7 in libc-2.10.1.so[110000+13e000]

其中,对我们接下来的调试过程有用的是发生段错误的地址:80484e0和指令指针地址:0018506a。

2、使用objdump生成二进制的相关信息,重定向到文件中:

panfeng@ubuntu:~/segfault$ objdump -d ./segfault3 > segfault3Dump

其中,生成的segfault3Dump文件中包含了二进制文件的segfault3的汇编代码。

3、在segfault3Dump文件中查找发生段错误的地址:

panfeng@ubuntu:~/segfault$ grep -n -A 10 -B 10 "80484e0" ./segfault3Dump
121- 80483df: ff d0 call *%eax
122- 80483e1: c9 leave
123- 80483e2: c3 ret
124- 80483e3: 90 nop
125-
126-080483e4

:
127- 80483e4: 55 push %ebp
128- 80483e5: 89 e5 mov %esp,%ebp
129- 80483e7: 83 e4 f0 and $0xfffffff0,%esp
130- 80483ea: 83 ec 20 sub $0x20,%esp
131: 80483ed: c7 44 24 1c e0 84 04 movl $0x80484e0,0x1c(%esp)
132- 80483f4: 08
133- 80483f5: b8 e5 84 04 08 mov $0x80484e5,%eax
134- 80483fa: c7 44 24 08 05 00 00 movl $0x5,0x8(%esp)
135- 8048401: 00
136- 8048402: 89 44 24 04 mov %eax,0x4(%esp)
137- 8048406: 8b 44 24 1c mov 0x1c(%esp),%eax
138- 804840a: 89 04 24 mov %eax,(%esp)
139- 804840d: e8 0a ff ff ff call 804831c
140- 8048412: c9 leave
141- 8048413: c3 ret

通过对以上汇编代码分析,得知段错误发生main函数,对应的汇编指令是movl $0x80484e0,0x1c(%esp),接下来打开程序的源码,找到汇编指令对应的源码,也就定位到段错误了。

4.4.2 适用场景

1、不需要-g参数编译,不需要借助于core文件,但需要有一定的汇编语言基础。

2、如果使用了gcc编译优化参数(-O1,-O2,-O3)的话,生成的汇编指令将会被优化,使得调试过程有些难度。

4.5 使用catchsegv

catchsegv命令专门用来扑获段错误,它通过动态加载器(ld-linux.so)的预加载机制(PRELOAD)把一个事先写好的库(/lib/libSegFault.so)加载上,用于捕捉断错误的出错信息。

panfeng@ubuntu:~/segfault$ catchsegv ./segfault3
Segmentation fault (core dumped)
*** Segmentation fault
Register dump:

EAX: 00000000 EBX: 00fb3ff4 ECX: 00000002 EDX: 00000000
ESI: 080484e5 EDI: 080484e0 EBP: bfb7ad38 ESP: bfb7ad0c

EIP: 00ee806a EFLAGS: 00010203

CS: 0073 DS: 007b ES: 007b FS: 0000 GS: 0033 SS: 007b

Trap: 0000000e Error: 00000007 OldMask: 00000000
ESP/signal: bfb7ad0c CR2: 080484e0

Backtrace:
/lib/libSegFault.so[0x3b606f]
??:0(??)[0xc76400]
/lib/tls/i686/cmov/libc.so.6(__libc_start_main+0xe6)[0xe89b56]
/build/buildd/eglibc-2.10.1/csu/../sysdeps/i386/elf/start.S:122(_start)[0x8048351]

Memory map:

00258000-00273000 r-xp 00000000 08:01 157 /lib/ld-2.10.1.so
00273000-00274000 r--p 0001a000 08:01 157 /lib/ld-2.10.1.so
00274000-00275000 rw-p 0001b000 08:01 157 /lib/ld-2.10.1.so
003b4000-003b7000 r-xp 00000000 08:01 13105 /lib/libSegFault.so
003b7000-003b8000 r--p 00002000 08:01 13105 /lib/libSegFault.so
003b8000-003b9000 rw-p 00003000 08:01 13105 /lib/libSegFault.so
00c76000-00c77000 r-xp 00000000 00:00 0 [vdso]
00e0d000-00e29000 r-xp 00000000 08:01 4817 /lib/libgcc_s.so.1
00e29000-00e2a000 r--p 0001b000 08:01 4817 /lib/libgcc_s.so.1
00e2a000-00e2b000 rw-p 0001c000 08:01 4817 /lib/libgcc_s.so.1
00e73000-00fb1000 r-xp 00000000 08:01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb1000-00fb2000 ---p 0013e000 08:01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb2000-00fb4000 r--p 0013e000 08:01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb4000-00fb5000 rw-p 00140000 08:01 1800 /lib/tls/i686/cmov/libc-2.10.1.so
00fb5000-00fb8000 rw-p 00000000 00:00 0
08048000-08049000 r-xp 00000000 08:01 303895 /home/panfeng/segfault/segfault3
08049000-0804a000 r--p 00000000 08:01 303895 /home/panfeng/segfault/segfault3
0804a000-0804b000 rw-p 00001000 08:01 303895 /home/panfeng/segfault/segfault3
09432000-09457000 rw-p 00000000 00:00 0 [heap]
b78cf000-b78d1000 rw-p 00000000 00:00 0
b78df000-b78e1000 rw-p 00000000 00:00 0
bfb67000-bfb7c000 rw-p 00000000 00:00 0 [stack]

5. 一些注意事项

1、出现段错误时,首先应该想到段错误的定义,从它出发考虑引发错误的原因。

2、在使用指针时,定义了指针后记得初始化指针,在使用的时候记得判断是否为NULL。

3、在使用数组时,注意数组是否被初始化,数组下标是否越界,数组元素是否存在等。

4、在访问变量时,注意变量所占地址空间是否已经被程序释放掉。

5、在处理变量时,注意变量的格式控制是否合理等。

6. 参考资料列表

1、http://www.docin.com/p-105923877.html

2、http://blog.chinaunix.net/space.php?uid=317451&do=blog&id=92412

http://qgjie456.blog.163.com/blog/static/35451367201112722827742/

一、 段错误原因分析

1 使用非法的指针,包括使用未经初始化及已经释放的指针(指针使用之前和释放之后置为NULL)

2 内存读/写越界。包括数组访问越界,或在使用一些写内存的函数时,长度指定不正确或者这些函数本身不能指定长度,典型的函数有strcpy(strncpy),sprintf

(snprint)等等。

3 对于C++对象,请通过相应类的接口来去内存进行操作,禁止通过其返回的指针对内存进行写操作,典型的如string类的data()和c_str()两个接口。

4 函数不要返回其中局部对象的引用或地址,当函数返回时,函数栈弹出,局部对象的地址将失效,改写或读这些地址都会造成未知的后果。

5 避免在栈中定义过大的数组,否则可能导致进程的栈空间不足,此时也会出现段错误。

6 操作系统的相关限制,如:进程可以分配的最大内存,进程可以打开的最大文件描述符个数等,这些需要通过ulimit或setrlimit或sysctl来解除相关的限制。

7 多线程的程序,涉及到多个线程同时操作一块内存时必须进行互斥,否则内存中的内存将不可预料

8 使用非线程安全的函数调用,例如 strerror 函数等

9 在有信号的环境中,使用不可重入函数调用,而这些函数内部会读或写某片内存区,当信号中断时,内存写操作将被打断,而下次进入时将不避免的出错。

10 跨进程传递某个地址

11 某些有特殊要求的系统调用,例如epool_wait,正常情况下使用close关闭一个套接字后,epool会不再返回这个socket上的事件,但是如果你使用dup或dup2操作,将

导致epool无法进行移除操作。

二、 段错误原因查找

1) 查看函数调用栈

在头文件"execinfo.h"中声明了三个函数用于获取当前线程的函数调用堆栈

Function: int backtrace(void **buffer,int size)

该函数用与获取当前线程的调用堆栈,获取的信息将会被存放在buffer中,它是一个指针列表。参数 size 用来指定buffer中可以保存多少个void* 元素。函数返回值是实际获取的指针个数,最大不超过size大小。

在buffer中的指针实际是从堆栈中获取的返回地址,每一个堆栈框架有一个返回地址。

注意某些编译器的优化选项对获取正确的调用堆栈有干扰,另外内联函数没有堆栈框架;删除框架指针也会使无法正确解析堆栈内容。

Function: char ** backtrace_symbols (void *const *buffer, int size)

backtrace_symbols将从backtrace函数获取的信息转化为一个字符串数组. 参数buffer应该是从backtrace函数获取的数组指针,size是该数组中的元素个数(backtrace的返回值)   。

函数返回值是一个指向字符串数组的指针,它的大小同buffer相同.每个字符串包含了一个相对于buffer中对应元素的可打印信息.它包括函数名,函数的偏移地址,和实际的返回地址。

现在,只有使用ELF二进制格式的程序和苦衷才能获取函数名称和偏移地址.在其他系统,只有16进制的返回地址能被获取.另外,你可能需要传递相应的标志给链接器,以能支持函数名功能(比如,在使用GNU ld的系统中,你需要传递(-rdynamic))。

该函数的返回值是通过malloc函数申请的空间,因此调用这必须使用free函数来释放指针。

注意:如果不能为字符串获取足够的空间函数的返回值将会为NULL

Function:void backtrace_symbols_fd (void *const *buffer, int size, int fd)

backtrace_symbols_fd与backtrace_symbols 函数具有相同的功能,不同的是它不会给调用者返回字符串数组,而是将结果写入文件描述符为fd的文件中,每个函数对应一行.它不需要调用malloc函数,因此适用于有可能调用该函数会失败的情况。

下面的例子显示了这三个函数的用法

#include
#include
#include

/* Obtain a backtrace and print it to stdout. */
void print_trace (void)
{
void *array[10];
size_t size;
char **strings;
size_t i;

size = backtrace (array, 10);
strings = backtrace_symbols (array, size);

printf ("Obtained %zd stack frames.\n", size);

for (i = 0; i < size; i++)
{
printf ("%s\n", strings);
}
free (strings);
}

/* A dummy function to make the backtrace more interesting. */
void  dummy_function (void)
{
print_trace ();
}

int  main (void)
{
dummy_function ();
return 0;
}

备注:void *const *buffer -- buffer指向char类型的常量指针的指针(很是拗口)

2) 查看寄存器内容
要查看寄存器内容有两个解决办法:

A) 在内核里面把这些寄存器打印出来;

    

       图一:段错误时内核执行路径

根据上图,我们只需要在__do_user_fault的时候把打印信息打开就可以了,如下:

#ifdef CONFIG_DEBUG_USER

if (user_debug & UDBG_SEGV) {

printk(KERN_DEBUG "%s: unhandled page fault (%d) at 0x%08lx, code 0x%03x\n",

tsk->comm, sig, addr, fsr);

show_pte(tsk->mm, addr);

show_regs(regs);

}

#endif

改成

printk(KERN_DEBUG "%s: unhandled page fault (%d) at 0x%08lx, code 0x%03x\n",

tsk->comm, sig, addr, fsr);

show_pte(tsk->mm, addr);

show_regs(regs);

就可以了;

里面会打印出 pc 寄存器的值。

B) 在上层程序里面把寄存器打印出来;

这个做法的主要思路就是先拦截SIGSEGV信号,然后在信号处理函数里面打印信息:

信号拦截代码如下:

static void  catch_sigsegv()

{

struct sigaction action;

memset(&action, 0, sizeof(action));

action.sa_sigaction = sigsegv_handler;

action.sa_flags = SA_SIGINFO;       // 注意这里,flag 是 SA_SIGINFO,这样信号处理函数就会多一些信息。

if(sigaction(SIGSEGV, &action, NULL) < 0){

perror("sigaction");

}

}

只需要在main函数里面加入这个函数就可以了,

main(…)

{

….

catch_sigsegv();

}

下面来看看这个处理函数sigsegv_handler是怎么写的,代码如下:

#include

#include

#include

#include

#include

#include

#include

static void sigsegv_handler(int signum, siginfo_t* info, void*ptr)

{

static const char *si_codes[3] = {"", "SEGV_MAPERR", "SEGV_ACCERR"};

int i;

ucontext_t *ucontext = (ucontext_t*)ptr;

void *bt[100];

char **strings;

printf("Segmentation Fault Trace:\n");

printf("info.si_signo = %d\n", signum);

printf("info.si_errno = %d\n", info->si_errno);

printf("info.si_code  = %d (%s)\n", info->si_code, si_codes[info->si_code]);

printf("info.si_addr  = %p\n", info->si_addr);

/*for arm*/

printf("the arm_fp 0x%3x\n",ucontext->uc_mcontext.arm_fp);

printf("the arm_ip 0x%3x\n",ucontext->uc_mcontext.arm_ip);

printf("the arm_sp 0x%3x\n",ucontext->uc_mcontext.arm_sp);

printf("the arm_lr 0x%3x\n",ucontext->uc_mcontext.arm_lr);

printf("the arm_pc 0x%3x\n",ucontext->uc_mcontext.arm_pc);

printf("the arm_cpsr 0x%3x\n",ucontext->uc_mcontext.arm_cpsr);

printf("the falut_address 0x%3x\n",ucontext->uc_mcontext.fault_address);

printf("Stack trace (non-dedicated):");

int sz = backtrace(bt, 20);

printf("the stack trace is %d\n",sz);

strings = backtrace_symbols(bt, sz);

for(i = 0; i < sz; ++i){

printf("%s\n", strings[i]);

}

_exit (-1);

}

测试代码如下:

void test_segv()

{

char *i=0;

*i=10;

}

void cause_segv()

{

printf("this is the cause_segv\n");

test_segv();

}

int main(int argc,char **argv)

{

catch_sigsegv();

cause_segv();

return 0;

}

编译方法:

gcc segment_trace.c -g –rdynamic –o segment_trace

执行:

./segment_trace

输出如下:

this is the catch_sigsegv

Segmentation Fault Trace:

info.si_signo = 11

info.si_errno = 0

info.si_code  = 1 (SEGV_MAPERR)

info.si_addr  = (nil)

the arm_fp 0xb7f8a3d4

the arm_ip 0xb7f8a3d8

the arm_sp 0xb7f8a3c0

the arm_lr 0x8998

the arm_pc 0x8974

the arm_cpsr 0x60000010

the falut_address 0x  0

Stack trace (non-dedicated):the stack trace is 5

./segment_trace(backtrace_symbols+0x1c8) [0x8844]

/lib/libc.so.6(__default_rt_sa_restorer+0) [0xb5e22230]

./segment_trace(cause_segv+0x18) [0x8998]

./segment_trace(main+0x20) [0x89c0]

/lib/libc.so.6(__libc_start_main+0x108) [0xb5e0c10c]

C) 输出信息分析

根据上面的输出可以看出一些端倪:

根据栈信息,可以看出是在cause_segv里面出了问题,但是最后一层栈信息是看不到的,另外需要根据pc寄存器的值来定位:

addr2line  -f -e segment_trace 0x8974

test_segv

/home/wf/test/segment_trace.c:55

可以看到说是在55行,一看:

刚好是

*i=10;

这一行,

而且可以看出,函数名是test_segv,

所以基本上不需要打印栈信息,也可以定位了。

也可以使用 objdump 工具:

objdump -S -l -z  -j .text segment_trace >1.txt

查看 **0x8974 地址的代码。
**

http://baike.baidu.com/link?url=-xg1OCMI1mu87OU0zuI4yxKur5TN4J6Rt4-ApMqawO7cWUobl62xYS3EfcxqE9REbGIMic3mynwSq4-4qp4y_K

百度百科上关于段错误的资料。

http://wenku.baidu.com/link?url=waqeLu5VaUVyO0GuogoykFwv2EACmiQBBHElpce56DoXtlwIGfPsQFmOjI7s-GFlSx8mJaviBwUSaTsM7etQ77ykcCeNP2KOnpe6HCRTtqW

A

segmentation

fault

(often

shortened

to

SIGSEGV

)

is

a

particular

error

condition

that

can

occur

during

the

operation

of

computer

software

.

A

segmentation

fault

occurs

when

a

program

attempts

to

access

a

memory

location

that

it

is

not

allowed

to

access,

or

attempts

to

access

a

memory

location

in

a

way

that

is

not

allowed

(for

example,

attempting

to

write

to

a

read-only

location,

or

to

overwrite

part

of

the

operating

system).

Segmentation

is

one

approach

to

memory

management

and

protection

in

the

operating

system

.

It

has

been

superseded

by

paging

for

most

purposes,

but

much

of

the

terminology

of

segmentation

is

still

used,

"segmentation

fault"

being

an

example.

Some

operating

systems

still

have

segmentation

at

some

logical

level

although

paging

is

used

as

the

main

memory

management

policy.

On

Unix-like

operating

systems,

a

process

that

accesses

an

invalid

memory

address

receives

the

SIGSEGV

signal

.

On

Microsoft

Windows

,

a

process

that

accesses

invalid

memory

receives

the

STATUS_ACCESS_VIOLATION

exception

.

上述文字没有给出

SIGSEGV

的定义,仅仅说它是“计算机软件操作过程中的一种错误

情况”。文字描述了

SIGSEGV

在何时发生,即“当程序试图访问不被允许访问的内存区域

(比如,尝试写一块属于操作系统的内存)

,或以错误的类型访问内存区域(比如,尝试写

一块只读内存)

这个描述是准确的。

为了加深理解,

我们再更加详细的概括一下

SIGSEGV

SIGSEGV

是在访问内存时发生的错误,它属于内存管理的范畴

SIGSEGV

是一个用户态的概念,是操作系统在用户态程序错误访问内存时所做出的处

理。

当用户态程序访问(访问表示读、写或执行)不允许访问的内存时,产生

SIGSEGV

当用户态程序以错误的方式访问允许访问的内存时,产生

SIGSEGV

从用户态程序开发的角度,

我们并不需要理解操作系统复杂的内存管理机制,

这是和硬

件平台相关的。但是,了解内核发送

SIGSEGV

信号的流程,对我们理解

SIGSEGV

是很有

Understanding

Linux

Kernel

Edition

3

和《

Understanding

the

Linux

Virtual

Memory

Manager

》相关章节都有一幅总图对此描述,对比之下,笔者认为

ULK

的图更为直观。

Segmentation

Fault

in

Linux

6

Y

e

s

N

o

访

(读、写、执

是否符合该内存区域类型

(指

page fault

Y

e

s

N

o

访

,分

访

,发

segfault

Y

e

s

N

o

Page fault

1.

SIGSEGV

Overview

1

红色部分展示了内核发送

SIGSEGV

信号给用户态程序的总体流程。当用户态

程序访问一个会引发

SIGSEGV

的地址时,硬件首先产生一个

page

fault

,即“缺页异常”。

在内核的

page

fault

处理函数中,

首先判断该地址是否属于用户态程序的地址空间

[*]

Intel

32bit

IA32

架构的

CPU

为例,

用户态程序的地址空间为

[0

3G]

内核地址空间为

[3G

4G]

如果该地址属于用户态地址空间,

检查访问的类型是否和该内存区域的类型是否匹配,

不匹

配,则发送

SIGSEGV

信号;如果该地址不属于用户态地址空间,检查访问该地址的操作是

否发生在用户态,如果是,发送

SIGSEGV

信号。

[*]

这里的用户态程序地址空间,特指程序可以访问的地址空间范围。如果广义的说,

一个进程的地址空间应该包括内核空间部分,只是它不能访问而已。

2

更为详细的描绘了内核发送

SIGSEGV

信号的流程。在这里我们不再累述图中

流程,在后面章节的例子中,笔者会结合实际,描述具体的流程