在 Linux 上如何得到一個段錯誤的核心轉儲

最新 07-15

在看完這篇博客後，你應該知道如何從「哦，我的程序出現段錯誤，但我不知道正在發生什麼」到「我知道它出現段錯誤時的堆棧、行號了！」。

-- Julia Evans

致謝

編譯自　|

https://jvns.ca/blog/2018/04/28/debugging-a-segfault-on-linux/

作者　|　Julia Evans

譯者　|　Stephen (stephenxs) 共計翻譯：2篇貢獻時間：24 天

本周工作中，我花了整整一周的時間來嘗試調試一個段錯誤。我以前從來沒有這樣做過，我花了很長時間才弄清楚其中涉及的一些基本事情（獲得核心轉儲、找到導致段錯誤的行號）。於是便有了這篇博客來解釋如何做那些事情！

在看完這篇博客後，你應該知道如何從「哦，我的程序出現段錯誤，但我不知道正在發生什麼」到「我知道它出現段錯誤時的堆棧、行號了！」。

什麼是段錯誤？

「段錯誤segmentation fault」是指你的程序嘗試訪問不允許訪問的內存地址的情況。這可能是由於：

? 試圖解引用空指針（你不被允許訪問內存地址）；

? 試圖解引用其他一些不在你內存（LCTT 譯註：指不在合法的內存地址區間內）中的指針；

? 一個已被破壞並且指向錯誤的地方的C++ 虛表指針C++ vtable pointer，這導致程序嘗試執行沒有執行許可權的內存中的指令；

? 其他一些我不明白的事情，比如我認為訪問未對齊的內存地址也可能會導致段錯誤（LCTT 譯註：在要求自然邊界對齊的體系結構，如 MIPS、ARM 中更容易因非對齊訪問產生段錯誤）。

這個「C++ 虛表指針」是我的程序發生段錯誤的情況。我可能會在未來的博客中解釋這個，因為我最初並不知道任何關於 C++ 的知識，並且這種虛表查找導致程序段錯誤的情況也是我所不了解的。

但是！這篇博客後不是關於 C++ 問題的。讓我們談論的基本的東西，比如，我們如何得到一個核心轉儲？

步驟1：運行 valgrind

我發現找出為什麼我的程序出現段錯誤的最簡單的方式是使用：我運行

這給了我一個故障時的堆棧調用序列。簡潔！

但我想也希望做一個更深入調查，並找出些沒告訴我的信息！所以我想獲得一個核心轉儲並探索它。

如何獲得一個核心轉儲

核心轉儲core dump是您的程序內存的一個副本，並且當您試圖調試您的有問題的程序哪裡出錯的時候它非常有用。

當您的程序出現段錯誤，Linux 的內核有時會把一個核心轉儲寫到磁碟。當我最初試圖獲得一個核心轉儲時，我很長一段時間非常沮喪，因為 - Linux 沒有生成核心轉儲！我的核心轉儲在哪裡？

這就是我最終做的事情：

☉ 在啟動我的程序之前運行

☉ 運行

ulimit：設置核心轉儲的最大尺寸

設置核心轉儲的最大尺寸。它往往設置為 0，這意味著內核根本不會寫核心轉儲。它以千位元組為單位。是按每個進程分別設置的 —— 你可以通過運行看到一個進程的各種資源限制。

例如這些是我的系統上一個隨便一個 Firefox 進程的資源限制：

內核在決定寫入多大的核心轉儲文件時使用軟限制soft limit（在這種情況下，）。您可以使用 shell 內置命令（）將軟限制增加到硬限制hard limit。

kernel.core_pattern：核心轉儲保存在哪裡

是一個內核參數，或者叫「sysctl 設置」，它控制 Linux 內核將核心轉儲文件寫到磁碟的哪裡。

內核參數是一種設定您的系統全局設置的方法。您可以通過運行得到一個包含每個內核參數的列表，或使用來專門查看設置。

所以將核心轉儲保存到目錄下，並以加上一系列能夠標識（出故障的）進程的參數構成的後綴為文件名。

如果你想知道這些形如、的參數都表示什麼，請參考man core

[1]

。

有一點很重要，是一個全局設置 —— 修改它的時候最好小心一點，因為有可能其它系統功能依賴於把它被設置為一個特定的方式（才能正常工作）。

kernel.core_pattern 和 Ubuntu

默認情況下在 ubuntu 系統中，被設置為下面的值：

這引起了我的迷惑（這 apport 是幹什麼的，它對我的核心轉儲做了什麼？）。以下關於這個我了解到的：

? Ubuntu 使用一種叫做 apport 的系統來報告 apt 包有關的崩潰信息。

? 設定意味著核心轉儲將被通過管道送給程序。

? apport 的日誌保存在文件中。

? apport 默認會忽略來自不屬於 Ubuntu 軟體包一部分的二進位文件的崩潰信息

我最終只是跳過了 apport，並把重新設置為，因為我在一台開發機上，我不在乎 apport 是否工作，我也不想嘗試讓 apport 把我的核心轉儲留在磁碟上。

現在你有了核心轉儲，接下來幹什麼？

好的，現在我們了解了和，並且實際上在磁碟的目錄中有了一個核心轉儲文件。太好了！接下來幹什麼？我們仍然不知道該程序為什麼會出現段錯誤！

下一步將使用打開核心轉儲文件並獲取堆棧調用序列。

從 gdb 中得到堆棧調用序列

你可以像這樣用打開一個核心轉儲文件：

接下來，我們想知道程序崩潰時的堆棧是什麼樣的。在提示符下運行會給你一個調用序列backtrace。在我的例子里，沒有為二進位文件載入符號信息，所以這些函數名就像「??????」。幸運的是，（我們通過）載入符號修復了它。

下面是如何載入調試符號。

這從二進位文件及其引用的任何共享庫中載入符號。一旦我這樣做了，當我執行時，gdb 給了我一個帶有行號的漂亮的堆棧跟蹤！

如果你想它能工作，二進位文件應該以帶有調試符號信息的方式被編譯。在試圖找出程序崩潰的原因時，堆棧跟蹤中的行號非常有幫助。:)

查看每個線程的堆棧

通過以下方式在中獲取每個線程的調用棧！

gdb + 核心轉儲 = 驚喜

如果你有一個帶調試符號的核心轉儲以及，那太棒了！您可以上下查看調用堆棧（LCTT 譯註：指跳進調用序列不同的函數中以便於查看局部變數），列印變數，並查看內存來得知發生了什麼。這是最好的。

如果您仍然正在基於 gdb 嚮導來工作上，只列印出棧跟蹤與bt也可以。

ASAN

另一種搞清楚您的段錯誤的方法是使用 AddressSanitizer 選項編譯程序（「ASAN」，即）然後運行它。本文中我不準備討論那個，因為本文已經相當長了，並且在我的例子中打開 ASAN 後段錯誤消失了，可能是因為 ASAN 使用了一個不同的內存分配器（系統內存分配器，而不是 tcmalloc）。

在未來如果我能讓 ASAN 工作，我可能會多寫點有關它的東西。（LCTT 譯註：這裡指使用 ASAN 也能復現段錯誤）

從一個核心轉儲得到一個堆棧跟蹤真的很親切！

這個博客聽起來很多，當我做這些的時候很困惑，但說真的，從一個段錯誤的程序中獲得一個堆棧調用序列不需要那麼多步驟：

☉ 試試用

如果那沒用，或者你想要拿到一個核心轉儲來調查：

☉ 確保二進位文件編譯時帶有調試符號信息；

☉ 正確的設置和；

☉ 運行程序；

☉ 一旦你用調試核心轉儲了，載入符號並運行；

☉ 嘗試找出發生了什麼！

我可以使用弄清楚有個 C++ 的虛表條目指向一些被破壞的內存，這有點幫助，並且使我感覺好像更懂了 C++ 一點。也許有一天我們會更多地討論如何使用來查找問題！

via:https://jvns.ca/blog/2018/04/28/debugging-a-segfault-on-linux/

作者：Julia Evans

[3]

譯者：stephenxs校對：wxy

本文由LCTT原創編譯，Linux中國榮譽推出

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Linux中國 的精彩文章:

※TrueOS 不再想要成為「桌面 BSD」了
※Ohcount：源代碼行計數器和分析器

TAG:Linux中國 |