0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Linux編程時遇到Oops提示該如何排查?

西西 ? 作者:致遠電子 ? 2018-11-28 16:52 ? 次閱讀

各位工程師Linux下開發(fā)程序時,有沒有遇到由于系統(tǒng)中存在某些小故障而跳出了“Oops”提示的情況,此時你是如何排查故障?一行行的查看代碼嗎?其實不用那么復雜,本文將為你介紹一種高效的Linux編程的故障排除方法。

在分析Oops之前,我們先來看以下這么一個例子,使用GPIO的中斷做掉電檢測,參考《嵌入式Linux開發(fā)教程下冊》的驅動框架,設計如下程序框圖:

Linux編程時遇到Oops提示該如何排查?

這個框架設計之初的理想流程為:應用啟動-》程序初始化-》應用open設備-》等待中斷事件,但實際項目開發(fā)時,往往發(fā)生許許多多不可預測的事情。如小王正在調Qt應用,發(fā)現(xiàn)老王的進程老在打印,那就不讓老王的進程開機自啟動,調了兩三天后,不定時地提示個Oops提示,小王按照“以前代碼不出現(xiàn),新加的出現(xiàn),那么起因絕對在新代碼內”的慣性思維,認為是新加的Qt導致的,然后小王就不斷測試,不斷查找bug中。..。..。這樣就過去了十年。

但原因其實是小王沒有open設備,即驅動層沒有初始化定時器隊列,那么中斷處理函數中50ms觸發(fā)的隊列就為一個空值,空指針時Linux內核當然“哎呦”一下提醒你了,而不定時地提示其實就是因為電源不定時地松動,gpio檢測到掉電了所以觸發(fā)了中斷。

實際上,這樣的案例十分常見,原本想A-》B-》C,實際使用是A-》D-》C,又或者驅動中有某個變量忘記初始化等等,這時分析Oops就可以十分快速地解決問題。那接下來我們就用Linux中標準驅動去觸發(fā)一個Oops,對的你沒看錯,Linux內核標準源碼也存在這樣的異常,而且我們也可以去修復這樣的問題。

使用我司的EasyARM-iMX283開發(fā)板,內核源碼為光盤內的Linux-2.6.35.3.tar.bz2,編譯方法請參考光盤資料,我們需要把lcd的背光驅動修改為ko模式。

Linux編程時遇到Oops提示該如何排查?

燒錄完新內核,加載新編譯出來的drivers/video/backlight/mxs_bl.ko文件就會提示以下Oops信息

Linux編程時遇到Oops提示該如何排查?

乍看之下,這段信息跟亂碼差不多,但只要你一層層地分析,你就會發(fā)現(xiàn),這些信息已經告訴了我們錯誤的原因。接下來就開始我們的Oops分析之旅。

1、主要錯誤信息

Linux編程時遇到Oops提示該如何排查?

用于提示錯誤的類型,這里表示使用空指針。

2、操作入口

Linux編程時遇到Oops提示該如何排查?

用于提示錯誤的操作,這里表示加載mxs_bl模塊時出錯,對應于加載操作insmod mxs_bl.ko。

3、PC指針

Linux編程時遇到Oops提示該如何排查?

用于提示出錯時的PC指針位置,PC指針即當前程序運行點的地址,這里提示表示錯誤函數為regulator_set_current_limit,偏移地址為0xc。

4、LR指針

Linux編程時遇到Oops提示該如何排查?

用于提示出錯時的LR指針位置,LR指針即調用子函數的上一個函數名以及入口偏移量,這里表示上一個函數為set_bl_intensity,偏移地址為0xd8。即set_bl_intensity調用regulator_set_current_limit時出錯。

5、寄存器

Linux編程時遇到Oops提示該如何排查?

用于記錄出錯時各個寄存器的值,對于匯編比較熟悉的同志們可以研究一下這段信息。

6、出錯進程信息

Linux編程時遇到Oops提示該如何排查?

用于提示出錯的進程id號與進程名稱。出錯進程為insmod, PID號2261,對于多任務系統(tǒng)中,可能存在多個PID調用同一個接口的情況。

7、出錯時的堆棧信息

Linux編程時遇到Oops提示該如何排查?

用于提示出錯時堆棧內保存的寄存器信息,當程序由于中斷發(fā)生或子程序調用時,會執(zhí)行壓棧操作,即將運行環(huán)境保存到堆棧內,保證退出中斷或跳出子程序后,運行環(huán)境不發(fā)生改變。

而此處的堆棧信息即記錄了程序運行時的環(huán)境信息。從中我們可以找到許多LR地址,從而分析出函數調用關系,與下一段的信息有類似作用。

8、函數執(zhí)行的回溯關系

Linux編程時遇到Oops提示該如何排查?

用于表示函數的調用關系,通過這段信息我們可以知道,函數的整個執(zhí)行流程,知道它的函數調用關系,最后整理出來的函數執(zhí)行流程如下:

Linux編程時遇到Oops提示該如何排查?

從中我們看到了熟悉的init函數、probe函數、以及清楚probe函數下執(zhí)行的操作過程是到哪一步出錯的。現(xiàn)在我們知道了代碼的執(zhí)行流程,出錯的PC指針的位置,但還是看不到代碼,出錯指針處我們只看到了一串數字,那么接下來我們就操作一下,把pc指針的數據變?yōu)橛幸饬x的代碼。

第一步,分辨出錯誤代碼在什么位置

這次實驗涉及的二進制文件有內核的燒錄固件以及驅動的ko文件,所以第一步分析就需要確定出錯代碼是在內核固件里還是ko文件里。

首先得到內核代碼的范圍,用以下命令將內核反匯編。

Linux編程時遇到Oops提示該如何排查?

查看這個文件的格式如是:

Linux編程時遇到Oops提示該如何排查?

第一列行數,第二列運行地址,第三列二進制碼,第四列匯編代碼,既然第二列為運行地址,即等同于程序運行到這行時,pc指針的值等于這個數值。這樣只要翻看這個文件的頭部以及尾部,就能知道內核代碼的PC指針范圍為:c0008000~c0562338。

根據前面第5步寄存器值,出錯時PC指針為c02f1878,即在內核源碼范圍內。

第二步,分析出錯函數的出錯語句

那么根據第3步PC指針,得到regulator_set_current_limit的匯編代碼,如下:

Linux編程時遇到Oops提示該如何排查?

函數入口地址為c02f186c 《regulator_set_current_limit》。

在第3步PC指針指出偏移地址為“PC is at regulator_set_current_limit+0xc”。

PC = 0xc02f1878 = 0xc02f186c + 0xc,符合匯編代碼地址。

第三步,找到出錯函數的C語言代碼

這步可以說是最困難的,因為內核代碼層次多,同名函數也可能存在許多份,可能幾份編譯進內核(static聲明的局部函數),也可能沒編譯進內核,如何從眾多的代碼中分析出具體哪段呢。

本人就使用了一些小手段,首先給每個同名函數的入口加段亂碼,讓編譯器篩選出編譯進內核的文件(因為亂碼,所以編譯會報錯),然后給剩下的函數加打印語句,通常經過第一步之后,可選的目標就兩三個,通過打印進一步確認代碼即可。

以下為篩選出來的C語言代碼。

Linux編程時遇到Oops提示該如何排查?

看到這好像是定位了函數,但對于不熟悉匯編的人來說,C與匯編還是沒有關聯(lián)起來,好像進入了死胡同,但先別氣餒,從上面的匯編代碼中我們知道,函數名即為函數的首地址,那么調用子函數即需要讓CPU知道子函數名,那么匯編如何調用子函數呢?使用bl指令, bl+子函數名。既然匯編有這么一個特性,那么我們看匯編代碼。

上面582734行為“bl c0493104 《mutex_lock》”這句調用了子函數,再看C中調用此函數的語句。

Linux編程時遇到Oops提示該如何排查?

那么結果顯而易見,不可能定義個變量都報錯吧,所以唯一可能錯誤的語句就是struct regulator_dev *rdev = regulator-》rdev,同理,這句的前半部也只是定義一個rdev的變量,再結合內核給出來的提示——空指針,所以錯誤就是regulator-》rdev是一個空指針。

最終的問題就歸結于,為什么regulatar-》rdev為空指針。這部分的查閱代碼以及推理需要更深層次地挖掘,工作量也非本文能說清的,故作者在這里就大膽地推測與上面的A-》B-》C模型類似。所以我們就需要在這個資源存在的時刻,調用它之前給它賦值。

這時侯,我們就需要拿出第8步函數執(zhí)行的回溯關系圖,既然知道這個圖中最后的函數的輸入參數regulator的rdev為空,那么我們就關心regulator結構體以及它的意義。從結構體的意義我們才能知道如何給它賦值。

Linux編程時遇到Oops提示該如何排查?

在相關的代碼文件中搜索關鍵字”regulator”或”regulator =”(建議搜這個,因為這種才是賦值語句)得到如下代碼。

Linux編程時遇到Oops提示該如何排查?

分析這個函數可知,regulator實際是pdata的一個成員,他需要data來初始化,那么接下來的事情就簡單了,在回溯關系中找一個位置把data的數據塞入pdata中,剛好這段函數就是初始化的regulator的,那就直接拿去用吧。

把這段添加到probe函數內的這個位置,實現(xiàn)了在mxsbl_probe和mxsbl_do_probe之間賦值此變量。

Linux編程時遇到Oops提示該如何排查?

這樣重新編譯后即可正常加載ko文件。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關注

    關注

    87

    文章

    11207

    瀏覽量

    208721
  • 編程
    +關注

    關注

    88

    文章

    3565

    瀏覽量

    93536
  • Oops
    +關注

    關注

    0

    文章

    4

    瀏覽量

    3303
收藏 人收藏

    評論

    相關推薦

    Linux系統(tǒng)CPU占用率100%的排查思路

    今天浩道跟大家分享linux硬核干貨,工作中當你服務器CPU達到100%時,干著急是沒有用的,查問題還得自己去查。本文將給大家羅列排查異常故障思路,并且文末附上相關shell腳本,去實際一番,你會發(fā)現(xiàn)原來解決問題的方法如此之簡
    的頭像 發(fā)表于 01-23 10:26 ?5764次閱讀
    <b class='flag-5'>Linux</b>系統(tǒng)CPU占用率100%的<b class='flag-5'>排查</b>思路

    linux運維怎么排查

    linux運維排查常用命令(開發(fā)專享)
    發(fā)表于 11-11 06:34

    內核oops的根本原因是什么?我們如何調試內核oops?

    Broadcom 交換機設備連接到我們主板上帶有 PCIe 的 T1042。開關工作在 EP 模式。linux內核版本是4.14。在檢測到 pcie 錯誤的現(xiàn)場卡中引發(fā)內核 oops。但是這個
    發(fā)表于 04-20 06:19

    LINUX網絡編程

    linux開發(fā)編程教程資料——LINUX網絡編程,感興趣的小伙伴們可以看一看。
    發(fā)表于 08-23 16:23 ?0次下載

    Linux網絡編程

    linux開發(fā)編程教程資料——Linux網絡編程,感興趣的小伙伴們可以看一看。
    發(fā)表于 08-23 16:23 ?0次下載

    linux-網絡編程-socket編程

    linux開發(fā)編程教程資料——linux-網絡編程-socket編程,感興趣的小伙伴們可以看一看。
    發(fā)表于 08-23 16:23 ?0次下載

    LINUX系統(tǒng)教程之如何在Linux系統(tǒng)下進行編程

    本文檔的主要內容詳細介紹的是LINUX系統(tǒng)教程之如何在Linux系統(tǒng)下進行編程主要內容包括了:程序開發(fā)過程 ,Linux編程環(huán)境和開發(fā)工具
    發(fā)表于 12-18 19:09 ?9次下載

    linux內核中的Oops

    gdb來分析問題。?開發(fā)內核驅動的過程中可能遇到的問題是千奇百怪的,調試的方法也是多種多樣,OopsLinux內核給我們的提示,我們要用好它。
    發(fā)表于 04-02 14:31 ?574次閱讀

    STM32 MPU6050 使用DMP遇到的問題-提示Product ID read as 0 indicates device is either incomp

    STM32 MPU6050 使用DMP遇到的問題-提示Product ID read as 0 indicates device is either incomp
    發(fā)表于 12-06 15:36 ?42次下載
    STM32 MPU6050 使用DMP<b class='flag-5'>遇到</b>的問題-<b class='flag-5'>提示</b>Product ID read as 0 indicates device is either incomp

    內核oops錯誤原因及處理方法

    最近在調試設備時,遇到了一個偶發(fā)的開機死機問題。通過查看輸出日志,發(fā)現(xiàn)內核報告了oops錯誤,如下所示(中間省略了部分日志,以......代替)。
    的頭像 發(fā)表于 05-12 16:20 ?8077次閱讀

    如何解讀內核的oops

    96000045表示錯誤碼。后面[]內的數值是與頁面有關的oops信息被顯示的次數。之后顯示內核的重要特性SMP和PREEMPT被顯示的配置情況。這條信息所在的內核啟用了SMP支持,所以只顯示SMP。
    的頭像 發(fā)表于 10-21 12:39 ?1362次閱讀

    怎么解讀內核的oops

    Oops的錯誤代碼根據錯誤的原因會有不同的定義,如果發(fā)現(xiàn)自己遇到Oops和下面無法對應的話,最好去內核代碼里查找
    的頭像 發(fā)表于 02-17 16:08 ?913次閱讀

    Linux服務器常見的網絡故障排查方法

    日常工作中我們有時會遇到服務器網絡不通問題,導致服務器無法正常運行。要想解決服務器網絡故障問題,通常要先進行網絡故障排查,這里以Linux服務器為例來看下常用的網絡故障排查方法介紹。
    的頭像 發(fā)表于 04-14 15:47 ?2718次閱讀

    常用linux網絡排查命令

    今天浩道跟大家分享linux網絡運維中常見的命令,掌握好這些命令,在排查故障時將會游刃有余!
    發(fā)表于 06-25 10:49 ?784次閱讀

    Linux應用編程的基本概念

    Linux應用編程涉及到在Linux環(huán)境下開發(fā)和運行應用程序的一系列概念。以下是一些涵蓋Linux應用編程的基本概念。
    的頭像 發(fā)表于 10-24 17:19 ?161次閱讀