這篇文章主要介紹了從底層簡析Python程序的執行過程,包括注入操作碼和封裝程序等解釋器執行層面的知識,需要的朋友可以參考下
最近我在學習 Python 的運行模型。我對 Python 的一些內部機制很是好奇,比如 Python 是怎麼實現類似 YIELDVALUE、YIELDFROM 這樣的操作碼的;對於 遞推式構造列表(List Comprehensions)、生成器表達式(generator expressions)以及其他一些有趣的 Python 特性是怎麼編譯的;從字節碼的層面來看,當異常拋出的時候都發生了什麼事情。翻閱 CPython 的代碼對於解答這些問題當然是很有幫助的,但我仍然覺得以這樣的方式來做的話對於理解字節碼的執行和堆棧的變化還是缺少點什麼。GDB 是個好選擇,但是我懶,而且只想使用一些比較高階的接口寫點 Python 代碼來完成這件事。
所以呢,我的目標就是創建一個字節碼級別的追蹤 API,類似 sys.setrace 所提供的那樣,但相對而言會有更好的粒度。這充分鍛煉了我編寫 Python 實現的 C 代碼的編碼能力。我們所需要的有如下幾項,在這篇文章中所用的 Python 版本為 3.5。
一個新的 Cpython 解釋器操作碼
一種將操作碼注入到 Python 字節碼的方法
一些用於處理操作碼的 Python 代碼
一個新的 Cpython 操作碼
新操作碼:DEBUG_OP
這個新的操作碼 DEBUG_OP 是我第一次嘗試寫 CPython 實現的 C 代碼,我將盡可能的讓它保持簡單。 我們想要達成的目的是,當我們的操作碼被執行的時候我能有一種方式來調用一些 Python 代碼。同時,我們也想能夠追蹤一些與執行上下文有關的數據。我們的操作碼會把這些信息當作參數傳遞給我們的回調函數。通過操作碼能辨識出的有用信息如下:
堆棧的內容
執行 DEBUG_OP 的幀對象信息
所以呢,我們的操作碼需要做的事情是:
找到回調函數
創建一個包含堆棧內容的列表
調用回調函數,並將包含堆棧內容的列表和當前幀作為參數傳遞給它
聽起來挺簡單的,現在開始動手吧!聲明:下面所有的解釋說明和代碼是經過了大量段錯誤調試之後總結得到的結論。首先要做的是給操作碼定義一個名字和相應的值,因此我們需要在 Include/opcode.h中添加代碼。
?
1 2 3 4 5 6 7 8 9 10 11 12 /** My own comments begin by '**' **/ /** From: Includes/opcode.h **/ /* Instruction opcodes for compiled code */ /** We just have to define our opcode with a free value 0 was the first one I found **/ #define DEBUG_OP 0 #define POP_TOP 1 #define ROT_TWO 2 #define ROT_THREE 3這部分工作就完成了,現在我們去編寫操作碼真正干活的代碼。
實現 DEBUG_OP
在考慮如何實現DEBUG_OP之前我們需要了解的是 DEBUG_OP 提供的接口將長什麼樣。 擁有一個可以調用其他代碼的新操作碼是相當酷眩的,但是究竟它將調用哪些代碼捏?這個操作碼如何找到回調函數的捏?我選擇了一種最簡單的方法:在幀的全局區域寫死函數名。那麼問題就變成了,我該怎麼從字典中找到一個固定的 C 字符串?為了回答這個問題我們來看看在 Python 的 main loop 中使用到的和上下文管理相關的標識符 enter 和 exit。
我們可以看到這兩標識符被使用在操作碼 SETUP_WITH 中:
?
1 2 3 4 5 6 7 /** From: Python/ceval.c **/ TARGET(SETUP_WITH) { _Py_IDENTIFIER(__exit__); _Py_IDENTIFIER(__enter__); PyObject *mgr = TOP(); PyObject *exit = special_lookup(mgr, &PyId___exit__), *enter; PyObject *res;現在,看一眼宏 _Py_IDENTIFIER 定義
?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 /** From: Include/object.h **/ /********************* String Literals ****************************************/ /* This structure helps managing static strings. The basic usage goes like this: Instead of doing r = PyObject_CallMethod(o, "foo", "args", ...); do _Py_IDENTIFIER(foo); ... r = _PyObject_CallMethodId(o, &PyId_foo, "args", ...); PyId_foo is a static variable, either on block level or file level. On first usage, the string "foo" is interned, and the structures are linked. On interpreter shutdown, all strings are released (through _PyUnicode_ClearStaticStrings). Alternatively, _Py_static_string allows to choose the variable name. _PyUnicode_FromId returns a borrowed reference to the interned string. _PyObject_{Get,Set,Has}AttrId are __getattr__ versions using _Py_Identifier*. */ typedef struct _Py_Identifier { struct _Py_Identifier *next; const char* string; PyObject *object; } _Py_Identifier; #define _Py_static_string_init(value) { 0, value, 0 } #define _Py_static_string(varname, value) static _Py_Identifier varname = _Py_static_string_init(value) #define _Py_IDENTIFIER(varname) _Py_static_string(PyId_##varname, #varname)嗯,注釋部分已經說明得很清楚了。通過一番查找,我們發現了可以用來從字典找固定字符串的函數 _PyDict_GetItemId,所以我們操作碼的查找部分的代碼就是長這樣滴。
?
1 2 3 4 5 6 7 8 9 10 /** Our callback function will be named op_target **/ PyObject *target = NULL; _Py_IDENTIFIER(op_target); target = _PyDict_GetItemId(f->f_globals, &PyId_op_target); if (target == NULL && _PyErr_OCCURRED()) { if (!PyErr_ExceptionMatches(PyExc_KeyError)) goto error; PyErr_Clear(); DISPATCH(); }為了方便理解,對這一段代碼做一些說明:
f 是當前的幀,f->f_globals 是它的全局區域
如果我們沒有找到 op_target,我們將會檢查這個異常是不是 KeyError
goto error; 是一種在 main loop 中拋出異常的方法
PyErr_Clear() 抑制了當前異常的拋出,而 DISPATCH() 觸發了下一個操作碼的執行
下一步就是收集我們想要的堆棧信息。
?
1 2 3 4 5 6 7 8 9 /** This code create a list with all the values on the current stack **/ PyObject *value = PyList_New(0); for (i = 1 ; i <= STACK_LEVEL(); i++) { tmp = PEEK(i); if (tmp == NULL) { tmp = Py_None; } PyList_Append(value, tmp); }最後一