這篇文章主要介紹了C語言中的數組和指針匯編代碼分析實例,本文用一則C語言例子來得到對應的匯編代碼,並一一注解每句匯編代碼的含義,需要的朋友可以參考下
今天看《程序員面試寶典》時偶然看到講數組和指針的存取效率,閒著無聊,就自己寫了段小代碼,簡單分析一下C語言背後的匯編,可能很多人只注重C語言,但在實際應用當中,當出現問題時,有時候還是通過分析匯編代碼能夠解決問題。本文只是為初學者,大牛可以飄過~
C源代碼如下:
代碼如下:
#include "stdafx.h"
int main(int argc, char* argv[])
{
char a=1;
char c[] = "1234567890";
char *p = "1234567890";
a = c[1];
a = p[1];
return 0;
}
在VC6.0下查看匯編代碼步驟:
在main函數中靠前的部分隨便一行F9設置斷點->編譯->F5 在調試界面中右鍵->Go to disassembly
Debug匯編代碼(已加注釋):
代碼如下:
4: #include "stdafx.h"
5:
6: int main(int argc, char* argv[])
7: {
00401010 push ebp
00401011 mov ebp,esp ;保存棧幀
00401013 sub esp,54h ;抬高棧頂
00401016 push ebx
00401017 push esi
00401018 push edi ;壓入程序中用到的寄存器,以便恢復
00401019 lea edi,[ebp-54h]
0040101C mov ecx,15h
00401021 mov eax,0CCCCCCCCh
00401026 rep stos dword ptr [edi] ;棧頂與棧幀之間的數據填充為0xcc,相當於匯編中的int 3,這是因為debug模式下把Stack上的變量都初始化為0xcc,檢查未初始化的問題
8: char a=1;
00401028 mov byte ptr [ebp-4],1 ;ebp-4是為變量a分配的空間地址
9: char c[] = "1234567890";
0040102C mov eax,[string "1234567890" (0042201c)]
00401031 mov dword ptr [ebp-10h],eax ;“1234567890”是字符串常量,存儲在地址0042201c處,ebp-10是為數組C分配的空間的首地址,空間大小從ebp-0x10到ebp-0x04,共12個字節。本句中先把“1234”這4個字節拷貝到數組C中
00401034 mov ecx,dword ptr [string "1234567890" 4 (00422020)]
0040103A mov dword ptr [ebp-0Ch],ecx ;作用同上,把“5678”這4個字節拷貝到數組C中
0040103D mov dx,word ptr [string "1234567890" 8 (00422024)]
00401044 mov word ptr [ebp-8],dx ;作用同上,把“90”這2個字節拷貝到C中
00401048 mov al,[string "1234567890" 0Ah (00422026)]
0040104D mov byte ptr [ebp-6],al ;這個大家都熟,不要忘了
10: char *p = "1234567890";
00401050 mov dword ptr [ebp-14h],offset string "1234567890" (0042201c) ;ebp-0x14是為指針p分配的空間地址,大小是4個字節,地址中的值是字符串“1234567890”的首地址
11: a = c[1];
00401057 mov cl,byte ptr [ebp-0Fh] ;這裡是重點,因為數組C在棧上連續存儲,很容易根據ebp找到第其中一個字符的地址,並取值,賦給cl
0040105A mov byte ptr [ebp-4],cl ;完成賦值
12: a = p[1];
0040105D mov edx,dword ptr [ebp-14h] ;這裡與上面就有區別,因為根據ebp只知道指針p的值,先得到p的值,即先得到一個指針
00401060 mov al,byte ptr [edx 1] ;根據得到的指針間接的找到字符串中的一個字符
00401063 mov byte ptr [ebp-4],al
13: return 0;
00401066 xor eax,eax ;eax清0,作為main函數的返回值
14: }
00401068 pop edi
00401069 pop esi
0040106A pop ebx
0040106B mov esp,ebp
0040106D pop ebp ;恢復ebp
0040106E ret
好了,可以看到,用數組訪問元素,只需2步,而用指針時要3步。可見數組和指針並不相同,有時候大家都認為可以把數組的名稱看成一個指針,這種想法有時候沒錯,但有時候卻會出錯。我再舉一個簡單的例子,而下面的這個例子可能是大家在開發過程中經常會碰到的問題。
在文件test.cpp中:
代碼如下:
#include "stdafx.h"
#include "inc.h"
extern char chTest[10];
int main(int argc, char* argv[])
{
printf("chTest=%sn", chTest);
return 0;
}
上面有個extern聲明,表明chTest數組是在外部文件中定義過的。chTest定義在inc.h中:
代碼如下:
char chTest[10]="123456789";
上述的程序,經編譯後,可以成功運行。但如果把紅色的代碼改成如下:
代碼如下:
extern char *chTest;
這時,程序在編譯的時候就會通不過,提示的錯誤信息是:redefinition; different types of indirection,但這時候並沒有錯誤出現在哪一行的說明,如果是在開發一個大型工程,那麼就不容易定位問題出在哪個地方。造成上述錯誤的原因我想大家都明白了,就是因為當chTest作為一個指針被引用時,其元素訪問的方式與數組是不同的,就算程序能編譯通過,在運行時,也是會出現錯誤。
好了,上述的內容都是個人有感而發,是些簡單零碎的東西,笑納。如有哪些地方說的不合適,而望指正!