PHP的curl()在抓取網頁的效率方面是比較高的,而且支持多線程,而file_get_contents()效率就要稍低些,當然,使用curl時需要開啟下curl擴展。
代碼實戰
先來看登錄部分的代碼:
//模擬登錄 functionlogin_post($url,$cookie,$post) { $curl= curl_init();//初始化curl模塊 curl_setopt($curl, CURLOPT_URL,$url);//登錄提交的地址 curl_setopt($curl, CURLOPT_HEADER, 0);//是否顯示頭信息 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 0);//是否自動顯示返回的信息 curl_setopt($curl, CURLOPT_COOKIEJAR,$cookie);//設置Cookie信息保存在指定的文件中 curl_setopt($curl, CURLOPT_POST, 1);//post方式提交 curl_setopt($curl, CURLOPT_POSTFIELDS, http_build_query($post));//要提交的信息 curl_exec($curl);//執行cURL curl_close($curl);//關閉cURL資源,並且釋放系統資源 }函數login_post()首先初始化curl_init(),然後使用curl_setopt()設置相關選項信息,包括要提交的url地址,保存的cookie文件,post的數據(用戶名和密碼等信息),是否返回信息等等,然後curl_exec執行curl,最後curl_close()釋放資源。注意PHP自帶的http_build_query()可以將數組轉換成相連接的字符串。
接下來如果登錄成功後,我們要獲取登錄成功後的頁面信息。
//登錄成功後獲取數據 functionget_content($url,$cookie) { $ch= curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_COOKIEFILE,$cookie);//讀取cookie $rs= curl_exec($ch);//執行cURL抓取頁面內容 curl_close($ch); return$rs; }函數get_content()中也是先初始化curl,然後設置相關選項,執行curl,釋放資源。其中我們設置CURLOPT_RETURNTRANSFER為1即自動返回信息,而CURLOPT_COOKIEFILE可以讀取到登錄時保存的cookie信息,最後將頁面內容返回。
我們的最終目的是要獲取到模擬登錄後的信息,也就是只有正常登錄成功後才能獲取的有用信息。接下來我們以登錄開源中國的移動版為例,看看如何抓取到登錄成功後的信息。
//設置post的數據 $post=array( 'email'=>'oschina賬戶', 'pwd'=>'oschina密碼', 'goto_page'=>'/my', 'error_page'=>'/login', 'save_login'=>'1', 'submit'=>'現在登錄' ); //登錄地址 $url = "http://m.oschina.net/action/user/login"; //設置cookie保存路徑 $cookie = dirname(__FILE__) . '/cookie_oschina.txt'; //登錄後要獲取信息的地址 $url2 = "http://m.oschina.net/my"; //模擬登錄 login_post($url,$cookie,$post);//獲取登錄頁的信息 $content = get_content($url2, $cookie); //刪除cookie文件 @ unlink($cookie);//匹配頁面信息 $preg = "/<td class='portrait'>(.*)<\/td>/i"; preg_match_all($preg,$content,$arr);$str=$arr[1][0];//輸出內容 echo $str;使用總結
1、初始化curl;
2、使用curl_setopt設置目標url,和其他選項;
3、curl_exec,執行curl;
4、執行後,關閉curl;
5、輸出數據。