萬盛學電腦網

 萬盛學電腦網 >> 網絡編程 >> php編程 >> 用PHP代替JS玩轉DOM的思路及示例代碼

用PHP代替JS玩轉DOM的思路及示例代碼

   事情的起源比較簡單,我需要把一個導航頁的數據整理好寫入數據庫。一個比較直觀的方法是對html文件進行分析,通用的方法是用php的正則表達式來匹配。但是這樣做開發和維護都很困難,代碼可讀性非常差。

  導航頁的數據都是規則的排列在DOM樹當中的,用JS可以用幾個循環輕松的對其進行操作,而且JS需要依賴浏覽器,操作數據庫很困難。其實PHP就有現成的類庫對DOM樹種的節點進行增刪改查操作,在此做一些筆記。

  這裡涉及到2個類 DOMDocument 和 DOMXPath。

  其實思路比較明確,就是通過DOMDocument將一個html file轉換成DOM樹的數據結構,再用DOMXPath的實例去搜索這個DOM樹,拿到想要特定節點,接下來就可以對當前節點的子樹進行遍歷,得到想要的結果。

  在當前目錄下有一個這樣一個導航的html文件 "./hao.html"

  現在需要得到所有標簽的中文內容,php代碼如下:

  .代碼如下:

  //將html/xml文件轉換成DOM樹

  $dom = new DOMDocument();

  $dom->loadHTMLFile("hao.html");

  //得到所有class為fix的dl標簽

  // example 1: for everything with an id

  //$elements = $xpath->query("//*[@id]");

  // example 2: for node data in a selected id

  //$elements = $xpath->query("/html/body/div[@id='yourTagIdHere']");

  // example 3: same as above with wildcard

  //$elements = $xpath->query("*/div[@id='yourTagIdHere']");

  $xpath = new DOMXPath($dom);

  $dls = $xpath->query('//dl[@class="fix"]');

  foreach ($dls as $dl) {

  $spans = $dl->childNodes;

  foreach ($spans as $span) {

  echo trim($span->textContent)."t";

  }

  echo "n";

  }

  ?>

  輸出結果如下:

  注意:值得注意的一點是DOMDocument的默認編碼方式是Latin,所以在處理utf編碼的中文的時候,需要在後面緊跟著填入

  .代碼如下:

  在其他位置,或者是只寫上都是不識別的哦

copyright © 萬盛學電腦網 all rights reserved