萬盛學電腦網

 萬盛學電腦網 >> 網頁制作 >> 腳本Html教程 >> 把Word轉為簡潔的html的若干種方法

把Word轉為簡潔的html的若干種方法

 word可以直接另存為 htm,但即使是 另存為 html 也會有大量的廢代碼。以前我一般用 dreamweaver 的 clean up html 來處理,先處理 word 特有標簽,然後刪除一些 font,b,span 等。進一步,在 editplus 裡面用正則進行處理,最後得到我想要的干淨的html 代碼。當然最完美的辦法就是拷貝文字出來,自己用文本編輯器書寫htm標簽,:)

  今天又看到lifehacker這幾種word 2 clean htm方法:

  1.使用這個HTML Tidy Library Project開源軟件來處理。

  2.微軟官方站點也有個Office 2000 HTML Filter 2.0工具,可以用來處理掉word2000轉html時出現的多余代碼。

  3.使用這個Word HTML Cleaner 在線工具來處理。只能處理word2000以下版本。

  4.有人給出了正則表達式(其實,上面的各種軟件也都是用正則來解決的)

  刪除不需要的標簽

  <[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
- replace any matches with the empty string

  刪除class,style...等不需要的屬性

  <([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
- replace any matches with <$1$2>

  詳細解釋在Clean Word HTML using Regular Expressions

copyright © 萬盛學電腦網 all rights reserved