萬盛學電腦網

 萬盛學電腦網 >> 腳本專題 >> javascript >> 用Node.js通過sitemap.xml批量抓取美女圖片

用Node.js通過sitemap.xml批量抓取美女圖片

   這篇文章主要介紹了用Node.js通過sitemap.xml批量抓取美女圖片的方法和相關代碼,有需要的小伙伴可以參考下。

  之前看了很多個版本,自己也搞一個。

  1. 支持指定保存到哪個目錄

  2. 按文章進行分目錄存放

  3. 支持設置並行下載上限

  下次有空再搞個整站下載的。

  package.json

  ?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 { "name": "me2sex-images", "version": "0.0.1", "description": "Batch download images from http://me2-sex.lofter.com", "main": "index.js", "author": "Fay", "license": "MIT", "dependencies": { "async": "^0.9.0", "cheerio": "^0.18.0", "mkdirp": "^0.5.0", "request": "^2.51.0", "url": "^0.10.2", "xml2js": "^0.4.4" } }

  index.js

  ?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 var node = { async: require('async'), cheerio: require('cheerio'), fs: require('fs'), mkdirp: require('mkdirp'), path: require('path'), request: require('request'), url: require('url'), xml2js: require('xml2js'), };   var Me2SexImages = {   /** * 配置選項 */ options: { // 網站sitemap地址 sitemap: 'http://sexy.faceks.com/sitemap.xml', // 保存到此文件夾 saveTo: '/Users/Fay/Pictures/me2sex', // 圖片並行下載上限 downLimit: 5, },   posts: [],   /** * 開始下載(程序入口函數) */ start: function() { var self = this; var async = node.async;   async.waterfall([ self.wrapTask(self.sitemapXML), self.wrapTask(self.sitemapJSON), self.wrapTask(self.downAllImages), ], function(err, result) { if (err) { console.log('error: %s', err.message); } else { console.log('success: 下載成功'); } }); },   /** * 包裹任務,確保原任務的上下文指向某個特定對象 * @param {Function} task 符合asycs.js調用方式的任務函數 * @param {Any} context 上下文 * @param {Array} exArgs 額外的參數 * @return {Function} 符合asycs.js調用方式的任務函數 */ wrapTask: function(task, context, exArgs) { var self = this; return function() { var args = [].slice.call(arguments); args = exArgs ? exArgs.concat(args) : args; task.apply(context || self, args); }; },   /** * 獲取站點sitemap.xml */ sitemapXML: function(callback) { console.log('開始下載sitemap.xml'); node.request(this.options.sitemap, function(err, res, body) { if (!err) console.log('下載sitemap.xml成功'); callback(err, body); }); },   /** * 將sitemap.xml轉成json */ sitemapJSON: function(sitemapXML, callback) { var self = this; console.log('開始解析sitemap.xml'); node.xml2js.parseString(sitemapXML, {explicitArray: false}, function(err, json) { if (!err) { self.posts = json.urlset.url; self.posts.shift(); console.log('解析sitemap.xml成功,共有%d個頁面', self.posts.length); } callback(err, self.posts); }); },       /** * 下載整站圖片 */ downAllImages: function(callback) { var self = this;
copyright © 萬盛學電腦網 all rights reserved