今天寫了一個airport表,主要有這麼幾個字段
//主鍵id,機場英文名稱,機場中文名稱,機場三字碼,機場所在城市名子
id, name, c_name, code,city_name
由於機場三字碼是不重復的,所以一開始我為airport表添加唯一索引
ALTER TABLE `airport` ADD UNIQUE (`code` );
但在寫的過程中發現我爬蟲爬到的信息有重復的情況,所以先暫時去掉唯一索引。
show index from airport;//查看索引情況
DROP INDEX code ON airport
上下爬蟲程序代碼
<?php
require('phpQuery.php');
phpQuery::newDocumentFile("http://******************因為某些原因***********");
$res = pq('tbody')->find('tr')->text();
根據自己的業務邏輯插入到表中
很快完成了工作,完成之後,還是要理解三字碼重復的問題。
我的做法是采用了把所有重復的最小的三字碼記錄進行刪除處理,最早寫的代碼如下:
DELETE FROM airport WHERE
id IN (SELECT id FROM airport GROUP BY code HAVING COUNT(code) > 1)
AND id NOT IN ( SELECT max(id) FROM airport GROUP BY code HAVING COUNT(code ) >1);
但運行這條sql的時候出錯,原因是在選擇的時候,不能同步進行刪除或更新操作。這時候引用一個臨時表吧
create TEMPORARY table tmp select id from airport WHERE
id IN (SELECT id FROM airport GROUP BY code HAVING COUNT(code) > 1)
AND id NOT IN (SELECT max(id) FROM airport GROUP BY code HAVING COUNT(code ) >1);
delete from airport where id in (select id from tmp)
ok,操作完成,再看看有沒有重復的情況:
SELECT id FROM airport GROUP BY code HAVING COUNT(code) > 1
如果有再進行刪除。表的三字碼已經不重復了,再為三字碼添加唯一索引了。。。