一,簡單的關聯子查詢的一種優化 .
很多時候,在mysql上實現的子查詢的性能較差,這聽起來實在有點難過。特別有時候,用到IN()子查詢語句時,對於上了某種數量級的表來說,耗時多的難以估計。本人mysql知識所涉不深,只能慢慢摸透個中玄機了。
假設有這樣的一個exists查詢語句:
select * from table1
where exists
(select * from table2 where id>=30000 and table1.uuid=table2.uuid);
table1為十萬行級的表,table2為百萬行級的表,本機測試結果用時2.40s。
通過explain可以看到子查詢是一個相關子查詢(DEPENDENCE SUBQUERY); Mysql會首先對外表table1進行全表掃描,然後根據返回的uuid逐次執行子查詢。如果外層表是一個很大的表,我們可以想象查詢性能會表現得比此次測試更糟糕。
一種簡單的優化方案為使用inner join的方法來代替子查詢, 查詢語句則可以改為:
select * from table1 innner join table2 using(uuid) where table2.id>=30000;
本機測試結果用時0.68s。
通過explain可以看到mysql使用了SIMPLE類型(子查詢或union以外的查詢方式); Mysql優化器會先過濾table2,然後對table1和table2做笛卡爾積得出結果集後,再通過on條件來過濾數據。
二、多表聯合查詢效率分析及優化
1. 多表連接類型
1. 笛卡爾積(交叉連接) 在MySQL中可以為CROSS JOIN或者省略CROSS即JOIN,或者使用',' 如:
01.SELECT * FROM table1 CROSS JOIN table2
02.SELECT * FROM table1 JOIN table2
03.SELECT * FROM table1,table2
SELECT * FROM table1 CROSS JOIN table2
SELECT * FROM table1 JOIN table2
SELECT * FROM table1,table2 由於其返回的結果為被連接的兩個數據表的乘積,因此當有WHERE, ON或USING條件的時候一般不建議使用,因為當數據表項目太多的時候,會非常慢。一般使用LEFT [OUTER] JOIN或者RIGHT [OUTER] JOIN
2. 內連接INNER JOIN 在MySQL中把INNER JOIN叫做等值連接,即需要指定等值連接條件在MySQL中CROSS和INNER JOIN被劃分在一起。 join_table: table_reference [INNER | CROSS] JOIN table_factor [join_condition]
3. MySQL中的外連接,分為左外連接和右連接,即除了返回符合連接條件的結果之外,還要返回左表(左連接)或者右表(右連接)中不符合連接條件的結果,相對應的使用NULL對應。
例子:
user表:
id | name
———
1 | libk
2 | zyfon
3 | daodao
user_action表:
user_id | action
—————
1 | jump
1 | kick
1 | jump
2 | run
4 | swim
sql:
01.select id, name, action from user as u
02.left join user_action a on u.id = a.user_id
select id, name, action from user as u
left join user_action a on u.id = a.user_idresult:
id | name | action
——————————–
1 | libk | jump ①
1 | libk | kick ②
1 | libk | jump ③
2 | zyfon | run ④
3 | daodao | null ⑤
分析:
注意到user_action中還有一個user_id=4, action=swim的紀錄,但是沒有在結果中出現,
而user表中的id=3, name=daodao的用戶在user_action中沒有相應的紀錄,但是卻出現在了結果集中
因為現在是left join,所有的工作以left為准.
結果1,2,3,4都是既在左表又在右表的紀錄,5是只在左表,不在右表的紀錄
工作原理:
從左表讀出一條,選出所有與on匹配的右表紀錄(n條)進行連接,形成n條紀錄(包括重復的行,如:結果1和結果3),如果右邊沒有與on條件匹配的表,那連接的字段都是null.然後繼續讀下一條。
引申:
我們可以用右表沒有on匹配則顯示null的規律, 來找出所有在左表,不在右表的紀錄, 注意用來判斷的那列必須聲明為not null的。
如:
sql:
01.select id, name, action from user as u
02.left join user_action a on u.id = a.user_id
03.where a.user_id is NULL
select id, name, action from user as u
left join user_action a on u.id = a.user_id
where a.user_id is NULL
(注意:
1.列值為null應該用is null 而不能用=NULL
2.這裡a.user_id 列必須聲明為 NOT NULL 的.
)
上面sql的result:
id | name | action
————————–
3 | daodao | NULL
——————————————————————————–
一般用法:
a. LEFT [OUTER] JOIN:
除了返回符合連接條件的結果之外,還需要顯示左表中不符合連接條件的數據列,相對應使用NULL對應
01.SELECT column_name FROM table1 LEFT [OUTER] JOIN table2 ON table1.column=table2.column
SELECT column_name FROM table1 LEFT [OUTER] JOIN table2 ON table1.column=table2.column
b. RIGHT [OUTER] JOIN:
RIGHT與LEFT JOIN相似不同的僅僅是除了顯示符合連接條件的結果之外,還需要顯示右表中不符合連接條件的數據列,相應使用NULL對應
01.SELECT column_name FROM table1 RIGHT [OUTER] JOIN table2 ON table1.column=table2.column
SELECT column_name FROM table1 RIGHT [OUTER] JOIN table2 ON table1.column=table2.columnTips:
1. on a.c1 = b.c1 等同於 using(c1)
2. INNER JOIN 和 , (逗號) 在語義上是等同的
3. 當 MySQL 在從一個表中檢索信息時,你可以提示它選擇了哪一個索引。
如果 EXPLAIN 顯示 MySQL 使用了可能的索引列表中錯誤的索引,這個特性將是很有用的。
通過指定 USE INDEX (key_list),你可以告訴 MySQL 使用可能的索引中最合適的一個索引在表中查找記錄行。
可選的二選一句法 IGNORE INDEX (key_list) 可被用於告訴 MySQL 不使用特定的索引。如:
01.mysql> SELECT * FROM table1 USE INDEX (key1,key2)
02.-> WHERE key1=1 AND key2=2 AND key3=3;
03.mysql> SELECT * FROM table1 IGNORE INDEX (key3)
04.-> WHERE key1=1 AND key2=2 AND key3=3;
mysql> SELECT * FROM table1 USE INDEX (key1,key2)
-> WHERE key1=1 AND key2=2 AND key3=3;
mysql> SELECT * FROM table1 IGNORE INDEX (key3)
-> WHERE key1=1 AND key2=2 AND key3=3;
2. 表連接的約束條件
添加顯示條件WHERE, ON, USING
1. WHERE子句
mysql>
01.SELECT * FROM table1,table2 WHERE table1.id=table2.id;
SELECT * FROM table1,table2 WHERE table1.id=table2.id;
2. ON
mysql>
01.SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id;
02.
03.SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id
04.LEFT JOIN table3 ON table2.id=table3.id;
SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id;
SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id
LEFT JOIN table3 ON table2.id=table3.id;
3. USING子句,如果連接的兩個表連接條件的兩個列具有相同的名字的話可以使用USING
例如:
SELECT FROM LEFT JOIN USING ()
連接多於兩個表的情況舉例:
mysql>
01.SELECT artists.Artist, cds.title, genres.genre
02.
03.FROM cds
04.
05.LEFT JOIN genres N cds.genreID = genres.genreID
06.
07.LEFT JOIN artists ON cds.artistID = artists.artistID;
SELECT artists.Artist, cds.title, genres.genre
FROM cds
LEFT JOIN genres N cds.genreID = genres.genreID
LEFT JOIN artists ON cds.artistID = artists.artistID;
或者 mysql>
01.SELECT artists.Artist, cds.title, genres.genre
02.
03.FROM cds
04.
05.LEFT JOIN genres ON cds.genreID = genres.genreID
06.
07. LEFT JOIN artists -> ON cds.artistID = artists.artistID
08.
09. WHERE (genres.genre = 'Pop');
SELECT artists.Artist, cds.title, genres.genre
FROM cds
LEFT JOIN genres ON cds.genreID = genres.genreID
LEFT JOIN artists -> ON cds.artistID = artists.artistID
WHERE (genres.genre = 'Pop');
--------------------------------------------
另外需要注意的地方 在MySQL中涉及到多表查詢的時候,需要根據查詢的情況,想好使用哪種連接方式效率更高。
1. 交叉連接(笛卡爾積)或者內連接 [INNER | CROSS] JOIN
2. 左外連接LEFT [OUTER] JOIN或者右外連接RIGHT [OUTER] JOIN 注意指定連接條件WHERE, ON,USING.
3. MySQL如何優化LEFT JOIN和RIGHT JOIN
在MySQL中,A LEFT JOIN B join_condition執行過程如下:
1)· 根據表A和A依賴的所有表設置表B。
2)· 根據LEFT JOIN條件中使用的所有表(除了B)設置表A。
3)· LEFT JOIN條件用於確定如何從表B搜索行。(換句話說,不使用WHERE子句中的任何條件)。
4)· 可以對所有標准聯接進行優化,只是只有從它所依賴的所有表讀取的表例外。如果出現循環依賴關系,MySQL提示出現一個錯誤。
5)· 進行所有標准WHERE優化。
6)· 如果A中有一行匹配WHERE子句,但B中沒有一行匹配ON條件,則生成另一個B行,其中所有列設置為NULL。
7)· 如果使用LEFT JOIN找出在某些表中不存在的行,並且進行了下面的測試:WHERE部分的col_name IS NULL,其中col_name是一個聲明為 NOT NULL的列,MySQL找到匹配LEFT JOIN條件的一個行後停止(為具體的關鍵字組合)搜索其它行。
RIGHT JOIN的執行類似LEFT JOIN,只是表的角色反過來。
聯接優化器計算表應聯接的順序。LEFT JOIN和STRAIGHT_JOIN強制的表讀順序可以幫助聯接優化器更快地工作,因為檢查的表交換更少。請注意這說明如果執行下面類型的查詢,MySQL進行全掃描b,因為LEFT JOIN強制它在d之前讀取:
01.SELECT *
02.FROM a,b LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
03.WHERE b.key=d.key;
SELECT *
FROM a,b LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
WHERE b.key=d.key;
在這種情況下修復時用a的相反順序,b列於FROM子句中:
01.SELECT *
02.FROM b,a LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
03.WHERE b.key=d.key;
SELECT *
FROM b,a LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
WHERE b.key=d.key;
MySQL可以進行下面的LEFT JOIN優化:如果對於產生的NULL行,WHERE條件總為假,LEFT JOIN變為普通聯接。
例如,在下面的查詢中如果t2.column1為NULL,WHERE 子句將為false:
01.SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5;
SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5;因此,可以安全地將查詢轉換為普通聯接:
01.SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1;
SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1;這樣可以更快,因為如果可以使查詢更佳,MySQL可以在表t1之前使用表t2。為了強制使用表順序,使用STRAIGHT_JOIN。
三、利用緩存來實現
現在社區分享類網站很火,就拿方維購物分享網站舉例說明吧。也是對二次開發方維購物分享網站的一點總結,高手可以飛過。
購物分享的關鍵表有:分享表、圖片表、文件表、評論表、標簽表、分類表等。
圍繞分享的表就麼多,哇,那也不少啊。當我們查看一個圖片的詳細信息時,就要顯示以上表裡的信息。顯示圖片所屬的分類、給圖片打的標簽、圖片的評論、有文件的話還要顯示文件下載信息等。難道讓我們6個表去關聯查詢嘛,當然不能這麼多關聯來查詢數據,我們可以只查詢一個表即可,這怎麼講?這裡分享表是主表,我們可以在主表裡建立一個緩存字段。比如我們叫cache_data字段,賦予它text類型,這樣可以存儲很長的字符串,而不至於超過字段的最大存儲。
這個緩存字段怎麼用呢?在新增一條分享信息後,產生分享ID。如果用戶發布圖片或文件的話,圖片信息入圖片表,文件信息入文件表,然後把新產生的圖片或文件信息寫入到緩存字段裡。同樣的,如果用戶有選擇分類、打了標簽的話,也把相應的信息寫入到緩存字段裡。對於評論而言,沒有必要把全部評論存到緩存字段裡,因為你不知道他有多少條記錄,可以把最新的10條存到緩存字段裡用於顯示,這樣緩存字段就變成一個二維或三維數組,序列化後存儲到分享表裡。
array(
'img' = array(
name => '123.jpg',
url => 'http://tech.42xiu.com/123.jpg',
width => 800,
width => 600,
),
'file' = array(
name => 'abc.zip',
download_url => 'http://tech.42xiu.com/abc.zip',
size => 1.2Mb,
),
'category' = array(
1 => array(
id => 5,
name => PHP樂知博客
),
2 => array(
id => 6,
name => PHP技術博客
),
),
'tag' => array(
tag1
tag2
......
),
'message' => array(
1 => array(id, uid, name, content, time),
2 => array(id, uid, name, content, time),
3 => array(id, uid, name, content, time),
4 => array(id, uid, name, content, time),
),
)
//比如,上面的數組結構,序列化存入數據庫。
UPDATE share SET cache_data=mysql_real_escape_string(serialize($cache_data)) WHERE id=1;這樣查詢就變得簡單了,只需要查詢一條就行了,取到緩存字段,把其反序列化,把數組信息提取出來,然後顯示到頁面。如果是以前那個結構,在幾十萬的數據量下,估計早崩潰了。數據緩存的方法也許不是最好的,如果你有更好的方法,可以相互學習,相互討論。