萬盛學電腦網

 萬盛學電腦網 >> 數據庫 >> mysql教程 >> Mysql 多表聯合查詢效率分析及優化

Mysql 多表聯合查詢效率分析及優化

mysql大數據查詢優化對於許多站長來講都不會仔細的去分析了,對於這個問題小編最近碰到一個100W數據優化問題了,下面整理了一些mysql關聯查詢優化的測試及相關分析希望對各位有幫助。

一,簡單的關聯子查詢的一種優化 .

很多時候,在mysql上實現的子查詢的性能較差,這聽起來實在有點難過。特別有時候,用到IN()子查詢語句時,對於上了某種數量級的表來說,耗時多的難以估計。本人mysql知識所涉不深,只能慢慢摸透個中玄機了。


假設有這樣的一個exists查詢語句:


select * from table1
where exists
    (select * from table2 where id>=30000 and table1.uuid=table2.uuid);


table1為十萬行級的表,table2為百萬行級的表,本機測試結果用時2.40s。


通過explain可以看到子查詢是一個相關子查詢(DEPENDENCE SUBQUERY); Mysql會首先對外表table1進行全表掃描,然後根據返回的uuid逐次執行子查詢。如果外層表是一個很大的表,我們可以想象查詢性能會表現得比此次測試更糟糕。


一種簡單的優化方案為使用inner join的方法來代替子查詢, 查詢語句則可以改為:


select * from table1 innner join table2 using(uuid) where table2.id>=30000;


本機測試結果用時0.68s。


通過explain可以看到mysql使用了SIMPLE類型(子查詢或union以外的查詢方式); Mysql優化器會先過濾table2,然後對table1和table2做笛卡爾積得出結果集後,再通過on條件來過濾數據。

二、多表聯合查詢效率分析及優化


1. 多表連接類型
1. 笛卡爾積(交叉連接) 在MySQL中可以為CROSS JOIN或者省略CROSS即JOIN,或者使用','  如:


01.SELECT * FROM table1 CROSS JOIN table2  
02.SELECT * FROM table1 JOIN table2  
03.SELECT * FROM table1,table2 
SELECT * FROM table1 CROSS JOIN table2
SELECT * FROM table1 JOIN table2
SELECT * FROM table1,table2        由於其返回的結果為被連接的兩個數據表的乘積,因此當有WHERE, ON或USING條件的時候一般不建議使用,因為當數據表項目太多的時候,會非常慢。一般使用LEFT [OUTER] JOIN或者RIGHT [OUTER] JOIN

 2.   內連接INNER JOIN 在MySQL中把INNER JOIN叫做等值連接,即需要指定等值連接條件在MySQL中CROSS和INNER JOIN被劃分在一起。 join_table: table_reference [INNER | CROSS] JOIN table_factor [join_condition]

3. MySQL中的外連接,分為左外連接和右連接,即除了返回符合連接條件的結果之外,還要返回左表(左連接)或者右表(右連接)中不符合連接條件的結果,相對應的使用NULL對應。

例子:

user表:

id | name
———
1 | libk
2 | zyfon
3 | daodao

user_action表:

user_id | action
—————
1 | jump
1 | kick
1 | jump
2 | run
4 | swim

sql:


01.select id, name, action from user as u 
02.left join user_action a on u.id = a.user_id 
select id, name, action from user as u
left join user_action a on u.id = a.user_idresult:
id | name    | action
——————————–
1  | libk         | jump           ①
1  | libk         | kick             ②
1  | libk         | jump           ③
2  | zyfon      | run               ④
3  | daodao | null              ⑤

分析:
注意到user_action中還有一個user_id=4, action=swim的紀錄,但是沒有在結果中出現,
而user表中的id=3, name=daodao的用戶在user_action中沒有相應的紀錄,但是卻出現在了結果集中
因為現在是left join,所有的工作以left為准.
結果1,2,3,4都是既在左表又在右表的紀錄,5是只在左表,不在右表的紀錄

 

工作原理:

從左表讀出一條,選出所有與on匹配的右表紀錄(n條)進行連接,形成n條紀錄(包括重復的行,如:結果1和結果3),如果右邊沒有與on條件匹配的表,那連接的字段都是null.然後繼續讀下一條。

引申:
我們可以用右表沒有on匹配則顯示null的規律, 來找出所有在左表,不在右表的紀錄, 注意用來判斷的那列必須聲明為not null的。
如:
sql:


01.select id, name, action from user as u 
02.left join user_action a on u.id = a.user_id 
03.where a.user_id is NULL 
select id, name, action from user as u
left join user_action a on u.id = a.user_id
where a.user_id is NULL
(注意:

        1.列值為null應該用is null 而不能用=NULL
         2.這裡a.user_id 列必須聲明為 NOT NULL 的.


上面sql的result:
id | name | action
————————–
3 | daodao | NULL

——————————————————————————–

一般用法:

a. LEFT [OUTER] JOIN:

除了返回符合連接條件的結果之外,還需要顯示左表中不符合連接條件的數據列,相對應使用NULL對應


01.SELECT column_name FROM table1 LEFT [OUTER] JOIN table2 ON table1.column=table2.column 
 SELECT column_name FROM table1 LEFT [OUTER] JOIN table2 ON table1.column=table2.column
b. RIGHT [OUTER] JOIN:

RIGHT與LEFT JOIN相似不同的僅僅是除了顯示符合連接條件的結果之外,還需要顯示右表中不符合連接條件的數據列,相應使用NULL對應


01.SELECT column_name FROM table1 RIGHT [OUTER] JOIN table2 ON table1.column=table2.column 
 SELECT column_name FROM table1 RIGHT [OUTER] JOIN table2 ON table1.column=table2.columnTips:

1. on a.c1 = b.c1 等同於 using(c1)
2. INNER JOIN 和 , (逗號) 在語義上是等同的
3. 當 MySQL 在從一個表中檢索信息時,你可以提示它選擇了哪一個索引。
如果 EXPLAIN 顯示 MySQL 使用了可能的索引列表中錯誤的索引,這個特性將是很有用的。
通過指定 USE INDEX (key_list),你可以告訴 MySQL 使用可能的索引中最合適的一個索引在表中查找記錄行。
可選的二選一句法 IGNORE INDEX (key_list) 可被用於告訴 MySQL 不使用特定的索引。如:


01.mysql> SELECT * FROM table1 USE INDEX (key1,key2) 
02.-> WHERE key1=1 AND key2=2 AND key3=3; 
03.mysql> SELECT * FROM table1 IGNORE INDEX (key3) 
04.-> WHERE key1=1 AND key2=2 AND key3=3; 
mysql> SELECT * FROM table1 USE INDEX (key1,key2)
-> WHERE key1=1 AND key2=2 AND key3=3;
mysql> SELECT * FROM table1 IGNORE INDEX (key3)
-> WHERE key1=1 AND key2=2 AND key3=3;

2. 表連接的約束條件
 添加顯示條件WHERE, ON, USING

1. WHERE子句

mysql>


01.SELECT * FROM table1,table2 WHERE table1.id=table2.id; 
SELECT * FROM table1,table2 WHERE table1.id=table2.id;
2. ON

mysql>


01.SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id; 
02. 
03.SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id 
04.LEFT JOIN table3 ON table2.id=table3.id; 
SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id;

SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id
LEFT JOIN table3 ON table2.id=table3.id;
3. USING子句,如果連接的兩個表連接條件的兩個列具有相同的名字的話可以使用USING

 例如:

SELECT FROM LEFT JOIN USING ()

 

連接多於兩個表的情況舉例:

mysql>


01.SELECT artists.Artist, cds.title, genres.genre  
02. 
03.FROM cds  
04. 
05.LEFT JOIN genres N cds.genreID = genres.genreID  
06. 
07.LEFT JOIN artists ON cds.artistID = artists.artistID;  
SELECT artists.Artist, cds.title, genres.genre

FROM cds

LEFT JOIN genres N cds.genreID = genres.genreID

LEFT JOIN artists ON cds.artistID = artists.artistID;

 

或者 mysql>


01.SELECT artists.Artist, cds.title, genres.genre  
02. 
03.FROM cds  
04. 
05.LEFT JOIN genres ON cds.genreID = genres.genreID  
06. 
07. LEFT JOIN artists -> ON cds.artistID = artists.artistID 
08. 
09. WHERE (genres.genre = 'Pop');  
SELECT artists.Artist, cds.title, genres.genre

FROM cds

LEFT JOIN genres ON cds.genreID = genres.genreID

 LEFT JOIN artists -> ON cds.artistID = artists.artistID

 WHERE (genres.genre = 'Pop');

--------------------------------------------

 另外需要注意的地方 在MySQL中涉及到多表查詢的時候,需要根據查詢的情況,想好使用哪種連接方式效率更高。

 1. 交叉連接(笛卡爾積)或者內連接 [INNER | CROSS] JOIN

 2. 左外連接LEFT [OUTER] JOIN或者右外連接RIGHT [OUTER] JOIN 注意指定連接條件WHERE, ON,USING.

3. MySQL如何優化LEFT JOIN和RIGHT JOIN
在MySQL中,A LEFT JOIN B join_condition執行過程如下:

1)·  根據表A和A依賴的所有表設置表B。

2)·  根據LEFT JOIN條件中使用的所有表(除了B)設置表A。

3)·   LEFT JOIN條件用於確定如何從表B搜索行。(換句話說,不使用WHERE子句中的任何條件)。

4)·  可以對所有標准聯接進行優化,只是只有從它所依賴的所有表讀取的表例外。如果出現循環依賴關系,MySQL提示出現一個錯誤。

5)· 進行所有標准WHERE優化。

6)· 如果A中有一行匹配WHERE子句,但B中沒有一行匹配ON條件,則生成另一個B行,其中所有列設置為NULL。

7)· 如果使用LEFT JOIN找出在某些表中不存在的行,並且進行了下面的測試:WHERE部分的col_name IS NULL,其中col_name是一個聲明為 NOT NULL的列,MySQL找到匹配LEFT JOIN條件的一個行後停止(為具體的關鍵字組合)搜索其它行。

RIGHT JOIN的執行類似LEFT JOIN,只是表的角色反過來。

聯接優化器計算表應聯接的順序。LEFT JOIN和STRAIGHT_JOIN強制的表讀順序可以幫助聯接優化器更快地工作,因為檢查的表交換更少。請注意這說明如果執行下面類型的查詢,MySQL進行全掃描b,因為LEFT JOIN強制它在d之前讀取:


01.SELECT * 
02.FROM a,b LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key) 
03.WHERE b.key=d.key; 
SELECT *
FROM a,b LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
WHERE b.key=d.key;
在這種情況下修復時用a的相反順序,b列於FROM子句中:


01.SELECT * 
02.FROM b,a LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key) 
03.WHERE b.key=d.key; 
SELECT *
FROM b,a LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
WHERE b.key=d.key;
MySQL可以進行下面的LEFT JOIN優化:如果對於產生的NULL行,WHERE條件總為假,LEFT JOIN變為普通聯接。

例如,在下面的查詢中如果t2.column1為NULL,WHERE 子句將為false:


01.SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5; 
SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5;因此,可以安全地將查詢轉換為普通聯接:


01.SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1; 
SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1;這樣可以更快,因為如果可以使查詢更佳,MySQL可以在表t1之前使用表t2。為了強制使用表順序,使用STRAIGHT_JOIN。


三、利用緩存來實現

現在社區分享類網站很火,就拿方維購物分享網站舉例說明吧。也是對二次開發方維購物分享網站的一點總結,高手可以飛過。

購物分享的關鍵表有:分享表、圖片表、文件表、評論表、標簽表、分類表等。
圍繞分享的表就麼多,哇,那也不少啊。當我們查看一個圖片的詳細信息時,就要顯示以上表裡的信息。顯示圖片所屬的分類、給圖片打的標簽、圖片的評論、有文件的話還要顯示文件下載信息等。難道讓我們6個表去關聯查詢嘛,當然不能這麼多關聯來查詢數據,我們可以只查詢一個表即可,這怎麼講?這裡分享表是主表,我們可以在主表裡建立一個緩存字段。比如我們叫cache_data字段,賦予它text類型,這樣可以存儲很長的字符串,而不至於超過字段的最大存儲。

這個緩存字段怎麼用呢?在新增一條分享信息後,產生分享ID。如果用戶發布圖片或文件的話,圖片信息入圖片表,文件信息入文件表,然後把新產生的圖片或文件信息寫入到緩存字段裡。同樣的,如果用戶有選擇分類、打了標簽的話,也把相應的信息寫入到緩存字段裡。對於評論而言,沒有必要把全部評論存到緩存字段裡,因為你不知道他有多少條記錄,可以把最新的10條存到緩存字段裡用於顯示,這樣緩存字段就變成一個二維或三維數組,序列化後存儲到分享表裡。

array(
 
 'img' = array(
  name => '123.jpg',
  url  => 'http://tech.42xiu.com/123.jpg',
  width  => 800,
  width  => 600,
 ),

 'file' = array(
  name => 'abc.zip',
  download_url  => 'http://tech.42xiu.com/abc.zip',
  size  => 1.2Mb,
 ),

 'category' = array(
  1 => array(
   id => 5,
   name => PHP樂知博客
  ),

  2 => array(
   id => 6,
   name => PHP技術博客
  ),
 ),

 'tag' => array(
  tag1
  tag2
  ......
 ),

 'message' => array(
  1 => array(id, uid, name, content, time),
  2 => array(id, uid, name, content, time),
  3 => array(id, uid, name, content, time),
  4 => array(id, uid, name, content, time),
 ),

)
//比如,上面的數組結構,序列化存入數據庫。

UPDATE share SET cache_data=mysql_real_escape_string(serialize($cache_data)) WHERE id=1;這樣查詢就變得簡單了,只需要查詢一條就行了,取到緩存字段,把其反序列化,把數組信息提取出來,然後顯示到頁面。如果是以前那個結構,在幾十萬的數據量下,估計早崩潰了。數據緩存的方法也許不是最好的,如果你有更好的方法,可以相互學習,相互討論。

copyright © 萬盛學電腦網 all rights reserved