萬盛學電腦網

 萬盛學電腦網 >> 安全資訊防護 >> NVIDIA戰略分析:Denver和Tegra沒關系?

NVIDIA戰略分析:Denver和Tegra沒關系?

  Project Denver究竟目的在哪?

  那麼,Project Denver開發的CPU核心究竟是什麼樣的東西呢?可從2010年11月在美國路易斯安那州新奧爾良市召開的HPC相關技術大會"SC10"上窺見一斑,同時也可從NVIDIA在GTC Workshop Japan 2011上公開的Roadmap中"Echelon"高性能HPC向平台推測出部分內容。 .

Project Denver究竟目的在哪? .

.

  Echelon計劃成員實力強勁,包括Cray、美光、洛克希德馬丁等著名公司,以及加州大學、斯坦福大學、德州大學奧斯汀分校、佐治亞理工學院、田納西大學、賓夕法尼亞大學、猶他大學、橡樹嶺國家實驗室等著名科研院校 .

  Echelon計劃的來頭頗大,主導機關是美國國防部下屬的DARPA(國防尖端技術研究開發計劃局),目標是在2018年實現ExaScale級別計算能力的超級計算機(UHPC),Echelon的開發受到這一項目的經費資助。DARPA資助經費的規定為,在2014年前完成Phase1階段的開發,即設計完成硬件部分,同時要報送DARPA審查。 .

  NVIDIA首席科學家Bill Dally在SC10大會上的演講內容中透露,Echelon為128個SM模塊和Project Denver的基礎——名為Latency Processor的8個CPU核心所組成,其中每個SM模塊含有8個CUDA Core和獨立的L0 Cache。據此計算,Echelon芯片整體含有8*128=1024個CUDA Core。

.

Project Denver究竟目的在哪?

.


▲NVIDIA首席科學家Bill Dally .

  各個SM模塊獨立命名為"NoC"(Network on Chip)通過內部界面,經由L2 Cache和內存控制器與其他SM相互連接。L2 Cache和CUDA Core數量一樣分1024塊,單個Echelon芯片中,NoC通過MC與一同封裝的DRAM Cube連接帶寬可達1.4TB/s。 .

  Echelon芯片的峰值計算性能(以雙精度浮點運算記)可達20T FLOPS。NVIDIA設想的每個Echelon機櫃搭載32個模塊,每個模塊封裝4個Echelon芯片,這樣單個機櫃的運算能力可達2.56P FLOPS。Echelon的Phase1(第一階段)設計就是如此,NVIDIA將在此基礎上第二階段主要考慮繼續提高運算性能和降低芯片所消耗的電力。 .

Project Denver究竟目的在哪? .


▲Echelon模塊圖解 .

Project Denver究竟目的在哪? .


▲Echelon由128個SM模塊和8個Latency Processor組成,後者就是Denver的核心 .

Project Denver究竟目的在哪? .


▲內存和每個Echelon的MCM(Multi Chip Module)Node在同一封裝內相連,帶寬可達1.4TB/s

.

Project Denver究竟目的在哪? .


▲每個Echelon機櫃由128個Node(即單Echelon芯片)組合而成,實現2.56P FLOPS的計算能力,功率38千瓦 .

Project Denver究竟目的在哪? .


▲400個機櫃即可實現Exa級別的計算,功率約150萬瓦 .

  為了配合UHPC一期開發階段制造Echelon工程樣品的需要,2013年前需要完成Latency Processor即Project Denver的CPU核心開發工作。

.

  這和NVIDIA在GTC Workshop Japan 2011上公開的最新平台路線圖相符合,Project Denver將和NV的下下代GPU核心"Maxwell"在同一時段登場。公布的幻燈片將Denver和Maxwell劃在了同一個框內,或許Echelon就是Maxwell和Denver核心的組合體? .

Project Denver究竟目的在哪? .


▲NVIDIA的GPU發展路線圖

.

Project Denver究竟目的在哪? .


▲GTC Workshop Japan 2011上公開的各平台框架圖

.

  不過和Echelon專注於通用計算不同的是,作為需要兼顧到原本3D應用的GeForce系列芯片,Maxwell不太可能采用像前者一樣激進的GPGPU專用架構。根據前面Echelon擁有1024個CUDA Cores實現20T FLOPS計算能力推算,如果Maxwell和Fermi成品旗艦顯卡的TDP相當,在250W左右的話,雙精度浮點性能大約為3.5-4T FLOPS為Tesla的15倍,Fermi的7.5倍左右,和NV路線圖展示的比例相近。但如果兩者架構相同,Maxwell的CUDA核心數可能會降到200左右,現在NVIDIA旗艦顯卡GTX 580則有512個。由此看來除非NV桌面顯卡架構也跟著大變,否則Maxwell和Echelon不太可能采用同樣架構,兩者的GPU性能不是為同一級別應用設計。 .

  此外,黃仁勳也曾經發表過關於Project Denver性能的評論,他在GPU Technology Conference 2010會議上曾經表示,將GPU和現有的ARM架構CPU(Cortex-A9)整合後,整數運算性能將是原有的3-4倍。如果這裡整合產物指的是Project Denver,那麼它的性能將是下代ARM Cortex A-15的2倍以上。如果此目標真能實現,那麼NVIDIA將在ARM陣營內爭奪主導權的戰斗中占據上風,Project Denver也將圓滿完成目標。 .

Project Denver究竟目的在哪? .


▲ARM公開的Cortex-A15對比同頻Cortex-A9的性能對比圖,如果Project Denver是Cortex-A9性能的3-4倍,那麼將是Cortex-A15性能的2倍以上 .

  Desai曾經稱NVIDIA的CPU核心開發部分在同時推進多個計劃,在筆者看來,Project Denver或許還有另外一個出路——進駐基於Windows 8的筆記本計算機用SoC(System on a Chip)市場。

.

  回顧一下前面提到的內容,Echelon、Maxwell和Denver核心的功耗都比較高,進駐筆記本計算機SoC芯片市場的可能性很小。而目前還沒有Tegra和Project Denver合並的計劃,Tegra處理器在2011年2月MWC 2011大會上公開的路線圖也多是針對智能手機和平板計算機市場,並且Tegra的性能目前看來也只適合低端筆記本。 此外,2013年Intel和AMD預計都將力推超薄筆記本計算機所用CPU SoC化,特別是Intel從現在就開始力推Ultrabook概念。難得Windows 8開始支持ARM架構處理器,NVIDIA沒理由不參與這一世代的筆記本計算機市場競爭。

.

  這樣看來,Tegra可能會從Project Denver的第二代CPU核心開始與後者整合。目前我們得知的消息是,四核Kal-El的下一代Tegra "Wayne"和下下代"Logan"均將使用Cortex-A15架構,而2014年的"Stark"就是Tegra和Denver的最好整合時期。至於Stark以後NVIDIA將怎樣活用Project Denver的成果繼續發展Tegra品牌產品,我們大可拭目以待。 .

Project Denver究竟目的在哪?

.


▲Tegra產品發展路線圖 .

  總結:Project Denver是NVIDIA在CPU+GPU混合計算時代掌握市場主導權的最重要計劃,此後NV旗下產品將主要分為三大塊:著重於GPGPU的高性能計算處理器,3D游戲用GPU和移動設備包括筆記本計算機、平板計算機和智能手機的Tegra三足鼎立,對比最早單GPU和近年來Tegra+GPU的戰略做了重大變革。

.

        更多內容請點擊: .

        CUDA專區: .

        CUDA論壇:

.

  .

.

copyright © 萬盛學電腦網 all rights reserved