Nvidia Turing GPU- RTX 2080 TI和RTX 2080圖形卡背後的架構

最新一代的GeForce圖形卡在新的Nvidia Turing GPU體系結構上運行。這是Volta Tech,擁有所有的AI排骨,再加上許多專用的射線追踪善良,以獲得未來的高保真樂趣。當微軟可以使其十月更新正常工作時,那就是…

我們最初以為Nvidia會將Volta架構轉換為更具消費者友好的形式,但是Nvidia已繼續前進,為我們的遊戲圖形卡生成了一套新的離散GPU。但這並不意味著這與Volta設計完全不同,正如NVIDIA的Tom Petersen在RTX 20系列揭幕中所解釋的那樣。

他告訴我們:“許多沃爾塔的建築都在圖靈上。” “ Volta是Pascal Plus,Pascal是Maxwell Plus,因此我們不會拋出著色器並重新開始,我們總是在精煉。因此,說圖靈是Volta Plus…一堆東西,這是更準確的。”

而且,圖靈GPU有很多新的東西,而不僅僅是引人入勝的實時射線追踪技術,自從首次展示以來,它就已經在整個Intermawebs上貼了。

重要統計數據

Nvidia Turing發布日期
第一張圖靈卡在2018年8月在Siggraph上以Quadro RTX名稱宣布,此後不久,Geforce RTX卡在Gamescom上發布了。但是消費者卡首先推出了RTX 2080RTX 20809月發售。

Nvidia圖靈規格
在圖靈芯片的第一波中,有三個獨立的GPU。完整的頂級TU102 GPU具有72 SMS,其中有4,608個CUDA核心。它還包裝了576個以AI為中心的張量芯和72射線跟踪RT核心。 TU104和TU106 GPU在其下方擬合,分別為3,072和2,304個CUDA核心。您還可以獲得GDDR6內存支持。

Nvidia Turing建築
Turing GPU的設計側重於基於計算的渲染,因此它們將傳統的柵格化渲染硬件與以AI和以射線追踪為中心的矽結合在一起。圖靈的個別短信也經過重新設計,比Pascal SM設計提供了50%的性能提高。

NVIDIA Turing價格
如果您想要Turing硬件的絕對巔峰,那麼Quadro RTX 8000是您的選擇,儘管它會讓您寄回$ 10,000。這使得GeForce RTX 2080 TI創始人版卡的1,199美元看起來像是一件便宜貨。最便宜的圖靈GPU,RTX 2070,參考鎖定卡的費用為499美元。

NVIDIA Turing性能
現在,我們對圖靈GPU在傳統渲染中的表現有了充分的了解,而RTX 2080和RTX 2080 TI基准在我們對這兩張卡片的評論中顯示了。但是,實時的射線追踪和AI潛力尚未完全看到。

YouTube Thumbnail

您第一次能夠掌握NVIDIA的基於圖靈的圖形卡,即RTX 2080 TI和RTX 2080於2018年9月20日推出,儘管頂級卡的一般可用性已延遲到一周後。專業級的Quadro RTX卡,帶有完整的Turing Tu102和Tu104 GPU,將於2018年第四季度晚些時候上市。

新的GPU架構首次在Siggraph宣布,Quadro RTX卡在那里首次郊遊,但8月20日晚些時候在Gamescom上,Jen-Hsun Huang在舞台上展示了​​第一台Geforce RTX RTX圖形卡片。

還宣布了第三張圖靈圖形卡,即RTX 2070,儘管該卡的發佈時間比兩張旗艦GPU晚發布,現在確認了2018年10月的發布窗口。我們預計,如果NVIDIA堅持最近的公告和發布日期,可能會在10月20日末左右。

有趣的是,NVIDIA已使用自己的超頻創始人版卡推出了消費者Turing GPU,但正在尋找其圖形卡夥伴在同一天發布參考鎖定版本。這是NVIDIA最近首次與合作夥伴一起推出了新一代圖形卡。

Nvidia圖靈規格

用於圖靈的規格表使您引人入勝。這些是Monster GPU,甚至第三層TU106芯片的測量約為445mm2。這僅比上一代GTX 1080 TI和Titan卡的頂級GP102芯片小一點。 Turing量表的另一端的Tu102的尺寸為754mm2,包裝在近190億個12nm晶體管中。

TU102具有72個流媒體多處理器(SMS),每個流程中有64個FP32核心和64個INT32核心,總共構成了六個獨立的一般處理簇(GPC)的完整4,608個CUDA核。

Quadro RTX 8000RTX 2080RTX 2080RTX 2070GTX 1080 TI
GPUTU102TU102T104TU106GP102
GPC66666
SM7268463628
cuda顏色46084352294423043584
張量576544368288na
RT核心72684636na
記憶48GB GDDR611GB GDDR68GB GDDR68GB GDDR611GB GDDR5X
內存總線352位352位256位256位352位
內存速度14Gbps14Gbps14Gbps14Gbps11Gbps
羅普9688646488
紋理單元288272184144224
TDP260W260W225W185W250W
電晶體186億186億136億108億12億
光刻12nm ffn12nm ffn12nm ffn12nm ffn16nm
模具大小754mm2754mm2545mm2445mm2471毫米2

每個SM還具有一個單一的RT芯和八個張量芯。這些是分配的專用矽塊,用於計算實時射線跟踪和AI特異性工作負載。這意味著完整的Tu102芯片包含72個RT芯和576個張量芯。

我們一直在引用“完整的Tu102芯片”,因為RTX 2080 TI實際上並不包含全規格的GPU。 RTX 2080 Ti的最後68 SM計數中有4個缺少SMS,因此,頂部的GeForce RTX卡的CUDA核心比Quadro RTX 6000和RTX 8000卡的CUDA核心少256,這些卡確實使用了全脂TU102。

Turing Tu102 GPU

Turing Tu104 GPU

在Quadro RTX 5000和GeForce RTX 2080中使用的Tu104 GPU也是如此。完整芯片具有48個SMS和3,072個CUDA核心,但RTX 2080的GPU剃光了兩張SMS,因此內部較少的核心少128個SMS ,因此它少了128個SMS。 。

但是,到目前為止,TU106僅出現在RTX 2070中,並且它的全GPU都沒有缺少。它擁有36個SMS,其中有2,304個CUDA核心,288個張量和36個RT核心。

儘管到目前為止宣布的所有三種圖靈GPU的SM設計都是相同的,但不同芯片的實際組成卻大不相同。最初,我們希望RTX 2080和RTX 2070共享相同的GPU,僅進行了一些剪裁以創建第三階段的選項。但是Tu104和Tu106芯片的設計和Tu102和Tu104也有所不同。

實際上,TU106與Tu102更相似,僅有效切成一半。 TU102和TU106 GPU在每個GPC中都有12個SMS,而Tu104的設計只有8個。這意味著RTX 2080 TI和RTX 2080芯片都帶有六個GPC,但較小的芯片中的SMS較少。

但是所有三個Turing GPU都保留對新GDDR6內存的支持,11GB為14GBPS GDDR6和352位內存總線進入RTX 2080 TI,8GB的14GBPS GDDR6和256位內存總線都進入RTX 2080和RTX 2070卡。

Nvidia Turing建築

新的Nvidia圖靈GPU存在一些關鍵的架構差異,使它們與以前的Pascal Generation Generation of Consumer Graphics卡分開。它們更類似於GPU的Volta產生,但即使與這些伏特”的差異很重要。

除了新芯片的實時射線追踪能力外,還有許多新的渲染技術來加快遊戲性能,以及一些將NVIDIA Tensor內核的AI功率及時使用的新方法。這些功能的所有潛力並非所有的潛力都將立即實現,這可能會使這一代GPU通常歸因於AMD的圖形卡。

最大的架構差異之一是Turing GPU的實際流媒體多處理器(SM)的變化。新的獨立整數數據可以聽起來並不令人興奮,但這意味著與其執行浮點和整數指令,這意味著它們可以同時運行。

您的圖形卡花費大部分時間進行浮點計算,但是NVIDIA已經弄清楚,平均而言,當您使用GPU時,每100個浮點說明時,您的GPU將處理大約36個整數說明。伴隨著帕斯卡(Pascal),這意味著每次使用整數核心時,FP核心都會閒置,浪費了性能。

對於圖靈來說,兩者都可以同時活躍,這意味著永遠不應該有一段時間INT32和FP32核心在繞著他們的拇指旋轉,等待對方完成他們的工作。這是圖靈SM超過Pascal的50%性能的主要原因。

儘管NVIDIA還改善了內存體系結構,統一共享內存設計,使GPU能夠在有備用容量時動態分配L1 CACHE,有效地將其加倍。圖靈的L2容量也增加了一倍。

在每一個Turing SMS中,您都會得到八個張量的核心。這些是專注於AI的核心,旨在通過深度學習算法來推論和咀嚼專業空間以外的速度。您可能正確地問:“這些矽在我的遊戲卡中到底在做什麼?”但是,隨著NVIDIA的神經圖形加速(NGX)技術的引入,深度學習可以改善遊戲的領域。

目前,唯一的切實益處是深度學習超級抽樣(DLSS),一種基於AI的後處理功能,可改善顳抗抗氧化(TAA)的外觀,同時促進性能。贏,贏,對嗎? DLSS最簡單,使用NVIDIA驅動程序中下載的圖像數據,將其饋入圖靈GPU的張量核心,並允許您的圖形卡的Little AI智能卡填充兼容遊戲的空白,而不是TAA少得多的樣本需要。從本質上講,它不再需要渲染每個像素,因為它只知道像素應該是什麼,因為它被學會了遊戲時應該是什麼樣子。

NVIDIA通過將其與該特定遊戲的數百萬張圖像一起餵食其土星V超級計算機來獲取這些數據,並以非常高的分辨率為其,以便它可以了解高分辨率圖像的外觀。它使用的圖像都是64倍超級採樣,然後一旦土星V學會瞭如何重新創建與給出的超級高分辨率圖片相匹配的圖像,然後就可以滾動了。

然後,在本地層面上,您的圖靈GPU將能夠使用張量芯在無需極端的樣本taa的情況下即可在遊戲中飛出光滑,無懸空的視覺效果,從而大大減少渲染圖時間。它還可以修復有時可以使用TAA獲得的模糊圖像或破碎的圖像,同時還可以使兼容遊戲的運行速度比使用TAA時快。

目前,總共有25場遊戲正在支持DLSS。儘管不幸的是,我們不知道何時會出現這種支持。

然而,將來,這些張量的核心將能夠通過Microsoft的Winml API來使用其智能來加速遊戲中的真實AI,並提供超慢的MO視覺效果以進行重播和亮點,並希望其他基於AI的酷功能我們甚至還沒有想到。我喜歡AI,我認為機器人很酷,我期待在我的電腦中擁有一個。直到它不可避免地升起並奴役了我。

這就是將有助於傳統柵格化遊戲的所有內容,但是圖靈架構也引入了下一代圖形渲染,實時射線追踪。

多年來,英特爾,AMD和NVIDIA都在展示了雷在硬件上的追踪,英特爾甚至展示了整個遊戲播放的雷都追踪了他們的技術。但是,Nvidia是第一個實際演示將發行的遊戲,其中將在其內部進行射線追踪功能,並真正實時運行。新的RT核心不會為您提供完全追溯的遊戲,但是NVIDIA正在使用新的Microsoft DirectX RayTracing API來加速混合射線跟踪/柵格化渲染技術。這使遊戲引擎可以利用柵格化的效率以及射線追踪的準確性來平衡忠誠度和性能。

我們使用新技術玩的第一個遊戲是《古墓麗影》和《戰地風雲》 5的陰影,這兩種遊戲都以不同的方式使用它。拉拉(Lara)使用技術來實時追踪她的陰影和照明,而骰子則將其用於整個遊戲世界中的射線準確反射。

圖靈(Turing)使曾經花費整個渲染農場的工作能夠實時完成,以便在一個GPU上完成。為此,它使用專用的矽以及重新設計的渲染管道,從而可以同時進行柵格化和射線跟踪。

但是,專門的矽是圖靈GPU體系結構的最大變化之一,它們是固定功能核心,旨在加速特定技術,該技術已成為射線追踪的行業標準 - 邊界量層次結構(BVH)。

Nvidia的湯姆·彼得森(Tom Petersen)最近對我說:“很久以前,有許多不同的競爭技術來進行射線追踪。” “在過去的幾年中,BVH顯然成為做這種投影和幾何相交的好方法。

“因此,一旦您了解了算法,那麼這是一個問題,即如何將該算法映射到硬件,而該問題本身就非常複雜。我想說圖靈是主要是因為我們知道該技術在正確的交叉路口,並且取得了很好的成績。”

BVH是硬件可以跟踪場景中生成的單個光線的遍歷的過程,以及每個射線與對象相交的確切點。該算法檢查目標對像上的較小盒子,以通過場景釘住其運動,進行測試和重新測試,直到射線最終撞擊對象。然後,它需要進行盒子檢查,以查看其命中的對象的確切位置。目前,這一切都是用每個SM內的標準矽完成的,並將其綁定到計算創建可信的射線追踪效果所需的數十億射線。但是,RT核心將其從SM卸下,將其留給傳統工作,並大大加速整個過程。

RT核心內部有兩個特定的單元 - 一個進行所有邊界框計算,第二個進行了三角形交叉測試,即在一個對像上,所討論的射線對其進行了打擊。

示例是GTX 1080 TI可以準確跟踪約10億射線的光線,而價格的RTX 2080可以處理80億射線。 NVIDIA的速記是每秒Giga射線,RTX 2080 TI可以管理超過100億射線,或每秒10吉加射線。

除Turing GPU本身內的新硬件外,NVIDIA還創建了一套新的渲染技術,可用於增強遊戲世界的視覺效果和/或改善遊戲引擎的性能。首先是將網格陰影引入到圖形管道中,該功能降低了CPU瓶頸,用於處理場景中的不同對象,並允許遊戲世界在沒有罐頭性能的情況下具有更多的對象,因為它不再需要唯一的繪圖呼叫來自每個處理器的每個人。

可變速率陰影(VRS)是一種潛在的功能強大的工具,可以通過允許圖靈GPU將屏幕劃分為16像素區域,從而減少游戲場景中所需的陰影量陰影率。 VRS為開發人員提供了七個不同的陰影速率,從所有像素完全陰影的位置到GPU只需要在一個區域中256個像素中的16個陰影。

然後將VRS分為三種不同的用法案例:內容自適應陰影,運動自適應陰影和foveated渲染。最後一個是專門針對的,旨在通過僅允許詳細介紹觀看者眼睛的主要重點,並詳細地呈現觀眾的眼睛的主要重點,而周圍的詳細信息則較低。通過在VR中進行眼睛跟踪,該方法將大大減少系統上放置的應變量,以渲染高分辨率VR場景。

內容自適應陰影是當前幀末端添加的後處理步驟,它使GPU可以理解該框架不同區域中的細節量,並在後續幀中相應地調整陰影率。例如,如果一個區域沒有很多細節,例如,平坦的牆壁可以降低陰影率,但是如果它很高,則可以將其完整渲染。

運動自適應陰影可以與內容自適應陰影結合使用,並以陰影術語浪費的想法來渲染該區域,這些區域正在迅速詳細移動,因為無論如何眼睛都無法專注於它們。一個很好的例子是一個很好的例子,在這裡,地形拉鍊過去不必全部渲染,因為它幾乎沒有被眼睛注意到,而屏幕的中間(視圖的焦點)需要完整地呈現。

圖靈中還有其他新功能,例如VR的聲學模擬和多視圖渲染,以及通過重複以前完成的特定紋理渲染計算來改善渲染時間的紋理空間。

簡而言之,Turing GPU架構中有很多新的東西,最終可能會使今年發布的GPU在明年的表現更好。

Nvidia圖靈的價格

是的,如果您想要Turing性能的絕對巔峰,那麼您想獲得Quadro RTX 8000卡,其中包含全脂Tu102 GPU和48GB的GDDR6內存。當然,您正在尋找10,000美元左右的街頭價格,並且具有24GB內存的同一GPU,即Quadro RTX 6000,超過6,000美元。

這一切都使Nvidia $ 1,199(1,099英鎊)要求創始人的版本GeForce RTX 2080 TI看起來很合理。好吧,幾乎。最終可能會出售RTX 2080 TI的參考版本,價格為999美元,但直到供應上升並在發布後需求下降之前,這種情況不會發生。

RTX 2080的價格更便宜一些,創始人版本為799美元(749英鎊),而參考鎖定卡的基本MSRP為699美元。

NVIDIA Turing性能

現在,我們已經在傳統遊戲中基準了第一個圖靈GPU,並且在前所未有的泰坦風格的RTX 2080 TI之間的性能各不相同,並且更加熟悉。是的,RTX 2080 TI可能會表現出色,但是RTX 2080僅管理GTX 1080 TI的平均每秒幾個額外的幀。這是一張較舊,便宜的卡。

但是,正是射線追踪性能將非常有趣。對於任何當前一代的圖形卡,射線追踪都是令人難以置信的苛刻工作量。這種渲染技術可追溯光的路徑與虛擬對象相互作用,以捕獲完成場景中更多的細節和現實主義。射線追踪捕獲陰影,反射,折射和全球照明要比當前的渲染技術要好得多,這通常需要解決方法以實現相同的結果,而計算需求較少。

單個NVIDIA RTX 2080或2080 TI可以運行虛幻引擎4反射演示實時實時,這真是令人難以置信的《星球大戰》雷追踪演示以前需要NVIDIA的DGX站之一,由四個Tesla V100 GPU供電。那是價值70,000美元的Volta Tech - Turing RTX芯片將所有射線追踪性能蒸發到一個GPU中。

但是,這並不是完整的辣醬玉米餅,演示比完整的事情降低了一點,但是如果有些嘈雜,則看起來仍然令人驚嘆。它的射線可能更少,並且更加依賴基於DLSS的Denoisising。

UL將在今年年底之前進行新的3DMark射線追踪演示,並且我們在測試台上進行了早期演示。儘管這並不是要代表最終性能,但RTX 2080 TI以1080p的速度約為45fps。看,告訴你雷追踪是密集的……