Архитектура NVIDIA Kepler

Blame - както обикновено при разработването на нови технологични стандарти - ниските добиви на кристали, получени с използване на метод 28 нм, което е трудно да се осигури без значителни архитектурни подобрения и, като следствие, да се увеличи производителността на ват. Страда от това и основен конкурент NVIDIA, AMD фирма, която е трябвало да бъде реабилитиран след не много успешни дебют FX процесори за настолни системи. Въпреки това, за разлика от NVIDIA, конкурент от Сънивейл все още успява да се запише в историята като една компания, пусна първата графика продукт, използвайки 28-нм технология процес.

конкуренция с AMD

Скица на Radeon HD 7970 на AMD

NVIDIA GeForce GTX 580

NVIDIA за да предложи на пазара

Защо «Кеплер»?

NVIDIA прие стратегия да даде имената на великите учени и изобретатели на техните технологии и продукти. Например, професионални паралелни графични процесори, способни да замени клъстер, когато изчисленията големите капацитет са наименувани XX век гениално учен Никола Тесла. Мисля, че всеки е наясно с произхода на името на NVIDIA Fermi архитектура. Сама по себе си за публично дружество, чиито статут е NVIDIA, това е по-скоро като маркетинг и идеологически отговорност.

Между другото, и на бъдещата структура се разработва от NVIDIA и които, съгласно графика, представен от NVIDIA Corporation, прехвърлени към несигурно бъдеще, също ще носи името на учения - британския физик и математик Джеймс Кларк Максуел.

Устройство NVIDIA Кеплер GK104 чип

Според NVIDIA твърди, че Кеплер архитектура и решение GTX 680 - най-енергийно ефективни изпълнение от факта, че компанията е произвеждан някога, което, обаче, не е изненадващо.

Размерът на кристали е 294 mm 2. За сравнение, чип архитектура Водеща Ферми GF110 - 520 mm 2, докато AMD Radeon HD 7970- 365 мм2, което е приблизително 24% по-висока. Когато този кристал ще се побере 3.54 3,5 милиарда транзистори, получени чрез процес 28 пМ от TSMC, докато броят на тези на цели числа Radeon 4.31 млрд.

Кеплер GK104 чип е оборудван с интерфейс PCI Express 3.0, което теоретично осигурява двойно честотна лента в сравнение с втората версия. Той също така носи: поток управляващото устройство (GigaThread двигателя), кеша от второ ниво, както и 8 стрийминг Мултипроцесори SMX, които са комбинирани по двойки на блокове GPC (графична обработка клъстери). Всяка единица съдържа GPC растеризация. Като цяло, всеки GPC отчитане на 8 растерни конвейери (ROP) и една памет контролер.

Сравнете GPU NVIDIA: GT200 (Tesla), GF110 (Fermi) и GK104 (Kepler)

Интерфейсът на паметта за неизвестен, най-маркетинг, причините е намаляла от 384 бита до 256. Но в една и съща честота може да повиши с почти наполовина до 6 GHz, и за компенсиране на тази честотна лента в сравнение с GF110. Честотата на ядрото се увеличи с 30%, и максималното ниво на мощност е намалена до 195 W, т. е. 20%. Теоретична връх изпълнение на операции с плаваща запетая се увеличава почти два пъти - до 3090 GFLOPS (ние все още кажа няколко думи по-долу). Но може би най-значителното подобрение в новия чип - е да се увеличи броят на CUDA ядра 3 пъти! NVIDIA е бил критикуван за големия брой натрупали AMD по този показател.

SMX стрийминг многопроцесорни устройство

SMX стрийминг многопроцесорни

Сега по-отблизо стрийминг многопроцесорни на SMX. Първо, връхната е два пъти по-ефективен в сравнение с използвани в Ферми, обработка геометрия единица - полиморф на двигателя 2.0. Разбира се, настоящата инструкция кеш, кеш текстури унифицирани кеш и 64 KB кеш от първо ниво. Разписанието 4 (Warp Scheduler) и 8 контролни блокове (Dispatch Unit) взаимодействат чрез файла регистър с 192 CUDA ядра 32 блока за товарене / разтоварване на LD / ST данни 32 и ТОИ-сайтове, извършващи специфични математически функции. Брой на ТОИ в SMX увеличил 8 пъти в сравнение GF110 (Fermi)! Стрийминг многопроцесорни 16 включва също текстура блокове, което е два пъти броя дадени в Ферми.

Сравнение Fermi Кеплер и изчислителни единици

Като цяло, чип може да се каже, че размер SMX (в Таблица - «Полиморф») значително повишена в сравнение с Ферми, докато общият брой на потока Мултипроцесори наполовина. Основно поради количествено увеличаване на броя на единици за изпълнение, теоретичната производителност на чипа е увеличена до два пъти.

производителност GK104

За да учи актьорско GK104 чип, нека да разгледаме най-интересните резултати от проведени с колегите www.brightsideofnews.com сайт тестове.

CPU - Intel Core i7-3960X

Платки - Gigabyte GA-X79-UD7 (PCIe 3.0)

RAM - 16 GB четири канала Kingston HyperX 1600MHz

Подсистемата на диск - SSD Patriot Pyro 120GB и 600GB HDD Velociraptor

Захранващият блок - Thermaltake Toughpower XT Gold 1475 W

В 3DMark 11 еталон GTX 680 превъзхожда леко губят двойна GPU GTX 590 Fermi само Концерт и екстремни режими и до 20% по-висока от HD 7970, което позволява на последния подход само в режим Extreme.

Малко по-добри резултати в изчисленията на двойна точност GK104 показва, когато се работи с OpenCL.

Криптография - очевидно не една от силните страни на Кеплер.

Въпреки това, резултатите от OpenCL имат коренно различно: даване на хеширане, на GTX 680 е повече от 4 пъти по-висока от водещата криптиране на AMD.

AMD Radeon HD 7970 превъзхожда конкуренцията с 36% в единична точност оказване на и над 6 пъти в оказване с двойно.

Кеплер, по примера на GTX 680 е значително по-ниско в този компонент не само Fermi, но AMD решения по-нисък клас. Добре е да припомним, че професионалните графични ускорители на, най-вероятно, ще имат една и съща архитектура като GTX 680. Надяваме се, че специалистите на NVIDIA в магазин приятна изненада под формата, може би, на каквито и да било специални звена активирани в ускорители професионална серия.

Нови технологии и изглаждане на вертикална синхронизация

Не успяхме да се игнорира новите изглаждане на изображението алгоритми в архитектурата на NVIDIA Kepler. Изглаждане FXAA (F ast Приблизително Imate БОРБА-A осъществяване на връзки) 3, както се вижда в сравнение с MSAA 4, дава много по-реалистично качество на изображението, и също така работи при NVIDIA осигурена с 60% по-бързо от последната.

TXAA алгоритъм е от голям интерес от гледна точка на съотношението качество / производителност.

NVIDIA е позициониране като по-високо качество, отколкото всеки от алгоритмите MSAA и по-малко ресурс интензивно.