NVIDIA Echelon — 25-кратный прирост производительности
Во время конференции Supercomputing 2010, проходящей в Новом Орлеане (штат Луизиана), главный технолог
Несмотря на то, что на данный момент чип существует лишь на бумаге, а дизайн проверяется лишь в ряде симуляций, Билл Делли, возглавляющий проект, отмечает, что решение сможет исполнять одну операцию с плавающей запятой, используя при этом лишь 10 пикоджоулей энергии вместо 200 пикоджоулей у современных профессиональных ускорителей на базе архитектуры Fermi.
Во время конференции господин Делли отметил, что архитектура процессора подразумевает, что каждый потоковый мультипроцессор (SM) будет состоять из 8 вычислительных ядер, а 128 блоков SM будут формировать собственно чип Echelon. В результате NVIDIA представит графический чип, имеющий 1024 ядра, каждое из которых при этом сможет исполнять 4 инструкции двойной точности с плавающей запятой за один такт. Для сравнения: современные ядра в Fermi в состоянии исполнят лишь одну такую инструкцию за такт.
При этом ускоритель также использует улучшенную архитектуру оперативной памяти, которая может динамически настраиваться для того, чтобы данные как можно быстрее достигали вычислительных элементов (объём 6-уровневой кеш-памяти достигает 256 Мб), что уменьшает необходимость передачи данных внутри чипа и снижает энергопотребление. Кстати, чип способен работать с 256 Гб графической памяти.
В результате пиковая производительность Echelon достигнет величины в 20 терафлопc, а стойка из 128 таких ускорителей обеспечит вычислительную мощность в 2,56 петафлопс при энергопотреблении 38 кВт. Для сравнения, вычислительные возможности Fermi GF110 с 512 потоковыми процессорами на частоте 1544 МГц выражаются лишь значением в 0,79 терафлопс при расчётах двойной точности с плавающей запятой. Учитывая, что разница 25-кратная, думается, Echelon выйдет после Maxwell (последний появится не ранее 2013 года).
Что касается программирования для данного чипа, Билл Делли отмечает, что в будущем модели программирования несколько изменятся. NVIDIA полагает, что это будет эволюция CUDA, хотя следующие версии OpenCL, OpenMP и Microsoft DirectCompute также не исключаются.
Меду прочим, чип разрабатывается для участия в программе «Повсеместные высокоскоростные вычисления (Ubiquitous High Performance Computing)», инициированной агентством передовых оборонных разработок Пентагона (DARPA), целью которой стало создание прототипа системы-стойки с производительностью 1 петафлопc и энергопотреблением 57 кВт.