NVIDIA Tesla P100 способен ускорить высокоскоростные вычисления и приложения глубокого обучения

NVIDIA анонсировала передовой ускоритель для сверхмасштабируемых дата-центров NVIDIA Tesla P100 в рамках конференции GTC. Tesla P100 позволяет создавать новый класс серверов с производительностью на уровне нескольких сотен классических CPU-серверов. Ускоритель основан на новой архитектуре NVIDIA Pascal с пятью передовыми технологиями и обеспечивает высокую производительность и экономичность для особо ресурсоёмких приложений.

Графический ускоритель Tesla P100 способен значительно повысить производительность в ряде приложений высокопроизводительных вычислений и глубокого обучения, в числе которых приложение молекулярной динамики AMBER, работающее на одном серверном узле с графическими процессорами Tesla P100 быстрее, чем на 48 двухсокетных узлах.

«Для решения самых актуальных научно-технических задач — поиска лекарства от рака, выявления причин изменения климата, создания умных машин — требуется колоссальная вычислительная мощь, — говорит Дженсен Хуанг, генеральный директор и соучредитель NVIDIA. — Архитектура Pascal была изначально создана, чтобы стать воплощением инноваций на каждом уровне. Это большой шаг вперёд в скорости и эффективности вычислений, который поможет ярким талантам совершить новые прорывы».

Обучение глубокой нейронной сети AlexNet, к примеру, требует 250 двухсокетных серверных узлов для достижения производительности восьми GPU Tesla P100. Популярное же приложение прогнозирования погоды COSMO работает быстрее на восьми GPU Tesla P100, чем на 27 двухсокетных серверах.

«Искусственный интеллект и познание требуют абсолютно нового подхода и нового уровня вычислений, — отмечает доктор Джон Келли III, старший вице-президент Cognitive Solutions и IBM Research. — Графические процессоры NVIDIA совместно с технологией OpenPOWER уже ускоряют обучение Watson новым умениям. Связка из архитектуры Power от IBM и архитектуры Pascal от NVIDIA с интерфейсом NVLink вместе еще больше ускорит изучение процессов познания, ускорив развитие искусственного интеллекта».

Как уже говорилось выше, NVIDIA Tesla P100 обеспечивает высокую производительность, масштабируемость и эффективность программирования благодаря использованию пяти прогрессивных технологий:

  • архитектура NVIDIA Pascal для экспоненциального роста производительности;
  • высокоскоростной интерфейс NVIDIA NVLink для максимальной масштабируемости приложений;
  • 15,3 миллиарда транзисторов на базе процесса 16 нм FinFET для высокой энергоэффективности;
  • CoWoS с HBM2 для больших нагрузок (повышение пропускной способности памяти до 720 ГБ/с);
  • новые алгоритмы искусственного интеллекта для пиковой производительности свыше 21 терафлопса.

NVIDIA Tesla P100 станет первым ускорителем со скоростью вычислений двойной и одинарной точности в 5 и 10 терафлопс соответственно. По заверениям производителя, это станет огромным шагом вперёд в скорости обработки данных и ускорении открытий в широком спектре областей.

Технические характеристики NVIDIA Tesla P100:

  • скорость вычислений двойной точности — 5,3 терафлопс, одинарной точности — 10,6 терафлопс и половинной точности — 21,2 терафлопс с технологией NVIDIA GPU BOOST;
  • двунаправленный интерфейс NVIDIA NVLimk со скоростью 160 ГБ/с;
  • 16 ГБ памяти CoWoS HBM2;
  • полоса пропускания 720 ГБ/с CoWoS HBM2;
  • улучшенная программируемость с движком перехода по страницам и унифицированной памятью;
  • защита ECC для повышенной надёжности;
  • оптимизация под сервер для высокой пропускной способности и надёжности дата-центра.

Кроме того, в ходе конференции NVIDIA анонсировала ряд обновлений в платформе разработки для GPU-вычислений NVIDIA SDK. В число обновлений входит новая версия платформы параллельных вычислений NVIDIA CUDA 8, библиотека анализа графов nvGRAPH для расчёта траекторий, информационной безопасности и анализа логистики, что включает в сферу применения GPU-ускоренных вычислений аналитику Big Data.

NVIDIA также рассказала о GPU-ускоряемой библиотеке примитивов cuDNN версии 5 для сетей глубокого обучения. Библиотека cuDNN ускоряет работу ведущих фреймворков глубокого обучения, в числе которых TensorFlow от Google, Caffe от университета Беркли, Theano от Университета Монреаля и Torch от Нью-Йоркского Университета, которые, в свою очередь, созданы на основе решений от Amazon, Facebook, Google и других компаний.

Графические ускорители на базе Pascal появятся в составе новой системы глубокого обучения NVIDIA DGX-1 в июне. Ожидается, что новый процессор также дебютирует в составе серверов от ведущих производителей к началу 2017 года.

Nvidia Tesla

У этого термина существуют и другие значения, см. Тесла. Nvidia Tesla C870

Tesla — название семейства вычислительных систем NVIDIA на основе графических процессоров с архитектурой CUDA, которые могут быть использованы для научных и технических вычислений общего назначения. Tesla не может полностью заменить обычный универсальный процессор, но позволяет использовать вычислительный ресурс множества своих ядер для решения определенного круга ресурсоёмких задач (вести параллельную обработку данных). Примерами таких задач могут служить симуляция свёртывания молекул белка, секвенирование ДНК, моделирование погоды, анализ финансового риска и т. п.

Системы Tesla впервые появились на рынке с выходом графического чипа NVIDIA восьмого поколения — G80. Tesla строится на базе обычных графических процессоров, но, в отличие от видеоускорителей, не имеет средств вывода изображения на дисплей. Являясь своего рода сопроцессором, Tesla может использоваться для создания вычислительных систем на базе персональных компьютеров, а также в составе серверов и вычислительных кластеров.

Предлагая свой продукт для рынка высокопроизводительных кластеров, NVIDIA заявляет, что преимуществом гетерогенных вычислительных систем с Tesla является большая энергоэффективность и меньшая стоимость (как недостаток можно рассматривать меньшую универсальность).

Спецификации и конфигурации

Существующие модели Tesla:

  • Tesla C870 — карта для рабочих станции (1 GPU);
  • Tesla D870 — приставной суперкомпьютер (2 GPU);
  • Tesla S870 — сервер (4 GPU).

Также имеются модели с поддержкой операций над 64-битными числами с плавающей точкой:

  • Tesla C1060 — карта для рабочих станции (1 GPU);
  • Tesla S1070 — сервер (4 GPU);
  • Tesla C2050 — карта для рабочих станции (1 GPU);
  • Tesla C2070 — карта для рабочих станции (1 GPU);
  • Tesla S2050 — сервер (4 GPU).

На базе архитектуры Kepler предлагаются модели:

  • Tesla K80;
  • Tesla K40;
  • Tesla K20x;
  • Tesla K20;
  • Tesla K10.
Описание Модель Количество GPU Частота ядра, МГц Шейдерные процессоры Память Теоретическая производительность, гигафлопс Вычислительная совместимость (возможность) TDP, Вт Примечания/формфактор
Количество Частота, МГц Пропускная способность, ГБ/с Стандарт видеопамяти Шина видеопамяти, бит Объём видеопамяти, МБ Частота (эффективная), МГц Одинарная точность, всего (MUL+ADD+SF) Одинарная точность, MAD (MUL+ADD) Двойная точность, FMA
Вычислительный модуль на основе GPU C870 1 600 128 1350 76,8 GDDR3 384 1536 1600 518,4 345,6 0 1,0 170,9 АТХ видеокарта
Приставной суперкомпьютер D870 2 600 2×128 (256) 1350 153,6 GDDR3 384 3072 1600 1036,8 691,2 0 1,0 Приставная система или в стойку
Вычислительный модуль на основе GPU S870 4 600 4×128 (512) 1350 307,2 GDDR3 384 6144 1600 2073,6 1382,4 0 1,0 1U Rack
2-е поколение Tesla-процессоров C1060 1 602 240 1300 102,4 GDDR3 512 4096 1600 933,12 622,08 77,76 1,3 187,8 ATX видеокарта
IEEE 754-2008 FMA
2-е поколение
Вычислительный модуль на основе GPU
S1070 4 602 4×240 (960) 1440 409,6 GDDR3 512 16384 1600 4147,2 2764,8 345,6 1,3 Одноюнитовая стойка
IEEE 754—2008 FMA
3-е поколение
Tesla-процессор
C2050 1 575 448 1150 144 GDDR5 384 3072 3000 1288 1030,4 515,2 2,0 238 Полноразмерная видеокарта
IEEE 754—2008 FMA
3-е поколение
Tesla-процессор
C2070 1 575 448 1150 144 GDDR5 384 6144 3000 1288 1030,4 515,2 2,0 247 Полноразмерная видеокарта
IEEE 754—2008 FMA
M2050
Вычислительный модуль на основе GPU
M2050 1 575 448 1150 148,4 GDDR5 384 3072 3092 1288 1030,4 515,2 2,0 225 Вычислительный модуль
IEEE 754—2008 FMA
M2070/M2070Q
Вычислительный модуль на основе GPU
M2070/M2070Q 1 575 448 1150 150,336 GDDR5 384 6144 3132 1288 1030,4 515,2 2,0 225 Вычислительный модуль
IEEE 754—2008 FMA
S2050 1U
Вычислительная система на основе GPU
S2050 4 575 4×448 (1792) 1150 4×148,4 (593,6) GDDR5 384 12288 3092 5152 4121,6 2060,8 2,0 900 1U Rack
IEEE 754—2008 FMA

> См. также

  • CUDA
  • AMD FireStream
  • Folding@Home

Примечания

  1. NVIDIA Product Overview and Technical Brief
  2. http://www.nvidia.com/content/PDF/kepler/Tesla-KSeries-Overview-LR.pdf
  3. Nvidia Announces Tesla 20 Series Архивировано 18 февраля 2012 года.
  4. Какие оборудование и программное обеспечение требуются для PhysX?
  5. 1 2 3 Нет официальных данных; предполагается, что основаны на GeForce 8800 GTX.
  6. Нет официальных данных; предполагается, что основаны на GeForce GTX 280.
  7. Difference between Tesla S1070 and S1075
  8. 1 2 Нет официальных данных; предполагается, что основаны на GeForce 400 Series.
  9. 1 2 С активированным ECC доступная для пользователя память составит 2,625 ГБ на GPU для C2050, S2050 и 5,25 ГБ на GPU для C2070.
  10. 1 2 3 4 5 6 7 8 GF100 выполняет новую соединенную инструкцию умножения-сложения FMA(D) (Fused Multiply-Add) для обоих 32-битных чисел одинарной точности с плавающей запятой и 64-битных чисел двойной точности с плавающей запятой (GT200 поддерживает инструкцию FMA только для чисел двойной точности). Разница между инструкциями FMA(D) и MAD (Multiply-Add) при выполнении операции вида A×B+C заключается в том, что FMA(D) не округляет результат произведения перед суммированием, что даёт более точный результат.
  11. NVidia Tesla M2050 & M2070/M2070Q Specs Online

Рубрики: IT

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *