NVIDIA GPU

Tesla A100 Tensor Core GPU

Tesla A100 Tensor Core GPU
(Ampere Architecture, 40GB / 80GB HBM2)

  • Ampere Architecture, Ampere Architecture, 40GB / 80GB HBM2
  • FP16 : 312TFlops / FP32 : 19.5TFlops / FP64 : 9.7TFlops
  • Memory Bandwidth up to 1,555GB/s
  • SXM / PCIe(Passive)

HGX를 위한 NVIDIA A100

PCIe를 위한 NVIDIA A100
NVIDIA A100 datasheet 다운로드

NVIDIA A100 Tensor 코어 GPU는 AI, 데이터 분석 및 HPC(high-performance computing) 를 위한 모든 규모의 유례 없는 가속화를 제공하여 세계에서 가장 까다로운 컴퓨팅 문제를 처리합니다.

NVIDIA 데이터센터 플랫폼의 엔진에 해당하는 A100은 NVIDIA MIG(Multi-Instance GPU) 기술을 통해 수천 개 GPU로 효율적으로 확장하고 7개 GPU 인스턴스로 분할하여 모든 규모의 워크로드를 가속화합니다. 또한, 3세대 Tensor 코어는 다양한 워크로드를 위해 모든 정밀도를 가속화하여 인사이트 확보 시간과 시장 출시 시간을 단축합니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

A100은 완전한 NVIDIA 데이터센터 솔루션의 일부로 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC™ 의 최적화된 AI 모델과 애플리케이션에 걸쳐 빌딩 블록을 통합합니다.

연구자는 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

AI 트레이닝용 TF32를 통해 최대 6배 향상된 성능 제공

BERT 트레이닝
BERT pre-training throughput using Pytorch, including (2/3) Phase 1 and (1/3) Phase 2 | Phase 1 Seq Len = 128, Phase 2 Seq Len = 512; V100: NVIDIA DGX-1™ server with 8x V100 using FP32 precision; A100: DGX A100 Server with 8x A100 using TF32 precision. ​

딥 러닝 트레이닝

AI 모델은 정확한 기존 AI 및 딥 추천자 시스템과 같은 새로운 수준의 도전 과제를 수행함에 따라 복잡성이 폭발적으로 커지고 있습니다. 이러한 과제를 트레이닝하려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다.

Tensor Float(TF32) 정밀도를 갖춘 NVIDIA A100의 3세대 Tensor CoresTensor 코어는 코드를 변경할 필요 없이 이전 세대보다 최대 10배 높은 성능과 함께 자동 혼합 정밀도로 추가 2배의 향상을 제공합니다.

3세대 NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, Mellanox InfiniBand 및 NVIDIA Magnum IO™ 소프트웨어 SDK와 결합하면 수천 개의 A100 GPU로 확장이 가능합니다. 이는 BERT와 같은 대규모 AI 모델을 A100 xx개의 클러스터에서 단 xx분 안에 트레이닝하여 유례 없는 성능과 확장성을 제공할 수 있다는 뜻입니다.

NVIDIA의 트레이닝 리더십은 AI 트레이닝에 대한 최초의 범산업 벤치마크인 MLPerf 0.6에서 입증되었습니다.

AI 추론을 위한 MIG(Multi-Instance GPU)로 최대 7배 높은 성능 제공

BERT Large Inference
BERT Large Inference | NVIDIA T4 Tensor Core GPU: NVIDIA TensorRT™ (TRT) 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 7 MIG instances of 1g.5gb: pre-production TRT, batch size = 94, precision = INT8 with sparsity. ​

딥 러닝 인퍼런스

A100은 획기적인 신기능을 도입하여 추론 워크로드를 최적화합니다. FP32에서 FP16, INT8, INT4에 이르기까지 전 범위의 정밀도를 가속하여 유례없는 다용성을 제공합니다.

Multi-Instance GPU(MIG) 기술을 사용하면 여러 네트워크가 단일한 A100 GPU에서 동시에 운용되어 컴퓨팅 리소스를 최적으로 활용할 수 있습니다. 또한 구조적 희소성 지원은 A100의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.

NVIDIA는 추론에 대한 최초의 범산업 벤치마크인 MLPerf Inference 0.5를 전반적으로 휩쓴 데서 입증되었듯이 이미 시장 최고의 추론 성능을 제공합니다. A100은 10배의 추가 성능을 제공하여 리더십을 한층 더 확장합니다.

고성능 컴퓨팅

차세대 검색을 활용하기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인 새로운 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고 대비하기 위한 대기 데이터를 더 잘 이해하기 위해 시뮬레이션을 모색합니다.

A100은 배정밀도 Tensor 코어를 도입하여 HPC용 GPU에서 배정밀도 컴퓨팅을 도입한 후 최대 이정표를 제공합니다. 따라서 NVIDIA V100 Tensor 코어에서 실행하는 10시간 배정밀도 시뮬레이션을 A100에서 단 4시간으로 단축할 수 있습니다. HPC 애플리케이션도 A100의 Tensor 코어를 활용하여 단정밀도 매트릭스 곱셈 연산에 대해 최대 10배 높은 처리량을 달성할 수 있습니다.

4년 내 9배 더 높은 HPC 성능

최상위 HPC 어플리케이션들의 처리량
Geometric mean of application speedups vs. P100: benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.​ ​

4년 내 9배 더 높은 HPC 성능

고객은 대규모 데이터세트를 분석, 시각화하고 통찰력으로 전환할 수 있어야 합니다. 하지만 스케일아웃 솔루션은 이러한 데이터세트가 여러 서버에 흩어져 있기 때문에 교착 상태에 빠지는 경우가 너무 많습니다.

A100를 사용하는 가속화 서버는 1.6TB/s의 메모리 대역폭과 3세대 NVLink 및 NVSwitch를 통한 확장성과 함께 필요한 컴퓨팅 성능을 제공하여 이러한 대규모 워크로드를 처리합니다. Mellanox InfiniBand, Magnum IO SDK, GPU 가속 Spark 3.0 및 GPU 가속 데이터 분석을 위한 소프트웨어 제품군인 NVIDIA RAPIDS™ 와 결합된 NVIDIA 데이터센터 플랫폼은 전례없는 수준의 성능과 효율성으로 이러한 막대한 워크로드를 고유하게 가속할 수 있습니다.

MIG(Multi-Instance GPU)를 통한 7배 높은 추론 처리량

BERT Large Inference
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.​
MIG에 대해 자세히 알아보기 >>

SR-IOV가있는 PCIe Gen 4

A100 GPU는 PCI Express Gen 4 (PCIe Gen 4)를 지원하여 x16 연결에 대해 31.5GB / 초를 제공하는 대신 15.75GB / 초를 제공하여 PCIe 3.0 / 3.1의 대역폭을 두 배로 늘립니다. 더 빠른 속도는 PCIe 4.0 지원 CPU에 연결하는 A100 GPU에 특히 유용하며 200Gbit / sec InfiniBand와 같은 빠른 네트워크 인터페이스를 지원합니다.

A100은 또한 SR-IOV (단일 루트 입 / 출력 가상화)를 지원하므로 여러 프로세스 또는 VM에 대해 단일 PCIe 연결을 공유하고 가상화 할 수 있습니다.

A100 GPU 하드웨어 아키텍처

NVIDIA GA100 GPU는 여러 GPU 처리 클러스터 (GPC), 텍스처 처리 클러스터 (TPC), 스트리밍 멀티 프로세서 (SM) 및 HBM2 메모리 컨트롤러로 구성됩니다.

그림은 128 개의 SM이있는 전체 GA100 GPU를 보여줍니다.
A100은 GA100을 기반으로하며 108 개의 SM이 있습니다.

A100 GPU의 전체 구현에는 다음 장치가 포함됩니다.
  • 8 개의 GPC, 8 개의 TPC / GPC, 2 개의 SM / TPC, 16 개의 SM / GPC, 전체 GPU 당 128 개의 SM
  • 64 개의 FP32 CUDA 코어 / SM, 풀 GPU 당 8192 개의 FP32 CUDA 코어
  • 3 세대 텐서 코어 / SM 4 개, 풀 GPU 당 3 세대 텐서 코어 512 개 
  • HBM2 스택 6 개, 512 비트 메모리 컨트롤러 12 개 
A100 GPU 의 A100 Tensor Core GPU 구현 에는 다음 장치가 포함됩니다.
  • 7 개의 GPC, 7 개 또는 8 개의 TPC / GPC, 2 개의 SM / TPC, 최대 16 개의 SM / GPC, 108 개의 SM
  • 64 FP32 CUDA 코어 / SM, 6912 FP32 CUDA 코어 / GPU
  • 3 세대 텐서 코어 / SM 4 개, GPU 당 3 세대 텐서 코어 432 개 
  • 5 개의 HBM2 스택, 10 개의 512 비트 메모리 컨트롤러

NVIDIA TESLA A100 SPECIFICATION

HGX용 NVIDIA A100 PCIe용 NVIDIA A100
최고 FP64 9.7 TF 9.7 TF
최고 FP64 Tensor 코어 19.5 TF 19.5 TF
최고 FP32 19.5 TF 19.5 TF
최고 TF32 Tensor 코어 156 TF | 312 TF* 156 TF | 312 TF*
최고 BFLOAT16 Tensor 코어 312 TF | 624 TF* 312 TF | 624 TF*
최고 FP16 Tensor 코어 312 TF | 624 TF* 312 TF | 624 TF*
최고 INT8 Tensor 코어 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
최고 INT4 Tensor 코어 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
GPU 메모리 40 GB / 80GB 40 GB
GPU 메모리 대역폭 1,555 GB/s 1,555 GB/s
상호 연결 NVIDIA NVLink 600 GB/s** NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s PCIe Gen4 64 GB/s
Multi-instance GPUs 최대 7MIGs @5GB의 다양한 인스턴스 사이즈 최대 7MIGs @5GB의 다양한 인스턴스 사이즈
폼 팩터 NVIDIA HGX™ A100의 4/8 SXM PCIe
최대 TDP 전력 400W 250W
상위 애플리케이션을 위한 성능 제공 100% 90%