Câu hỏi thường gặp về Amazon EC2 – Amazon Web Services

Câu hỏi: Phiên bản điện toán tăng tốc là gì?

Điện toán tăng tốc là dòng phiên bản sử dụng các bộ tăng tốc phần cứng, hay còn được gọi là bộ đồng xử lý, để thực hiện một số chức năng như tính toán số điểm trôi nổi và xử lý đồ họa, hiệu quả hơn khả năng trong phần mềm chạy trên nhiều CPU. Amazon EC2 cung cấp ba loại phiên bản Điện toán tăng tốc – phiên bản điện toán GPU cho tác vụ điện toán thông dụng phiên bản đồ họa GPU cho ứng dụng nặng về đồ họa và phiên bản điện toán phần cứng có thể lập trình FPGA dành cho các khối lượng công việc khoa học nâng cao.

Câu hỏi: Khi nào thì tôi nên sử dụng phiên bản Đồ họa GPU và phiên bản Điện toán?

Phiên bản GPU phát huy hiệu quả cao nhất với các ứng dụng có cơ cấu song song quy mô lớn như các khối lượng công việc sử dụng hàng nghìn luồng. Các yêu cầu điện toán quy mô lớn, ví dụ như xử lý đồ họa, là các yêu cầu mà trong đó, từng tác vụ khá nhỏ, bộ hoạt động được thực hiện hình thành đường ống và thông lượng của quy trình này quan trọng hơn độ trễ của từng hoạt động độc lập. Để có thể dựng các ứng dụng khai thác mức song song này, người dùng cần có kiến thức cụ thể về thiết bị GPU bằng cách nắm bắt cách lập trình theo nhiều API khác nhau (DirectX, OpenGL) hoặc mô hình lập trình điện toán GPU (CUDA, OpenCL).

Câu hỏi: P4d có thể mang lại lợi ích cho những ứng dụng nào?

Chúng tôi khuyến khích khách hàng sử dụng P4d cho một số ứng dụng xử lý các khối lượng công việc về máy học (ML) như tìm hiểu ngôn ngữ tự nhiên, đào tạo mô hình nhận thức cho xe tự hành, phân loại hình ảnh, phát hiện đối tượng và công cụ đề xuất. Hiệu suất GPU cao hơn có thể giảm đáng kể thời gian đào tạo và bộ nhớ GPU bổ sung sẽ giúp khách hàng đào tạo các mô hình lớn hơn, phức tạp hơn. Khách hàng HPC có thể tận dụng hiệu suất xử lý cao hơn và bộ nhớ GPU của P4 để phân tích địa chấn, tìm kiếm hoạt chất tiềm năng, giải trình tự DNA và lập mô hình rủi ro bảo hiểm.

Câu hỏi: Phiên bản P4d vượt trội hơn phiên bản P3 như thế nào?

Phiên bản P4 có GPU A100 Tensor Core thế hệ mới nhất của NVIDIA để cung cấp hiệu suất TFLOP cao hơn lõi V100 thế hệ cũ trung bình 2,5 lần, đồng thời có bộ nhớ GPU nhiều hơn 2,5 lần. Phiên bản P4 sử dụng CPU Cascade Lake của Intel có 24 lõi trên mỗi ổ cắm và một tập lệnh bổ sung cho các lệnh mạng nơ-ron vectơ. Phiên bản P4 sẽ có tổng bộ nhớ hệ thống nhiều hơn gấp 1,5 lần và thông lượng mạng cao gấp 4 lần phiên bản P3dn hoặc 16 lần phiên bản P3.16xl. Một điểm khác biệt quan trọng nữa là thông lượng liên kết nối GPU NVSwitch sẽ tăng gấp đôi so với phiên bản P3 để mỗi GPU có thể giao tiếp với mọi GPU khác ở cùng thông lượng 2 chiều 600 GB/giây với độ trễ mạng đơn hop. Điều này cho phép bạn coi nhiều GPU và bộ nhớ như là một GPU lớn duy nhất và một nhóm bộ nhớ thống nhất trong quá trình phát triển ứng dụng. Phiên bản P4d cũng được triển khai trong các cụm siêu mở rộng được kết hợp chặt chẽ với nhau, gọi là Siêu cụm EC2, cho phép bạn chạy các ứng dụng HPC và đào tạo máy học đa nút phức tạp nhất.

Câu hỏi: Siêu cụm EC2 là gì và làm thế nào để có quyền truy cập?

Phiên bản P4d được triển khai trong các cụm siêu mở rộng gọi là Siêu cụm EC2. Mỗi Siêu cụm EC2 bao gồm hơn 4.000 GPU NVIDIA A100 Tensor Core, khả năng kết nối mạng ở cấp Petabit và bộ nhớ có độ trễ thấp có thể mở rộng với FSx for Lustre. Mỗi Siêu cụm EC2 là một trong những siêu máy tính hàng đầu thế giới. Bất kỳ ai cũng có thể dễ dàng nâng cấp lên phiên bản P4d trong Siêu cụm EC2. Để được trợ giúp thêm, hãy liên hệ với chúng tôi.

Câu hỏi: Các AMI mà tôi dùng trên P3 và P3dn có hoạt động trên P4 không?

Để sử dụng AMI trên P4, bạn sẽ cần cài đặt trình điều khiển NVIDIA mới cho các GPU A100 và phiên bản mới của trình điều khiển ENA. Phiên bản P4 do Hệ thống Nitro cung cấp và bạn cần cài đặt trình điều khiển NVMe cũng như ENA cho AMI. P4 cũng đi kèm với các CPU Cascade Lake mới của Intel bao gồm một tập lệnh cập nhật. Do đó, bạn nên dùng các bản phân phối mới nhất của khung máy học để tận dụng các tập lệnh mới này cho quy trình tiền xử lý dữ liệu.

Câu hỏi: Phiên bản P3 khác với phiên bản G3 như thế nào?

Phiên bản P3 là phiên bản điện toán GPU thông dụng EC2 thế hệ mới, được trang bị lên đến 8 GPU NVIDIA Tesla V100 thế hệ mới nhất. Các phiên bản này cải thiện đáng kể hiệu năng và khả năng thay đổi quy mô và bổ sung nhiều tính năng mới, trong đó có cấu trúc đa bộ xử lý đa luồng Streaming Multiprocessor (SM) để tối ưu hóa hiệu năng machine learning (ML)/deep learning (DL), kết nối GPU tốc độ cao NVIDIA NVLink thế hệ thứ hai và bộ nhớ HBM2 có độ tinh chỉnh cao để tăng hiệu quả.

Phiên bản G3 sử dụng các GPU NVIDIA Tesla M60 và đem đến nền tảng hiệu năng cao cho các ứng dụng đồ họa sử dụng DirectX hoặc OpenGL. Các GPU NVIDIA Tesla M60 hỗ trợ các tính năng NVIDIA GRID Virtual Workstation và mã hóa phần cứng H.265 (HEVC). Từng GPU M60 trong các phiên bản G3 đều hỗ trợ 4 màn hình có độ phân giải lên đến 4096×2160 và được cấp phép sử dụng NVIDIA GRID Virtual Workstation cho một Người dùng kết nối đồng thời. Các phiên bản G3 có nhiều ứng dụng, ví dụ như các tác vụ trực quan hóa 3D, trạm làm việc từ xa yêu cầu cao về đồ họa, kết xuất 3D, phát trực tuyến ứng dụng, mã hóa video và các khối lượng công việc đồ họa phía máy chủ khác.

Câu hỏi: Đâu là lợi ích của các GPU NVIDIA Volta GV100?

Bộ tăng tốc NVIDIA Tesla V100 được trang bị GPU Volta GV100 mạnh mẽ mới. GV100 không chỉ được chế tạo dựng trên các tiến bộ của mẫu trước đó, Pascal GP100 GPU, mà còn cải thiện đáng kể hiệu năng và khả năng thay đổi quy mô, đồng thời bổ sung nhiều tính năng mới giúp tăng cường khả năng lập trình. Các tiến bộ này sẽ cải thiện mạnh mẽ HPC, trung tâm dữ liệu, siêu máy tính, các hệ thống và ứng dụng deep learning.

Câu hỏi: Ai sẽ được lợi từ các phiên bản P3?

Các phiên bản P3 với hiệu năng điện toán cao của mình đem đến lợi ích cho người dùng trong các ứng dụng trí thông minh nhân tạo (AI), máy học (ML), deep learning (DL) và điện toán hiệu năng cao (HPC). Người dùng bao gồm nhà khoa học dữ liệu, kiến trúc sư dữ liệu, chuyên viên phân tích dữ liệu, nhà nghiên cứu khoa học, kỹ sư ML, quản lý CNTT và nhà phát triển phần mềm. Các ngành chủ chốt, có thể kể đến như vận chuyển, năng lượng/dầu khí, dịch vụ tài chính (ngân hàng, bảo hiểm), chăm sóc sức khỏe, dược phẩm, khoa học, CNTT, bán lẻ, sản xuất, công nghệ cao, vận chuyển, chính phủ và học thuật.

Câu hỏi: Đâu là các trường hợp sử dụng chính đối với Phiên bản P3?

Các phiên bản P3 sử dụng GPU để tăng tốc vô số hệ thống và ứng dụng deep learning, trong đó có thể kể đến một số như nền tảng phương tiện tự lái, các hệ thống nhận diện giọng nói, hình ảnh và văn bản, phân tích video thông minh, mô phỏng phân tử, phát hiện thuốc, phân tích bệnh, dự báo thời tiết, phân tích dữ liệu lớn, lập mô hình tài chính, robot, tự động hóa công nghiệp, dịch thuật ngôn ngữ thời gian thực, tối ưu hóa tìm kiếm trực tuyến và đề xuất cá nhân hóa dành cho người dùng.

Câu hỏi: Vì sao khách hàng nên sử dụng các phiên bản Amazon P3 được trang bị GPU cho AI/ML và HPC?

Các phiên bản điện toán trên nền tảng GPU đem lại thông lượng là hiệu năng cao hơn do các phiên bản này được thiết kế dành cho tác vụ xử lý song song quy mô lớn sử dụng hàng nghìn lõi chuyên dụng mỗi GPU, so với các GPU có khả năng xử lý trình tự với chỉ một ít lõi. Ngoài ra, các nhà phát triển đã xây dựng hàng trăm ứng dụng HPC khoa học được tối ưu hóa cho GPU như hóa học lượng tử, động năng phân tử, khí tượng học và nhiều ngành khác. Nghiên cứu cho thấy trên 70% các ứng dụng HPC phổ biến nhất có hỗ trợ tích hợp cho GPU.

Câu hỏi: Các phiên bản P3 sẽ hỗ trợ mạng EC2 Classic và Amazon VPC chứ?

Phiên bản P3 sẽ chỉ hỗ trợ VPC.

Câu hỏi: Các phiên bản G3 khác với các phiên bản P2 như thế nào?

Phiên bản G3 sử dụng các GPU NVIDIA Tesla M60 và đem đến nền tảng hiệu năng cao cho các ứng dụng đồ họa sử dụng DirectX hoặc OpenGL. Các GPU NVIDIA Tesla M60 hỗ trợ các tính năng NVIDIA GRID Virtual Workstation và mã hóa phần cứng H.265 (HEVC). Từng GPU M60 trong các phiên bản G3 đều hỗ trợ 4 màn hình có độ phân giải lên đến 4096×2160 và được cấp phép sử dụng NVIDIA GRID Virtual Workstation cho một Người dùng kết nối đồng thời. Các phiên bản G3 có nhiều ứng dụng, ví dụ như các tác vụ trực quan hóa 3D, trạm làm việc từ xa yêu cầu cao về đồ họa, kết xuất 3D, phát trực tuyến ứng dụng, mã hóa video và các khối lượng công việc đồ họa phía máy chủ khác.

Phiên bản P2 sử dụng các GPU NVIDIA Tesla K80 và được thiết kế cho tác vụ điện toán GPU thông dụng sử dụng các mô hình lập trình CUDA hoặc OpenCL. Phiên bản P2 đem đến cho khách hàng băng thông mạng cao ở mức 25 Gbps, khả năng điểm trôi nổi độ chính xác đơn và độ chính xác kép và bộ nhớ mã sửa lỗi (ECC) khiến các phiên bản này trở thành lựa chọn lý tưởng cho deep learning, cơ sở dữ liệu hiệu năng cao, động lực học chất lưu sử dụng máy điện toán, tài chính sử dụng máy điện toán, phân tích phân tích địa chấn, lập mô hình phân tử, gen học, kết xuất và các khối lượng công việc điện toán GPU phía máy chủ khác.

Câu hỏi: Các phiên bản P3 khác với các phiên bản P2 như thế nào?

Phiên bản P3 là phiên bản điện toán GPU thông dụng EC2 thế hệ mới, được trang bị lên đến 8 GPU NVIDIA Volta GV100 thế hệ mới nhất. Các phiên bản này cải thiện đáng kể hiệu năng và khả năng thay đổi quy mô và bổ sung nhiều tính năng mới, trong đó có cấu trúc đa bộ xử lý đa luồng Streaming Multiprocessor (SM), được tối ưu hóa cho hiệu năng machine learning (ML)/deep learning (DL), kết nối GPU tốc độ cao NVIDIA NVLink thế hệ thứ hai và bộ nhớ HBM2 có độ tinh chỉnh cao để tăng hiệu quả.

Phiên bản P2 sử dụng các GPU NVIDIA Tesla K80 và được thiết kế cho tác vụ điện toán GPU thông dụng sử dụng các mô hình lập trình CUDA hoặc OpenCL. Phiên bản P2 đem đến cho khách hàng kết nối với băng thông cao ở mức 25 Gbps, khả năng xử lý dấu phẩy động với độ chính xác đơn và độ chính xác kép, cũng như bộ nhớ mã sửa lỗi (ECC).

Câu hỏi: Phiên bản Đồ họa và Điện toán GPU hỗ trợ API và mô hình lập trình nào?

Phiên bản P3 hỗ trợ CUDA 9 và OpenCL, phiên bản P2 hỗ trợ CUDA 8 và OpenCL 1.2 còn phiên bản G3 hỗ trợ DirectX 12, OpenGL 4.5, CUDA 8 và OpenCL 1.2.

Câu hỏi: Tôi có thể lấy trình điều khiển NVIDIA cho các phiên bản P3 và G3 ở đâu?

Có hai cách lấy trình điều khiển NVIDIA. Các cách này được liệt kê trên AWS Marketplace có cung cấp các AMI Amazon Linux và AMI Windows Server với trình điều khiển NVIDIA được cài đặt sẵn. Bạn cũng có thể khởi chạy các AMI HVM 64-bit và tự cài đặt trình điều khiển. Bạn phải truy cập trang web trình điều khiển của NVIDIA và tìm NVIDIA Tesla V100 cho phiên bản P3, NVIDIA Tesla K80 cho phiên bản P2 và NVIDIA Tesla M60 cho phiên bản G3.

Câu hỏi: Tôi có thể sử dụng phiên bản P3, P2 và G3 với AMI nào?

Hiện tại, bạn có thể sử dụng các AMI Windows Server, SUSE Enterprise Linux, Ubuntu và Amazon Linux trên các phiên bản P2 và G3. Phiên bản P3 chỉ hỗ trợ các AMI HVM. Nếu bạn muốn khởi chạy AMI có hệ điều hành không được liệt kê ở đây, hãy liên hệ bộ phận Hỗ trợ khách hàng của AWS hoặc liên hệ thông qua Diễn đàn EC2 để được hỗ trợ cho yêu cầu của bạn.

Câu hỏi: Việc sử dụng các phiên bản G2 và G3 có yêu cầu giấy phép bên thứ ba không?

Bên cạnh các trình điều khiển NVIDIA và SDK GRID, việc sử dụng các phiên bản G2 và G3 không nhất thiết yêu cầu bất kỳ giấy phép bên thứ ba nào. Tuy nhiên, bạn chịu trách nhiệm cho việc xác định xem nội dung của bạn hoặc công nghệ bạn sử dụng trên các phiên bản G2 và G3 có yêu cầu thêm giấy phép nào không. Ví dụ: nếu bạn đang phát trực tuyến nội dung, có thể bạn sẽ cần giấy phép cho một số hoặc toàn bộ nội dung đó. Nếu bạn đang sử công nghệ bên thứ ba như hệ điều hành, bộ mã hóa âm thanh và/hoặc video và bộ giải mã từ Microsoft, Thomson, Fraunhofer IIS, Sisvel S.p.A., MPEG-LA và Coding Technologies, vui lòng tham vấn các nhà cung cấp này để xác định xem có cần giấy phép hay không. Ví dụ: nếu bạn sử dụng bộ mã hóa video h.264 tích hợp trên GPU NVIDIA GRID, bạn phải liên hệ MPEG-LA để được hướng dẫn, còn nếu bạn sử dụng công nghệ mp3, bạn phải liên hệ Thomson để được hướng dẫn.

Câu hỏi: Vì sao tôi không có được các tính năng của NVIDIA GRID trên các phiên bản G3 bằng cách sử dụng trình điều khiển được tải xuống từ trang web của NVIDIA?

GPU NVIDIA Tesla M60 GPU được sử dụng trong các phiên bản G3 yêu cầu một loại trình điều khiển NVIDIA GRID đặc biệt để có thể kích hoạt toàn bộ các tính năng đồ họa nâng cao, cũng như khả năng hỗ trợ 4 màn hình có độ phân giải lên đến 4096×2160. Bạn cần sử dụng AMI có trình điều khiển NVIDIA GRID được cài đặt sẵn hoặc tải xuống và cài đặt trình điều khiển NVIDIA GRID theo tài liệu của AWS.

Câu hỏi: Vì sao tôi không thể thấy GPU khi sử dụng Microsoft Remote Desktop?

Khi sử dụng Remote Desktop, các GPU sử dụng mô hình trình điều khiển WDDM được thay thế bằng trình điều khiển hiển thị Remote Desktop không tăng tốc. Để truy cập vào phần cứng GPU, bạn cần sử dụng công cụ truy cập từ xa khác, ví dụ như VNC.

Câu hỏi: Amazon EC2 F1 là gì?

Amazon EC2 F1 là phiên bản điện toán với phần cứng có thể lập trình mà bạn có thể sử dụng để tăng tốc ứng dụng. Loại phiên bản F1 mới đem đến hiệu năng cao, khả năng truy cập FPGA dễ dàng để phát triển và triển khai tăng tốc phần cứng tùy chỉnh.

Câu hỏi: FPGA gì và vì sao tôi lại cần chúng?

FPGA là các mạch tích hợp có thể lập trình mà bạn có thể đặt cấu hình bằng cách sử dụng phần mềm. Bằng cách sử dụng FPGA, bạn có thể tăng tốc các ứng dụng của mình lên đến 30 lần so với các máy chủ chỉ sử dụng CPU. Bên cạnh đó, nhờ khả năng có thể lập trình FPGA, bạn sẽ có được sự linh hoạt để cập nhật và tối ưu hóa tăng tốc phần cứng mà không phải thiết kế lại phần cứng.

Câu hỏi: Hãy so sánh F1 với các giải pháp FPGA truyền thống?

F1 là phiên bản AWS với phần cứng có thể lập trình để tăng tốc ứng dụng. Với F1, bạn có khả năng truy cập phần cứng FPGA chỉ bằng cú nhấp chuột đơn giản, giảm thời gian và chi phí phát triển FPGA từ đầu đến cuối và giảm quy mô triển khai từ vài tháng hoặc vài năm xuống chỉ còn vài ngày. Dù công nghệ FPGA đã xuất hiện nhiều thập kỷ, việc đưa vào sử dụng khả năng tăng tốc ứng dụng đã không mấy thành công trong cả việc phát triển bộ tăng tốc lẫn mô hình kinh doanh bán phần cứng tùy chỉnh cho các doanh nghiệp truyền thống, do thời gian và chi phí trong cơ sở hạ tầng phát triển, thiết kế phần cứng và triển khai theo quy mô. Với giải pháp này, khách hàng sẽ tránh được gánh nặng vô hình gắn liền với việc phát triển FPGA trong các trung tâm dữ liệu tại chỗ.

Câu hỏi: Hình ảnh FPGA Amazon (AFI) là gì?

Thiết kế mà bạn tạo ra để lập trình FPGA của mình được gọi là Hình ảnh FPGA Amazon (AFI). AWS cung cấp dịch vụ đăng ký, quản lý, sao chép, truy vấn và xóa các AFI. Sau khi được tạo, AFI có thể được tải trên phiên bản F1 đang chạy. Bạn có thể tải nhiều AFI đến cùng phiên bản F1 và chuyển đổi giữa các AFI trong thời gian chạy mà không phải khởi động lại. Đặc điểm này giúp bạn nhanh chóng kiểm thử và chạy nhiều tác vụ tăng tốc phần cứng một cách tuần tự và nhanh chóng. Bạn cũng có thể cung cấp cho các khách hàng khác trên AWS Marketplace một sự kết hợp giữa khả năng tăng tốc FPGA của bạn với AMI bằng phần mềm tùy chỉnh hoặc trình điều khiển AFI.

Câu hỏi: Làm thế nào để liệt kê tăng tốc phần cứng của tôi trên AWS Marketplace?

Bạn sẽ cần phát triển AFI và trình điều khiển/công cụ phần mềm để sử dụng AFI này. Sau đó, bạn sẽ đóng gói các trình điều khiển/công cụ phần mềm này thành Amazon Machine Image (AMI) theo định dạng được mã hóa. AWS quản lý tất cả AFI theo định dạng được mã hóa bạn cung cấp để duy trì bảo mật mã của bạn. Để bán sản phẩm trên AWS Marketplace, bạn hoặc công ty của bạn phải đăng ký để trở thành bên bán lại trên AWS Marketplace, sau đó, hãy gửi ID AMI và (các) ID AFI sẽ được đóng gói trong một sản phẩm duy nhất. AWS Marketplace sẽ đảm nhiệm phần sao chép AMI và (các) AFI để tạo ra sản phẩm và gắn mã sản phẩm cho các thành phần lạ này, để mọi người dùng cuối đăng ký mã sản phẩm này sẽ được quyền truy cập vào AMI và (các) AFI đó.

Câu hỏi: Có gì được cung cấp cùng với phiên bản F1?

Đối với các nhà phát triển, AWS đang cung cấp Bộ công cụ phát triển phần cứng (HDK) để giúp tăng tốc chu trình phát triển, AMI dành cho Nhà phát triển FPGA để phát triển trên đám mây, SDK dành cho các AMI chạy trên phiên bản F1 và bộ API để đăng ký, quản lý, sao chép, truy vấn và xóa AFI. Cả nhà phát triển lẫn khách hàng đều có quyền truy cập vào AWS Marketplace, nơi AFI được liệt kê và mua bán để sử dụng trong các tác vụ tăng tốc ứng dụng.

Tôi có cần phải là chuyên gia FPGA để sử dụng phiên bản F1 không?

Khách hàng AWS đăng ký AMI tối ưu hóa cho F1 từ AWS Marketplace không cần phải biết bất kỳ điều gì về FPGA để có thể tận dụng các tác vụ tăng tốc được cung cấp bởi phiên bản F1 và AWS Marketplace. Chỉ cần đăng ký AMI tối ưu hóa cho F1 từ AWS Marketplace với tác vụ tăng tốc phù hợp với khối lượng công việc. AMI chứa tất cả phần mềm cần thiết để sử dụng tăng tốc FPGA. Khách hàng chỉ cần viết phần mềm theo từng API cụ thể cho trình tăng tốc đó và bắt đầu sử dụng trình tăng tốc đó.

Câu hỏi: Tôi là nhà phát triển FPGA, làm thế nào để tôi bắt đầu với các phiên bản F1?

Các nhà phát triển có thể bắt đầu làm việc trên phiên bản F1 bằng cách tạo tài khoản AWS và tải xuống Bộ công cụ phát triển phần cứng (HDK) của AWS. HDK gồm có tài liệu về F1, giao diện FPGA nội bộ và tập chỉ lệnh trình biên soạn để tạo AFI. Nhà phát triển có thể bắt đầu viết mã FPGA của mình theo giao diện trong tài liệu có trong HDK để tạo chức năng tăng tốc. Nhà phát triển có thể khởi chạy các phiên bản AWS với AMI nhà phát triển FPGA. AMI này chứa các công cụ phát triển cần để biên soạn và mô phỏng mã FPGA. AMI nhà phát triển chạy tốt nhất trên các phiên bản C5, M5 hoặc R4 mới nhất. Nhà phát triển phải có kinh nghiệm về các ngôn ngữ lập trình được sử dụng để tạo mã FPGA (tức là Verilog hay VHDL) và có hiểu biết về hoạt động vận hành họ muốn tăng tốc.

Câu hỏi: Tôi không phải là nhà phát triển FPGA, làm thế nào để tôi bắt đầu với các phiên bản F1?

Khách hàng có thể bắt đầu sử dụng phiên bản F1 bằng cách chọn trình tăng tốc từ AWS Marketplace, do các bên bán của AWS Marketplace cung cấp và khởi chạy phiên bản F1 với AMI đó. AMI bao gồm tất cả phần mềm và API cho bộ tăng tốc đó. AWS quản lý việc lập trình FPGA bằng AFI cho bộ tăng tốc đó. Khách hàng không cần có bất kỳ kinh nghiệm hoặc kiến thức nào về FPGA thì mới có thể sử dụng các bộ tăng tốc này. Họ có thể hoàn toàn chỉ làm việc ở cấp API phần mềm cho trình tăng tốc đó.

Câu hỏi: AWS có cung cấp bộ công cụ dành cho nhà phát triển không?

Có. Bộ công cụ phát triển phần cứng (HDK) gồm có các công cụ mô phỏng và mô hình mô phỏng dành cho nhà phát triển để thực hiện mô phỏng, sửa lỗi, dựng và đăng ký mã tăng tốc của họ. HDK bao gồm nhiều ví dụ về mã, tập chỉ lệnh biên soạn, giao diện sửa lỗi và nhiều công cụ khác bạn sẽ cần để phát triển mã FPGA cho các phiên bản F1 của bạn. Bạn có thể sử dụng HDK trong AMI do AWS cung cấp hoặc trong môi trường phát triển tại chỗ của bạn. Các mô hình và tập lệnh này được cung cấp công khai với tài khoản AWS.

Câu hỏi: Tôi có thể sử dụng HDK trong môi trường phát triển tại chỗ của mình được không?

Có. Bạn có thể sử dụng Bộ công cụ phát triển phần cứng HDK trong AMI do AWS cung cấp hoặc trong môi trường phát triển tại chỗ của mình.

Câu hỏi: Tôi có thể thêm FPGA vào bất kỳ loại phiên bản EC2 nào được không?

Không. Phiên bản F1 có ba kích thước phiên bản là: f1.2xlarge, f1.4xlarge và f1.16 xlarge.

Câu hỏi: Làm thế nào để sử dụng chip Inferentia trong phiên bản Inf1?

Bạn có thể bắt đầu quy trình hoạt động bằng cách xây dựng và đào tạo mô hình ở một trong các khung máy học phổ biến như TensorFlow, PyTorch hoặc MXNet bằng các phiên bản GPU như P4, P3 hoặc P3dn. Sau khi đào tạo mô hình đến độ chính xác mà bạn yêu cầu, bạn có thể dùng API của khung máy học đó để gọi Neuron (bộ công cụ phát triển phần mềm cho Inferentia) nhằm biên dịch mô hình đó để thực thi trên chip Inferentia, tải mô hình vào bộ nhớ của Inferentia, sau đó thực hiện các lệnh gọi suy luận. Để bắt đầu nhanh, bạn có thể sử dụng các AMI AWS Deep Learning đã được cài đặt sẵn với khung ML và SDK Neuron. Để có được trải nghiệm được quản lý toàn phần, bạn sẽ có thể sử dụng Amazon SageMaker cho phép bạn triển khai liền mạch các mô hình đã được huấn luyện của mình trên phiên bản Inf1.

Câu hỏi: Khi nào tôi nên dùng phiên bản Inf1 với C6i hoặc C5 với. G4 cho công việc suy luận?

Những khách hàng đang chạy mô hình máy học có yêu cầu cao về độ trễ và thông lượng suy luận có thể sử dụng phiên bản Inf1 để có khả năng suy luận hiệu năng cao với chi phí phải chăng. Đối với các mô hình ML có yêu cầu thấp hơn về độ trễ và thông lượng suy luận, khách hàng có thể sử dụng các phiên bản EC2 C6i hoặc C5 và tận dụng tập lệnh AVX-512/VNNI. Đối với các mô hình ML yêu cầu quyền truy cập vào thư viện CUDA, CuDNN hoặc TensorRT của NVIDIA, chúng tôi khuyên bạn nên dùng phiên bản G4.