Câu hỏi thường gặp về Amazon Transcribe – Amazon Web Services (AWS)

Câu hỏi: Các nhà phát triển tiếp cận với Amazon Transcribe bằng cách nào?

Cách dễ nhất để bắt đầu là gửi một tác vụ bằng cách sử dụng bảng điều khiển để chép lời tệp âm thanh. Bạn cũng có thể trực tiếp gọi dịch vụ từ Giao diện dòng lệnh AWS hoặc dùng một trong các SDK được hỗ trợ mà bạn muốn để tích hợp với ứng dụng của mình. Cả hai cách này đều giúp bạn dùng Amazon Transcribe để tạo ra bản chép lời tự động cho tệp âm thanh chỉ với một vài dòng mã.

Câu hỏi: Amazon Transcribe có hỗ trợ chép lời theo thời gian thực không?

Có. Amazon Transcribe cho phép bạn mở luồng hai chiều qua HTTP2. Bạn có thể gửi luồng âm thanh đến dịch vụ trong khi nhận luồng văn bản về trong thời gian thực. Vui lòng tham khảo trang tài liệu để biết thêm chi tiết.

Câu hỏi: Tính năng chép lời trong thời gian thực hỗ trợ công nghệ mã hóa nào?

Các loại phương tiện được hỗ trợ khác nhau giữa bản chép lời hàng loạt và bản chép lời phát trực tiếp, mặc dù các định dạng không mất dữ liệu được khuyến nghị cho cả hai. Vui lòng tham khảo trang tài liệu để biết thêm chi tiết.

Câu hỏi: Amazon Transcribe hỗ trợ những ngôn ngữ nào?

Để biết thông tin về ngôn ngữ được hỗ trợ, vui lòng tham khảo trang tài liệu này.

Câu hỏi: Amazon Transcribe hoạt động với thiết bị nào?

Amazon Transcribe thường hoạt động với hầu hết các thiết bị. Nói chung, nó hoạt động với bất kỳ thiết bị nào có micrô trên thiết bị, chẳng hạn như điện thoại, máy tính, máy tính bảng và thiết bị IoT (chẳng hạn như hệ thống âm thanh ô tô). API Amazon Transcribe sẽ có thể phát hiện chất lượng của luồng âm thanh đang được nhập ở thiết bị (8 kHz so với 16 kHz) và sẽ chọn mô hình âm thanh phù hợp để chuyển lời nói thành văn bản. Ngoài ra, nhà phát triển có thể gọi API Amazon Transcribe thông qua ứng dụng của họ để truy cập vào tính năng chuyển lời nói thành văn bản.

Câu hỏi: Có giới hạn kích thước đối với nội dung âm thanh mà Amazon Transcribe có thể xử lý không?

Các lệnh gọi dịch vụ dùng trong Amazon Transcribe được giới hạn ở bốn giờ (hoặc 2 GB) mỗi lệnh gọi API đối với dịch vụ hàng loạt. Dịch vụ truyền có thể hỗ trợ các kết nối mở dài tới bốn giờ.

Câu hỏi: Amazon Transcribe hỗ trợ ngôn ngữ lập trình nào?

Dịch vụ hàng loạt của Amazon Transcribe hỗ trợ các ngôn ngữ .NET, Go, Java, JavaScript, PHP, Python và Ruby. Dịch vụ thời gian thực của Amazon Transcribe hỗ trợ các ngôn ngữ Java SDK, Ruby SDK và C++ SDK. SDK khác sẽ sớm được hỗ trợ. Để biết thêm chi tiết, vui lòng truy cập vào trang Tài nguyên và trang tài liệu.

Câu hỏi: Dịch vụ không nhận ra các từ trong bộ từ vựng tùy chỉnh của tôi. Tôi có thể làm gì?

Đầu ra của dịch vụ nhận dạng lời nói tùy thuộc vào một số yếu tố ngoài các mục nhập trong bộ từ vựng tùy chỉnh. Do đó, chúng tôi không thể đảm bảo dịch vụ này có thể nhận dạng chính xác một thuật ngữ trong bộ từ vựng tùy chỉnh. Tuy nhiên, lý do thường gặp nhất là vì từ tùy chỉnh đó có cách phát âm không chính xác. Nếu bạn chưa cung cấp cách phát âm cho từ tùy chỉnh, hãy thử tạo cách phát âm cho từ đó. Nếu đã cung cấp cách phát âm, hãy kiểm tra lại xem cách phát âm đó đã chính xác chưa hoặc bổ sung những cách phát âm khác, nếu cần. Bạn có thể thực hiện việc này bằng cách tạo nhiều mục nhập trong tệp từ vựng tùy chỉnh có trường phát âm khác nhau. Vui lòng tham khảo tài liệu từ vựng tùy chỉnh để biết thêm thông tin.

Câu hỏi: Vì sao tôi thấy quá nhiều từ tùy chỉnh trong đầu ra của mình?

Bộ từ vựng tùy chỉnh được tối ưu hóa cho một danh sách từ nhắm mục tiêu ở quy mô nhỏ, các bộ từ vựng lớn hơn có thể dẫn tới việc tạo ra quá nhiều từ tùy chỉnh, đặc biệt khi chúng chứa các từ có cách phát âm tương tự nhau. Nếu bạn có một danh sách từ vựng dài, hãy thử rút gọn và chỉ để lại các từ hiếm cũng như những từ bạn thực sự muốn xuất hiện trong tệp âm thanh của mình. Nếu bạn có nhiều từ vựng có thể dùng trong nhiều trường hợp, hãy tách bộ từ vựng đó thành danh sách cho từng trường hợp sử dụng riêng. Các từ ngắn và nghe giống nhiều từ khác có thể dẫn đến việc tạo ra quá nhiều từ tùy chỉnh xuất hiện trong đầu ra. Sẽ tốt hơn nếu kết hợp những từ này với các từ xung quanh và liệt kê dưới dạng các cụm từ được phân cách bằng dấu gạch nối. Ví dụ: bạn có thể bao gồm từ tùy chỉnh “A.D.” dưới dạng một phần của cụm từ, chẳng hạn như “A.D.-converter”.

Hỏi: có hai cách để cung cấp các trường phát âm trong bảng từ vựng tùy chỉnh, đó là IPA (Bảng ký hiệu ngữ âm quốc tế) hoặc SoundsLike. Cách nào tốt hơn?

IPA đem lại cách phát âm chính xác hơn. Bạn nên cung cấp cách phát âm theo IPA nếu có thể tạo IPA (chẳng hạn như bằng từ vựng có cách phát âm theo IPA hoặc bằng công cụ chuyển đổi trực tuyến).

Hỏi: Tôi muốn sử dụng IPA nhưng không phải là chuyên gia ngôn ngữ. Có công cụ trực tuyến để tôi sử dụng không?

Một số từ điển tiêu chuẩn, chẳng hạn như Từ điển Tiếng Anh của Oxford hoặc Từ điển Cambridge (bao gồm cả phiên bản trực tuyến), cung cấp cách phát âm theo IPA. Ngoài ra còn có các công cụ chuyển đổi trực tuyến (ví dụ: easypronunciation.com hoặc tophonetics.com đối với tiếng Anh); tuy nhiên, lưu ý rằng trong hầu hết trường hợp, các công cụ này dựa trên các từ điển cơ bản và không thể tạo IPA chính xác cho một số từ, chẳng hạn như tên riêng. Amazon Transcribe không xác nhận chất lượng của bất kỳ công cụ bên thứ ba nào.

Hỏi: tôi có cần sử dụng các tiêu chuẩn IPA khác nhau dành riêng cho những giọng khác nhau của cùng một ngôn ngữ không? (ví dụ: tiếng Anh Mỹ so với tiếng Anh Anh)?

Bạn nên sử dụng tiêu chuẩn IPA phù hợp với các tệp âm thanh mà bạn sẽ xử lý. Ví dụ: nếu bạn muốn xử lý âm thanh từ những người nói tiếng Anh Anh, hãy sử dụng tiêu chuẩn phát âm tiếng Anh Anh. Bộ ký hiệu IPA được phép có thể không giống nhau đối với các ngôn ngữ và thổ ngữ khác nhau mà Amazon Transcribe hỗ trợ; vui lòng đảm bảo rằng cách phát âm của bạn chỉ chứa những ký tự được phép. Bạn có thể tìm thấy các bộ ký tự IPA trong tài liệu: Từ vựng tùy chỉnh

Hỏi: Tôi làm cách nào để cung cấp cách phát âm bằng trường SoundsLike trong bảng từ vựng tùy chỉnh?

Bạn có thể chia một từ hoặc một cụm từ thành các thành phần nhỏ hơn và cung cấp cách phát âm cho từng thành phần theo cách đọc chính tả tiêu chuẩn của ngôn ngữ đó để bắt chước cách từ được phát âm. Ví dụ: trong tiếng Anh, bạn có thể cung cấp các gợi ý phát âm cho cụm từ Los-Angeles như sau: loss-ann-gel-es. Gợi ý phát âm cho từ Etienne sẽ có dạng: eh-tee-en. Bạn phân cách từng phần của gợi ý bằng dấu gạch nối (-). Bạn có thể sử dụng bất kỳ ký tự nào được phép cho ngôn ngữ đầu vào. Để biết thêm thông tin, vui lòng truy cập trang Từ vựng tùy chỉnh.

Hỏi: Hai cách khác nhau để cung cấp các từ viết tắt (có dấu chấm và không có dấu chấm nhưng có cách phát âm) hoạt động như thế nào?

Nếu bạn sử dụng từ viết tắt chứa các dấu chấm, cách phát âm theo chính tả sẽ tự động được tạo. Nếu bạn không sử dụng dấu chấm, vui lòng cung cấp cách phát âm trong trường phát âm. Đối với một số từ viết tắt, không rõ liệu chúng có cách phát âm theo chính tả hay cách phát âm giống từ. Ví dụ: NATO thường được phát âm là ‘n eɪ t oʊ’ (nay-toh) thay vì ‘ɛn eɪ ti oʊ’ (N. A. T. O.). Để biết thêm thông tin, vui lòng truy cập trang Từ vựng tùy chỉnh.

Hỏi: tôi có thể tìm thấy các ví dụ về cách sử dụng phát âm tùy chỉnh không?

Bạn có thể tìm thấy các ví dụ minh họa định dạng đầu vào và các ví dụ trong tài liệu ở đây.

Hỏi: điều gì xảy ra nếu tôi sử dụng sai IPA? Nếu không chắc chắn, tốt nhất là tôi không nên đưa vào bất kỳ IPA nào đúng ko?

Hệ thống sẽ sử dụng cách phát âm bạn cung cấp, qua đó tăng khả năng từ sẽ được công nhận là chính xác nếu cách phát âm chuẩn và khớp với cách từ được nói. Nếu bạn không chắc là mình đang tạo đúng IPA, vui lòng chạy một bản so sánh bằng cách xử lý các tệp âm thanh của bạn với từ vựng chứa cách phát âm theo IPA này và với từ vựng chỉ chứa các từ (và các mẫu display-as, nếu muốn). Nếu bạn không cung cấp bất kỳ cách phát âm nào, dịch vụ sẽ sử dụng cách phát âm ước đoán, có thể chính xác hơn dữ liệu nhập của bạn hoặc không.

Hỏi: khi sử dụng các mẫu DisplayAs, tôi có thể hiển thị những bộ ký tự không liên quan đến ngôn ngữ gốc được chép lại không? (ví dụ: dữ liệu xuất của “Street” là “街道“)?

Có. Mặc dù các cụm từ có thể chỉ sử dụng bộ ký tự hạn chế dành cho ngôn ngữ cụ thể, các ký tự UTF-8 ngoài \t (TAB) được cho phép trong cột DisplayAs.

Câu hỏi: Biên tập nội dung tự động hoặc biên tập thông tin nhận dạng cá nhân (PII) có sẵn cho cả API theo lô và API truyền phát cho Transcribe không?

Có, Amazon Transcribe hỗ trợ biên tập nội dung tự động hoặc biên tập PII cho cả API theo lô và API truyền phát.

Câu hỏi: Ngôn ngữ nào được hỗ trợ cho Biên tập nội dung tự động/nhận dạng và biên tập PII?

Vui lòng tham khảo tài liệu về Amazon Transcribe để biết thông tin về ngôn ngữ có sẵn cho việc biên tập nội dung tự động/biên tập PII.

Câu hỏi: Có phải Biên tập nội dung tự động cũng biên tập thông tin cá nhân nhạy cảm có trong âm thanh nguồn?

Không, tính năng này không loại bỏ thông tin cá nhân nhạy cảm khỏi âm thanh nguồn. Tuy nhiên, tính năng Phân tích cuộc gọi Amazon Transcribe loại bỏ thông tin cá nhân nhạy cảm khỏi cả bản chép lời và âm thanh nguồn. Truy cập liên kết này để tìm hiểu thêm thông tin về cách tính năng phân tích cuộc gọi có thể biên tập âm thanh. Bạn cũng có thể tự biên tập thông tin cá nhân khỏi âm thanh nguồn bằng cách sử dụng các nhãn thời gian bắt đầu và kết thúc được cung cấp trong bản chuyển lời thoại được biên tập cho mỗi trường hợp của lời nói được xác định chứa PII. Vui lòng tham khảo giải pháp biên tập âm thanh này dành cho API Transcribe tiêu chuẩn.

Tuy nhiên, API phân tích cuộc gọi Amazon Transcribe dành riêng loại bỏ thông tin cá nhân nhạy cảm khỏi cả bản chép lời và âm thanh nguồn. Để tìm hiểu thêm, vui lòng xem lại tài liệu biên tập âm thanh Phân tích cuộc gọi.

Câu hỏi: Tôi có thể sử dụng biên tập nội dung tự động để biên tập thông tin cá nhân trong các bản chuyển lời thoại sang văn bản hiện có không?

Không, biên tập nội dung tự động chỉ hoạt động với đầu vào là âm thanh.

Câu hỏi: Còn thông tin nào khác mà tôi cần biết trước khi sử dụng biên tập nội dung tự động không?

Biên tập nội dung tự động được thiết kế để xác định và loại bỏ thông tin nhận dạng cá nhân (PII) nhưng do bản chất dự đoán của machine learning nên chức năng này có thể không nhận dạng và loại bỏ được tất cả các trường hợp PII trong bản chuyển lời thoại mà dịch vụ tạo ra. Bạn nên xem lại mọi kết quả được cung cấp bởi Biên tập nội dung tự động để đảm bảo nội dung đó đáp ứng được các nhu cầu của bạn.

Câu hỏi: Có bất kỳ sự khác biệt nào giữa Biên tập nội dung tự động cho các API truyền phát và theo lô không?

Có, biên tập nội dung tự động cho các API truyền phát hỗ trợ hai tính năng bổ sung, trong khi đó API theo lô không hỗ trợ hai tính năng này. Bạn có thể chọn cách chỉ xác định PII và không biên tập khi sử dụng tính năng biên tập nội dung với API truyền phát. Ngoài ra, bạn có thể xác định hoặc biên tập các loại PII cụ thể với API truyền phát. Ví dụ: bạn có thể chỉ biên tập số an sinh xã hội và thông tin thẻ tín dụng cũng như giữ lại các PII khác như tên và địa chỉ email.

Câu hỏi: Biên tập nội dung tự động hoặc biên tập PII có sẵn ở Khu vực AWS nào?

Vui lòng tham khảo tài liệu về Amazon Transcribe để biết thông tin về mức độ sẵn sàng của tính năng biên tập nội dung cũng như biên tập PII cho các API theo lô và API truyền phát ở các Khu vực AWS.

Câu hỏi: API nào có thể hỗ trợ nhận dạng ngôn ngữ tự động?

Nhận dạng ngôn ngữ tự động hiện được hỗ trợ cho các API theo lô và truyền phát.

Câu hỏi: Những ngôn ngữ nào được Amazon Transcribe tự động nhận diện?

Amazon Transcribe có thể xác định bất kỳ ngôn ngữ nào được API theo lô và truyền phát hỗ trợ. Truy cập vào đây để biết chi tiết về các ngôn ngữ được hỗ trợ và các tính năng cụ thể theo ngôn ngữ.

Câu hỏi: Amazon Transcribe có thể nhận diện nhiều ngôn ngữ trong cùng một tệp âm thanh không?

Amazon Transcribe hỗ trợ ID nhiều ngôn ngữ theo lô. Xem liên kết này để biết thêm chi tiết.

Câu hỏi: Có cách nào để hạn chế danh sách các ngôn ngữ có thể chọn cho Nhận dạng ngôn ngữ tự động không?

Có, bạn có thể chỉ định một danh sách các ngôn ngữ có thể hiển thị trong thư viện đa phương tiện của bạn. Khi bạn cung cấp một danh sách các ngôn ngữ, ngôn ngữ được nhận diện sẽ được lựa chọn từ danh sách đó. Nếu không có ngôn ngữ nào được chỉ định, hệ thống sẽ xử lý tệp âm thanh dựa trên tất cả các ngôn ngữ được hỗ trợ bởi Amazon Transcribe và lựa chọn ngôn ngữ gần đúng nhất. Độ chính xác của nhận dạng ngôn ngữ được cải thiện khi bạn cung cấp một danh sách các ngôn ngữ có thể chọn. Xem liên kết này để biết thêm chi tiết.