OpenAI Công bố GPT-Mô hình chuyển giọng nói thành giọng nói thời gian thực với hỗ trợ đa phương thức và khả năng đàm thoại nâng cao
Tóm lại OpenAI đã phát hành mô hình chuyển giọng nói thành giọng nói gpt-realtime với hỗ trợ đa phương thức, kỹ năng đàm thoại nâng cao và hiệu suất suy luận âm thanh mạnh mẽ.
Tổ chức nghiên cứu trí tuệ nhân tạo OpenAI đã công bố việc ra mắt rộng rãi API thời gian thực (Realtime API), hiện được cải tiến với các tính năng cho phép các nhà phát triển và doanh nghiệp xây dựng các tác nhân thoại mạnh mẽ, sẵn sàng cho sản xuất. API này hỗ trợ các máy chủ MCP từ xa, đầu vào hình ảnh và gọi điện thoại qua Giao thức Khởi tạo Phiên (SIP), cho phép các ứng dụng thoại có khả năng nhận biết ngữ cảnh tốt hơn.
Cùng với API, OpenAI đã phát hành mô hình chuyển đổi giọng nói thành giọng nói tiên tiến nhất, gpt-realtime, được thiết kế để cải thiện khả năng theo dõi hướng dẫn, gọi hàm và giọng nói tự nhiên. Mô hình này có thể diễn giải các lời nhắc phức tạp, chuyển đổi ngôn ngữ giữa câu, tái tạo chính xác các chuỗi chữ số và chữ cái, và nắm bắt các tín hiệu phi ngôn ngữ. Hai giọng nói mới, Cedar và Marin, cũng có sẵn, mang lại ngữ điệu biểu cảm và giống người hơn. Các giọng nói hiện có đã được cập nhật để tích hợp những cải tiến này.
API Thời gian thực xử lý âm thanh trực tiếp thông qua một mô hình duy nhất, giảm độ trễ và giữ nguyên sắc thái, không giống như các quy trình truyền thống kết nối các mô hình chuyển giọng nói thành văn bản và văn bản thành giọng nói riêng biệt. gpt-realtime đã được đào tạo kết hợp với người dùng để đạt hiệu quả vượt trội trong các ứng dụng thực tế như hỗ trợ khách hàng, hỗ trợ cá nhân và giáo dục. Các đánh giá chuẩn cho thấy sự cải thiện đáng kể về khả năng lập luận, tuân thủ hướng dẫn và độ chính xác của lệnh gọi hàm so với các mô hình trước đây.
Các bản cập nhật bổ sung bao gồm chức năng gọi hàm không đồng bộ, cho phép thực hiện các hoạt động dài hạn mà không làm gián đoạn các cuộc hội thoại đang diễn ra, hỗ trợ thêm trải nghiệm giọng nói liền mạch, sẵn sàng cho sản xuất.
OpenAI Mở rộng API thời gian thực với hỗ trợ MCP, đầu vào hình ảnh, tích hợp SIP và kiểm soát tiết kiệm chi phí cho các tổng đài viên thoại
OpenAI API thời gian thực của Realtime hiện bao gồm các tính năng mới được thiết kế để đơn giản hóa việc tích hợp và mở rộng khả năng cho các tác nhân thoại sẵn sàng cho sản xuất. Các nhà phát triển có thể kích hoạt hỗ trợ MCP từ xa bằng cách liên kết phiên làm việc với URL máy chủ MCP, cho phép API tự động quản lý các lệnh gọi công cụ và truy cập các chức năng bổ sung mà không cần thiết lập thủ công.
Mô hình gpt-realtime hiện hỗ trợ đầu vào hình ảnh, cho phép hệ thống kết hợp ảnh, ảnh chụp màn hình và các hình ảnh trực quan khác cùng với âm thanh hoặc văn bản. Điều này cho phép người dùng đặt câu hỏi theo ngữ cảnh về những gì họ thấy, trong khi nhà phát triển vẫn kiểm soát được hình ảnh nào được chia sẻ và khi nào.
Những cải tiến bổ sung bao gồm hỗ trợ Giao thức khởi tạo phiên (SIP) để kết nối ứng dụng với mạng điện thoại và hệ thống PBX, cũng như lời nhắc có thể tái sử dụng cho phép nhà phát triển lưu và triển khai các hướng dẫn, công cụ và tin nhắn mẫu được cấu hình sẵn trên nhiều phiên.
API thời gian thực và mô hình gpt-realtime hiện đã có sẵn cho tất cả các nhà phát triển, với mức giá giảm 20% so với gpt-4o-realtime-preview trước đây. Các điều khiển mới cho ngữ cảnh hội thoại cho phép quản lý mã thông báo thông minh hơn, giảm chi phí cho các phiên dài. Tài liệu, Sân chơi thử nghiệm và hướng dẫn sử dụng API thời gian thực đều có sẵn để hỗ trợ các nhà phát triển áp dụng các tính năng này.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
CandyBomb x BOOST: Nạp tiền hoặc giao dịch để chia sẻ 8.332.000 BOOST!
Lễ hội Vay Crypto vòng 24: Vay USDT, USDC để nhận ưu đãi giảm lãi vay lên đến 40%
Các cặp giao dịch ký quỹ spot mới — JTO/USDT
Thông báo về thay đổi tokenomics của Sonic (S)
Thịnh hành
ThêmGiá tiền điện tử
Thêm








