Trí tuệ nhân tạo

Công nghệ AI mới của Google đã sở hữu giọng siêu chân thật

Mới đây bài nghiên cứu “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions” đã hé lộ một hệ thống chuyển đổi văn bản thành giọng nói mới của Google có tên Tacotron 2 có khả năng tái tạo lại giọng nói cực giống với con người.

Để đạt được thành tựu như vậy, Tacotron 2 đã sử dụng một cặp mạng neural với vai trò khác nhau: một mạng tạo ra hình ảnh trực quan về những tần số âm thanh cụ thể, mạng còn lại (WaveNet) sẽ tái hiện lại những dữ liệu trực quan đó dưới dạng âm thanh.

Theo trang AndroidAuthority, cụ thể, Ngoài ra, Google còn tung ra trang web để minh họa cụ thể hơn những gì công nghệ này có thể làm được trong thực tế. Họ đã đưa ra rất nhiều ví dụ về cách mà Tacotron 2 xử lý các cụm từ đồng nghĩa, ví dụ như phân biệt nghĩa của từ “present” giữa hai dạng danh từ (món quà) và động từ (trình bày). Bên cạnh đó, hệ thống này còn giải quyết được những vấn đề về ngữ điệu cũng như nhiều từ khó mà ngay cả con người có thể chưa gặp qua bao giờ.

Trong phần cuối của bài nghiên cứu, Google còn chứng tỏ sức mạnh vượt trội của Tacotron 2 bằng cách đưa ra nhiều cặp file âm thanh giống hệt nhau do con người và hệ thống AI mới của họ tạo ra, rất khó để phân biệt. Bạn có thể tự mình trải nghiệm và đánh giá tại đây.

Nhìn nhận một cách khách quan, rất có thể công nghệ này chỉ là một phần nhỏ trong sứ mệnh lớn hơn mà Google đang theo đuổi: Nâng cao khả năng đối thoại của Google Assistant. Trợ lý ảo này chính là yếu tố AI chủ chốt đằng sau các sản phẩm Google Home – lĩnh vực kinh doanh mới đầy tiềm năng của Google. Và hệ thống Tacotron 2 thực sự phù hợp với dòng thiết bị đó.

Ở thời điểm hiện tại, Google Assistant chắc chắn đã hoàn thiện hơn và hoạt động hiệu quả hơn rất nhiều so với trước đây. Tuy nhiên, bài báo cáo mang tính đột phá mới của Google cho thấy chắc chắn trợ lý ảo này sẽ còn được cải tiến giống con người hơn nữa trong tương lai sắp tới.

Tất nhiên khoảng cách giữa AI và con người vẫn còn quá lớn, và thật khó để một cỗ máy có thể đọc to, rõ ràng và giao tiếp giống như con người. Yếu tố về sắc thái, ngữ cảnh, cá tính luôn biến đổi không ngừng trong quá trình trò chuyện và giữ vai trò cực kỳ quan trọng. Đó chính là những trở ngại lớn nhất mà AI cần phải vượt qua để có “tính người” nhiều hơn.

Tuy nhiên, với tốc độ phát triển như hiện nay, AI sẽ còn cao cấp, tiên tiến hơn nữa và chưa biết chừng sẽ có thể nói chuyện một cách tự nhiên với chúng ta trong một ngày không xa.

Nhấn vào đây để bình luận

Trả lời bình luận

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

ĐỌC NHIỀU

Lên trên
Chuyển đến thanh công cụ