Công nghệ tổng hợp giọng nói AI đang được tôn vinh là tương lai của trò chơi video - nhưng giá thành là bao nhiêu?

Khi trò chơi PlayStation 4 Red Dead Redemption 2 đã được phát triển vào năm 2013, cần đến 2.200 ngày để chỉnh âm thanh của trò chơi này với 1.200 giọng nói với 700 diễn viên lồng tiếng, người đã đọc toàn bộ 500.000 dòng đối thoại. Đó là một thành tựu lớn gần như không thể tái tạo được cho bất kỳ studio nào khác - huống hồ một studio trò chơi nhỏ hơn Rockstar Games.

Nhưng với sự tiến bộ trong trí tuệ nhân tạo, việc tạo giọng nói giống con người ngày càng dễ dàng hơn để tạo ra các phản hồi thời gian thực, các tùy chọn đối thoại vô hạn gần như không giới hạn và nói chuyện được cá nhân hóa cho đầu vào độc nhất của người sử dụng. Nhưng công nghệ này đặt ra câu hỏi về đạo đức của việc tổng hợp giọng nói.

Công ty phát triển phần mềm Úc Replica Studios đã triển khai nền tảng tổng hợp giọng nói cho các nhà phát triển trò chơi vào năm 2019 - một công cụ được sử dụng bởi công ty phát triển trò chơi Australia PlaySide Studios trong trò chơi Age of Darkness: Final Stand.

"Chúng tôi hy vọng sẽ có hàng trăm, nếu không phải hàng nghìn studio khác có thể mơ ước xây dựng các trò chơi giống như [Red Dead Redemption 2] vì mọi người đều muốn làm điều đó", Shreyas Nivas, giám đốc điều hành của Replica Studios, cho biết.

Ghi âm mỗi dòng đối thoại một cách riêng biệt là "rất không hiệu quả từ quan điểm chi phí, nhưng cũng từ quan điểm thời gian, và bạn cần phải có những đội ngũ khổng lồ", Nivas cho biết.

Replica đã cấp phép giọng nói của 120 diễn viên để sử dụng trong video game, có khả năng lên đến 1.000 tần số giọng nói khác nhau, theo công ty.

Nivas cho biết ông thấy việc tổng hợp giọng nói trở thành tương lai, nhưng, như với nhiều tiến bộ AI khác, thực hành này đầy những thách thức đạo đức.

Hiện nay có các công cụ tổng hợp giọng nói trực tuyến miễn phí có thể được sử dụng để bắt chước giọng nói của người nổi tiếng hoặc các nhân vật trong phim và truyền hình - thường không có sự cho phép của các nghệ sĩ đó. Và Bloomberg đưa tin trong tháng này các diễn viên lồng tiếng đã "sốc" khi phát hiện giọng nói của họ được sử dụng trong nội dung mà họ không tham gia vào. (Sau đó họ đã biết được các điều khoản hợp đồng của mình đã đủ rộng để bao phủ các sử dụng như vậy.)

Stock image of Australian software developer Replica Studiosâ voice synthesiser platform for games developers

Tại Nhật Bản, trong tháng này, Hiệp hội Nhân viên Nghệ thuật Biểu diễn của Nhật Bản đã tổ chức họp báo nhằm đề đạt mối quan tâm về tác động của AI đối với lồng tiếng và âm nhạc. Nhóm này - với khoảng 52.000 nhân viên là thành viên - yêu cầu có pháp luật bảo vệ công việc của họ.

Nivas cho biết mô hình cấp phép mà Replica đã theo đuổi cho phép các diễn viên tiếp tục kiếm được tiền từ việc sử dụng giọng nói của họ ngay cả khi họ không ghi âm trong phòng thu.

"Chúng tôi còn rất nhiều điều sẽ phải làm đúng, nhưng chúng tôi đang cố gắng xây dựng điều này theo cách mà chúng tôi đưa diễn viên lồng tiếng cùng với chúng tôi trên một chuyến đi. Vì vậy, chúng tôi đang cố gắng trở nên minh bạch nhất có thể đối với quy trình này."

Nivas cho biết các công ty game video lớn có lẽ vẫn sẽ thuê tài năng nổi tiếng, như Troy Baker lồng tiếng cho Joel Miller trong The Last of Us, nhưng AI sẽ giúp các studio trò chơi nhỏ hơn dễ dàng truy cập vào giọng nói và cung cấp cho các diễn viên mới nhiều việc làm hơn.

Công nghệ tổng hợp giọng nói AI đang được tôn vinh là tương lai của trò chơi video - nhưng giá thành là bao nhiêu?

Tin AI