OpenAI bắt đầu mở xem trước phiên bản mới của công cụ DALL-E, tạo ra những hình ảnh dựa trên thông điệp được viết và thông báo kế hoạch tích hợp nó vào ChatGPT, trò chuyện chatbot phổ biến của họ, mở rộng sự tiếp cận của công nghệ gây tranh cãi này vào thời điểm các nhà lập pháp yêu cầu thêm sự kiềm chế.
Công cụ mới, gọi là DALL-E 3, cung cấp khả năng hiểu lệnh từ người dùng tốt hơn và có khả năng hiển thị văn bản hợp lý và mạch lạc thành hình ảnh tốt hơn, điều mà trước đây là một điểm yếu của các phần mềm tạo hình ảnh AI. Theo các nhà nghiên cứu cho biết trong buổi trình diễn ngắn vào thứ Ba, dòng phát triển ngôn ngữ cho phép DALL-E 3 phân tích các hướng dẫn phức tạp, thay vì kết hợp các yếu tố của yêu cầu chi tiết.
"Người dùng thông thường có thể đăng nhập vào chatbot và yêu cầu một cái gì đó khá mơ hồ", Aditya Ramesh, trưởng nhóm DALL-E 3, chia sẻ một phiên bản demo của chủ doanh nghiệp thử nghiệm nhiều logo khác nhau cho một công ty có tên Mountain Ramen.
Mặc dù công cụ mới này hiện đã có sẵn cho một nhóm nhỏ người dùng để kiểm thử sớm, công ty sẽ phát hành nó cho người đăng ký sử dụng chatbot phổ biến của mình, ChatGPT, vào tháng 10 - tiềm năng tăng gấp đôi số người sử dụng công nghệ này.
Việc phát hành này diễn ra trong bối cảnh OpenAI đang đối mặt với những thách thức do sức ép cạnh tranh gia tăng. Lưu lượng truy cập và số người dùng hàng tháng của cả DALL-E và chatbot đại diện của OpenAI đã giảm, khi Google đẩy mạnh việc cung cấp một loạt sản phẩm được điều khiển bằng trí tuệ nhân tạo tới người dùng. Tuy nhiên, thông qua việc tích hợp công cụ tạo hình ảnh độc đáo của mình vào ChatGPT, OpenAI đang mở rộng thị trường của mình và cung cấp công nghệ như một tính năng để tăng cường chatbot, thay vì giới thiệu công cụ như một sản phẩm độc lập.
Các phóng viên không thể thử nghiệm chức năng này trong một buổi thông báo tin tức vì DALL-E 3 "hơi có vấn đề", theo Lindsey Head Bolton, trưởng phòng quan hệ công chúng của OpenAI, nhưng công ty sau đó khẳng định rằng công cụ sẽ ổn định khi ra mắt vào ngày thứ Tư.
Các công cụ chuyển đổi văn bản thành hình ảnh như DALL-E 2, Midjourney và Stable Diffusion đã thu hút người sử dụng sớm khi chúng ra mắt vào năm ngoái - mang đến cho công chúng khả năng điều khiển phần mềm tiên tiến mà không cần kỹ năng kỹ thuật. Những công cụ này đã được các nhà quảng cáo, nhà tiếp thị, chính trị gia và nhà sản xuất trò chơi điện tử sử dụng để xây dựng các chiến dịch đáng chú ý.
Tuy nhiên, lượt truy cập hàng tháng vào công cụ DALL-E trên máy tính để bàn và điện thoại di động đã chậm lại, từ một đỉnh đạt 32 triệu lượt vào tháng 3 năm 2023, khi OpenAI nâng cấp công nghệ cơ bản của ChatGPT, xuống còn khoảng 13 triệu lượt vào tháng Tám, theo dữ liệu từ SimilarWeb, một công ty phân tích dữ liệu.
Mặc dù vẫn còn nhiều không chắc chắn về tương lai của công nghệ chuyển đổi văn bản thành hình ảnh AI, công nghệ này đã lan rộng mà không có nhiều hạn chế - khiến những lo ngại về khả năng tạo ra hình ảnh trông thực tế có thể gây ra hệ lụy xã hội và chính trị trở nên nổi lên.
Những biển đường lẫn lộn và văn bản bới rối được tạo ra bởi các phiên bản cũ của công cụ đã tạo ra dấu hiệu dễ dàng để nhận biết hình ảnh do trí tuệ nhân tạo (AI) tạo ra. Sự cải tiến của DALL-E 3 khiến việc xác định ảnh thật trở nên khó khăn hơn đối với người không chuyên.
"Quý vị không thể tin vào những gì mắt thấy," giáo sư Hany Farid của Đại học California tại Berkeley, chuyên ngành pháp y số hóa và làm việc cùng Adobe trên Dự án Xác thực Nội dung, nói.
Nhưng Farid nhấn mạnh rằng sự cải tiến của DALL-E 3 không phải là lý do để báo động vì trí tuệ nhân tạo ngày càng nhái lại thế giới thực tế mọi sáu tháng một lần. Ông kêu gọi công nghệ tiên tiến để loại bỏ những tác phẩm của con người khỏi trí tuệ nhân tạo.
Các đối thủ của OpenAI, bao gồm Stability AI và Midjourney, đang đối mặt với vụ kiện từ các nghệ sĩ và Getty Images cáo buộc việc thu thập dữ liệu trên mạng để dạy cho các mô hình trí tuệ nhân tạo sinh ra vi phạm bản quyền.
Cơ quan thực thi pháp luật, cơ quan quản lý và các nhóm ủng hộ gần đây đã tập trung vào cách này công cụ được sử dụng để tạo ra ảnh khiêu dâm giả mạo phi đồng ý, tài liệu lạm dụng tình dục trẻ em và quảng cáo do trí tuệ nhân tạo tạo ra cho cuộc bầu cử tổng thống sắp tới.
Nhóm DALL-E 3 cho biết họ đã ưu tiên những rủi ro này bằng cách mời một "đội đỏ" chuyên gia bên ngoài thử nghiệm các kịch bản xấu nhất và sau đó tích hợp những gì họ đã học vào các chiến lược giảm thiểu của công ty.
Đối với DALL-E 2, OpenAI đã công bố một tóm tắt chi tiết về quy trình này trong một thẻ hệ thống, một bản mô tả công khai về cách mô hình trí tuệ nhân tạo được phát triển, điều chỉnh và kiểm tra an toàn, đóng vai trò như một nhãn cảnh báo và một nhãn dinh dưỡng. Sandhini Agarwal, một nhà nghiên cứu chính sách, cho biết OpenAI dự định công bố một thẻ tương tự cho DALL-E 3 trước khi công cụ được mở cửa cho công chúng.
Như một phần của cam kết tự nguyện của Nhà Trắng vào tháng 6, OpenAI đã đồng ý phát triển và triển khai các cơ chế để xác định khi nội dung hình ảnh hoặc âm thanh là do trí tuệ nhân tạo tạo ra, bằng cách sử dụng các phương pháp như đặt dấu chứng chỉ cho một hình ảnh hoặc mã hóa dữ liệu nguồn gốc để chỉ ra dịch vụ hoặc mô hình đã tạo nội dung. DALL-E 3 đang thử nghiệm một bộ phân loại nhìn vào nơi hình ảnh xuất phát hoặc "nguồn gốc" của nội dung, theo Ramesh, một phương pháp được đề cập trong cam kết của Nhà Trắng.
Những cơ chế này giúp xác định deepfake nhưng cũng có thể giúp nghệ sĩ theo dõi xem công việc của họ có được sử dụng mà không có sự đồng ý hoặc bồi thường để huấn luyện các mô hình, theo Margaret Mitchell, một nhà nghiên cứu khoa học tại Hugging Face và cựu đồng điều hành về AI đạo đức tại Google.
"Cái đó không nhất thiết phải thuận lợi cho công ty, nhưng tôi cho rằng đó là lợi ích của tất cả chúng ta," cô nói.