ChatGPT hiện đã có thể tạo ra hình ảnh - và chúng rất chi tiết đáng kinh ngạc.
Vào thứ Tư, OpenAI, một công ty khởi nghiệp trí tuệ nhân tạo tại San Francisco, đã phát hành phiên bản mới của trình tạo hình ảnh DALL-E cho một nhóm nhỏ những người thử nghiệm và tích hợp công nghệ này vào ChatGPT, trò chuyện trực tuyến phổ biến của công ty.
Được gọi là DALL-E 3, nó có thể tạo ra những hình ảnh thuyết phục hơn các phiên bản trước đây của công nghệ này, đặc biệt là trong việc tạo ra hình ảnh chứa chữ cái, số và đôi tay của con người, công ty cho biết.
"Nó có khả năng hiểu và biểu diễn những gì người dùng yêu cầu tốt hơn rất nhiều", Aditya Ramesh, một nhà nghiên cứu của OpenAI nói, và thêm rằng công nghệ này được xây dựng để hiểu rõ hơn về ngôn ngữ tiếng Anh.
Bằng việc thêm phiên bản mới nhất của DALL-E vào ChatGPT, OpenAI đang củng cố vai trò của trò chuyện trực tuyến này như là một trung tâm cho trí tuệ nhân tạo tạo ra văn bản, hình ảnh, âm thanh, phần mềm và các phương tiện kỹ thuật số khác mà riêng nó tạo ra. Từ khi ChatGPT bùng nổ vào năm ngoái, nó đã khơi mào cuộc đua giữa các tập đoàn công nghệ tại thung lũng Silicon để trở thành đầu tàu của trí tuệ nhân tạo với những bước tiến mới.
Vào thứ Ba, Google đã phát hành phiên bản mới của trò chuyện trực tuyến Bard của mình, kết nối với một số dịch vụ phổ biến nhất của công ty bao gồm Gmail, YouTube và Docs. Midjourney và Stable Diffusion, hai trình tạo hình ảnh khác, cập nhật mô hình của chúng trong mùa hè này.
OpenAI đã lâu đã cung cấp cách để kết nối trò chuyện trực tuyến của mình với các dịch vụ trực tuyến khác, bao gồm Expedia, OpenTable và Wikipedia. Nhưng lần này, công ty này tổ hợp một trò chuyện trực tuyến với một trình tạo hình ảnh lần đầu tiên.
Trước đây, DALL-E và ChatGPT là hai ứng dụng riêng biệt. Nhưng với phiên bản mới nhất này, người ta có thể sử dụng dịch vụ của ChatGPT để tạo ra hình ảnh kỹ thuật số chỉ bằng cách mô tả những gì họ muốn nhìn thấy. Hoặc họ có thể tạo ra hình ảnh bằng cách sử dụng những mô tả do trò chuyện trực tuyến tạo ra, từ đó tự động hóa thêm việc tạo ra đồ họa, nghệ thuật và phương tiện khác.
Trong một cuộc thử nghiệm trong tuần này, Gabriel Goh, một nhà nghiên cứu của OpenAI, đã cho thấy ChatGPT hiện có thể tạo ra mô tả văn bản chi tiết được sử dụng để tạo ra hình ảnh. Sau khi tạo ra mô tả của một biểu trưng cho một nhà hàng mang tên Mountain Ramen, ví dụ, trò chuyện trực tuyến đã tạo ra một số hình ảnh từ những mô tả đó trong vài giây.
Phiên bản mới của DALL-E có thể tạo ra hình ảnh từ mô tả gồm nhiều đoạn văn và đáp ứng theo sát các hướng dẫn được đưa ra với chi tiết tỉ mỉ, Goh nói. Tuy nhiên, cũng giống như tất cả các trình tạo hình ảnh và hệ thống trí tuệ nhân tạo khác, nó cũng dễ mắc phải lỗi, anh ta nói.
Trong quá trình rào chắn kỹ thuật, OpenAI không chia sẻ DALL-E 3 với công chúng rộng rãi cho đến tháng sau. Từ tháng sau, DALL-E 3 sẽ được cung cấp thông qua dịch vụ ChatGPT Plus, với giá 20 đô la một tháng.
Chuyên gia đã cảnh báo rằng công nghệ tạo ra hình ảnh có thể được sử dụng để lan truyền lượng lớn thông tin sai lệch trực tuyến. Để đề phòng điều đó với DALL-E 3, OpenAI đã tích hợp các công cụ được thiết kế để ngăn chặn các chủ đề gây vấn đề, chẳng hạn như hình ảnh tục tĩu và hình ảnh các nhân vật công khai. Công ty cũng đang cố gắng hạn chế khả năng của DALL-E trong việc bắt chước phong cách của các nghệ sĩ cụ thể.
Trong những tháng gần đây, trí tuệ nhân tạo đã được sử dụng như một nguồn thông tin sai lệch hình ảnh.
Một bản giả tạo tổng hợp không đặc biệt tinh vi của một vụ nổ ở Pentagon đã khiến thị trường chứng khoán giảm ngắn hạn vào tháng 5, và còn có nhiều ví dụ khác nữa. Các chuyên gia bầu cử cũng lo ngại rằng công nghệ này có thể được sử dụng độc hại trong các cuộc bầu cử quan trọng.
Sandhini Agarwal, một nhà nghiên cứu của OpenAI chuyên về an toàn và chính sách, cho biết DALL-E 3 có xu hướng tạo ra những hình ảnh có phong cách hơn là thực tế. Tuy nhiên, cô nhận thức rằng mô hình có thể được khuyến khích để tạo ra những cảnh quan thuyết phục, như loại hình ảnh mờ được camera an ninh bắt được.
Phần lớn thời gian, OpenAI không có kế hoạch chặn nội dung tiềm năng gây vấn đề từ DALL-E 3. Agarwal cho biết cách tiếp cận như vậy là "quá rộng rãi" vì hình ảnh có thể vô hại hoặc nguy hiểm tuỳ thuộc vào ngữ cảnh mà chúng xuất hiện.
"Cái đó thực sự phụ thuộc vào nơi nó được sử dụng, cách mọi người nói về nó," cô nói.