Table of contents

Theo dõi một ngành công nghiệp đang diễn ra rất nhanh như AI là một nhiệm vụ khó khăn. Vì vậy, cho đến khi có thể tự động hóa được công việc này, đây là một tóm tắt tiện lợi về các tin tức trong lĩnh vực học máy trong tuần qua, cùng với những nghiên cứu và thí nghiệm đáng chú ý chúng tôi chưa đề cập đến.

Có thể nói rằng tuần trước, Apple đã nhấn mạnh và có ý định tham gia vào cuộc đua AI cạnh tranh nhất. Không phải là công ty chưa đầu tư vào - và ưu tiên để - AI trước đó. Nhưng tại sự kiện WWDC của mình, Apple đã làm rõ rằng AI đứng sau nhiều tính năng của cả phần cứng và phần mềm sắp tới của họ.

Ví dụ, iOS 17, sẽ được phát hành vào cuối năm nay, có thể đề xuất các công thức cho các món ăn tương tự từ ảnh trên iPhone sử dụng thị giác máy tính. AI cũng là nguồn năng lượng cho Journal, một cuốn nhật ký tương tác mới làm các đề xuất cá nhân dựa trên các hoạt động trên các ứng dụng khác.

iOS 17 cũng sẽ có tính năng autocorrect nâng cấp, được cung cấp bởi một mô hình AI có thể dự đoán chính xác hơn các từ và cụm từ tiếp theo mà người dùng có thể sử dụng. Theo thời gian, nó sẽ trở nên tùy chỉnh, học từ các từ thông dụng nhất của người dùng - bao gồm cả tục ngữ.

facial scan for digital persona for Vision Pro

AI là trung tâm của Vision Pro augmented reality headset của Apple - cụ thể là FaceTime trên Vision Pro. Sử dụng học máy, Vision Pro có thể tạo ra một avatar ảo của người đeo, nội suy ra toàn bộ các biểu hiện khuôn mặt, kể cả độ căng da và cơ bắp.

Có thể nói rằng đây không phải là generative AI, mà đó là một trong những danh mục phụ nóng bỏng nhất của AI hiện nay. Nhưng ý định của Apple dường như là để trở lại - để cho thấy rằng nó không phải là một nhà sản xuất ít quan trọng sau nhiều năm của các dự án học máy đổ bể, từ Siri không ấn tượng đến chiếc xe tự lái rơi vào địa ngục sản xuất.

Cho thấy rằng nó nghiêm túc trong việc sử dụng AI bằng cách sản xuất thực tế những sản phẩm được trang bị AI là một bước đi cần thiết - và một tiêu chuẩn mà một số đối thủ của Apple, thực sự, đã không đáp ứng được trong quá khứ gần đây. (Meta, xin nhìn qua đây.) Bề ngoài, Apple đã đạt được mục tiêu tuần qua - ngay cả khi không có gì ồn ào.

Dưới đây là các tiêu đề AI khác đáng chú ý trong vài ngày qua:

    Meta tạo ra một trình tạo nhạc dựa trên AI: Không để bị Google vượt qua, Meta đã phát hành trình tạo nhạc được trang bị AI của riêng mình - và, khác với Google, nó đã được mã nguồn mở. Gọi là MusicGen, công cụ tạo nhạc của Meta có thể chuyển mô tả văn bản thành âm thanh khoảng 12 giây.

    Các nhà điều tiết xem xét an toàn trí thông minh nhân tạo: Theo thông báo của Chính phủ Anh vào tuần trước về kế hoạch tổ chức hội nghị an toàn trí thông minh nhân tạo "toàn cầu" vào mùa thu này, OpenAI, Google DeepMind và Anthropic đã cam kết cung cấp "truy cập sớm hoặc ưu tiên" vào mô hình Trí tuệ nhân tạo của họ để hỗ trợ nghiên cứu về đánh giá và an toàn.

    Trí tuệ nhân tạo, gặp gỡ đám mây: Salesforce đang ra mắt một bộ sản phẩm mới nhằm tăng cường vị thế của mình trong không gian trí tuệ nhân tạo cạnh tranh gay gắt. Gọi là AI Cloud, bộ công cụ này được thiết kế để cung cấp "cho doanh nghiệp" và là nỗ lực giao ngành mới nhất của Salesforce để tăng cường danh mục sản phẩm của mình với khả năng trí tuệ nhân tạo.

    Kiểm tra trí tuệ nhân tạo chuyển văn bản thành video: TechCrunch đã thực tế với Gen-2 của Runway, trí tuệ nhân tạo mà tạo ra những đoạn video ngắn từ văn bản. Kết quả như thế nào? Còn một chặng đường để đạt được chất lượng phim.

    Thêm tiền cho trí tuệ nhân tạo doanh nghiệp: Ký hiệu rằng có rất nhiều tiền cho các start-up trí tuệ nhân tạo sản sinh, Cohere, một công ty đang phát triển hệ sinh thái mô hình trí tuệ nhân tạo cho doanh nghiệp, đã thông báo vào tuần trước rằng đã gây quỹ được 270 triệu đô la Mỹ là một phần của vòng C của mình.

    Không có GPT-5 cho bạn: OpenAI vẫn chưa đào tạo GPT-5, CEO của OpenAI Sam Altman nói tại một hội nghị gần đây do Economic Times tổ chức - nhiều tháng sau khi startup được sự hậu thuẫn của Microsoft cam kết không làm việc trên người kế nhiệm cho GPT-4 "một thời gian" sau khi nhiều cố vấn và nhà khoa học ngành đã bày tỏ những lo ngại về tốc độ nhanh của các mô hình ngôn ngữ lớn của Altman.

    Trợ lí viết bài cho WordPress được hỗ trợ bởi trí tuệ nhân tạo: Automattic, công ty đứng sau WordPress.com và đóng góp chính cho dự án WordPress nguồn mở, đã phát hành một trợ lý trí tuệ nhân tạo cho hệ thống quản lý nội dung phổ biến vào thứ ba tuần trước.

    Instagram có thể đang làm việc trên một trợ lý trò chuyện trí tuệ nhân tạo: Theo hình ảnh rò rỉ được công bố bởi nghiên cứu viên ứng dụng Alessandro Paluzzi, Instagram có thể đang làm việc trên một trợ lý trò chuyện trí tuệ nhân tạo. Theo những tiết lộ này, thể hiện những phát triển ứng dụng đang tiến hành có thể hoặc không được phát hành, những đại lý trí tuệ nhân tạo này có thể trả lời câu hỏi hoặc đưa ra lời khuyên.

    Các học máy khác

    Nếu bạn tò mò về cách trí tuệ nhân tạo có thể ảnh hưởng đến khoa học và nghiên cứu trong vài năm tới, một đội ngũ từ sáu phòng thí nghiệm quốc gia đã viết một báo cáo, dựa trên các hội thảo được tiến hành năm ngoái, về chính vấn đề đó. Bạn có thể muốn nói rằng, do dựa vào xu hướng từ năm trước chứ không phải từ năm nay, trong đó các điều đã tiến triển nhanh chóng, báo cáo có thể đã cũ rồi. Nhưng trong khi ChatGPT đã tạo ra các sóng lớn trong công nghệ và nhận thức của người tiêu dùng, sự thật là nó không phù hợp với nghiên cứu nghiêm túc. Các xu hướng quy mô lớn như vậy đang diễn ra ở một tốc độ khác. Báo cáo có 200 trang chắc chắn không phải là một bài đọc nhẹ nhàng, nhưng từng phần được chia thành các mẩu dễ tiêu thụ.

    Ở nơi khác trong hệ sinh thái các phòng thí nghiệm quốc gia, các nhà nghiên cứu tại Los Alamos đang chăm chỉ làm việc để tiến triển lĩnh vực memristors, kết hợp lưu trữ dữ liệu và xử lý - giống như các neuron của chúng ta. Đó là một phương pháp tính toán hoàn toàn khác, mặc dù nó vẫn chưa được áp dụng rộng rãi trong ngoài phòng thí nghiệm, nhưng phương pháp mới này dường như đẩy một bước tiến xa hơn ít nhất là về mặt lý thuyết.

    Sự dễ dàng của trí tuệ nhân tạo trong việc phân tích ngôn ngữ được thể hiện trong bài báo cáo về tương tác của cảnh sát với những người họ đã dừng lại. Các nhà nghiên cứu đã sử dụng xử lý ngôn ngữ tự nhiên như một trong số nhiều yếu tố để xác định các mẫu ngôn ngữ dự đoán sự leo thang của việc dừng - đặc biệt là với những người đàn ông da đen. Các phương pháp học tập của con người và máy tính cũng tăng cường lẫn nhau.

    DeepBreath là một mô hình được huấn luyện trên các bản ghi âm h hơi thở của các bệnh nhân ở Thụy Sĩ và Brazil mà các nhà sáng lập tại EPFL cho rằng có thể giúp phát hiện các bệnh lý hô hấp sớm. Kế hoạch là đưa nó ra thị trường trong một thiết bị được gọi là Pneumoscope, thuộc công ty con Onescope. Chúng tôi sẽ có lẽ tiếp tục liên lạc với họ để biết thêm thông tin về cách công ty đang hoạt động.

    Tiến bộ về sức khỏe của Trí tuệ nhân tạo khác đến từ Purdue, nơi các nhà nghiên cứu đã tạo phần mềm có thể giảm thiểu hình ảnh siêu phổ với máy ảnh điện thoại thông minh, theo dõi thành công hemoglobin máu và các số liệu khác. Đây là một kĩ thuật thú vị: sử dụng chế độ chậm siêu của điện thoại, nó thu được rất nhiều thông tin về mỗi pixel trong hình ảnh, cung cấp đủ dữ liệu cho một mô hình suy ra. Đó có thể là một cách tuyệt vời để có được thông tin sức khỏe này mà không cần phần cứng đặc biệt.

    Tôi không tin tưởng vào việc tự lái để có những động tác né vẫn, nhưng MIT đang tiến gần hơn với nghiên cứu giúp trí tuệ nhân tạo tránh các chướng ngại vật trong khi duy trì đường bay mong muốn. Bất kỳ thuật toán cũng có thể đề xuất những thay đổi hoang đường để không va chạm, nhưng làm điều đó trong khi vẫn duy trì tính ổn định và không làm cho bất cứ thứ gì bên trong bị nhào nặn là khó hơn. Nhóm nghiên cứu đã thành công trong việc cho một chiếc máy bay mô phỏng thực hiện một vài động tác giống như Top Gun tự động và không mất tính ổn định. Điều đó khó hơn nhìn chung.

    Cuối tuần này là Disney Research, một đơn vị luôn có những điều thú vị để trình diễn, đồng thời cũng áp dụng cho sản xuất phim hoặc hoạt động công viên. Tại CVPR, họ trình diễn một "mạng phát hiện định vị khuôn mặt" mạnh mẽ và đa dạng có thể theo dõi chuyển động khuôn mặt liên tục và sử dụng các điểm tham chiếu tùy ý hơn. Các kỹ thuật chụp chuyển động đã hoạt động mà không cần đến các điểm chụp nhỏ, nhưng điều này sẽ làm cho nó chất lượng cao hơn - và cũng tôn vinh hơn cho các diễn viên.