Nếu như bạn lo lắng rằng phiên bản hiện tại của trí tuệ nhân tạo đang khá ấm áp và đồng cảm, thì các nhà khoa học sẽ giúp bạn - một mô hình ngôn ngữ mới đã được đào tạo trên phần tử tồi tệ nhất của internet, Dark Web.

Được đặt tên là DarkBERT (đúng vậy, đó là tên thật của nó), AI sinh sản này được đào tạo độc quyền trên Dark Web để so sánh với một đối tác thường. Nhóm người đứng sau nó - báo cáo các kết quả của họ trong một bài báo trước khi được xem xét bởi các chuyên gia cùng lĩnh vực - muốn hiểu xem việc sử dụng Dark Web làm tập dữ liệu có cung cấp cho AI ngữ cảnh tốt hơn về ngôn ngữ được sử dụng ở đó, khiến nó có giá trị hơn cho những người muốn dạo quanh trong Dark Web để nghiên cứu và cho cảnh sát chống lại tội phạm mạng.

Nó cũng đã thăm dò một nơi mà hầu hết con người không muốn đi và liệt kê các miền khác nhau của nó, vì vậy cảm ơn đã chịu một phần cho DarkBERT.

Dark Web là một khu vực trên internet mà Google và các công cụ tìm kiếm khác bỏ qua, ngăn cản đa phần mọi người đến đó. Nó chỉ có thể truy cập bằng cách sử dụng phần mềm chuyên dụng gọi là Tor (hoặc tương tự), và do đó đã giành được một danh tiếng cho những gì đã xảy ra ở đó. Những truyền thuyết đô thị đã nói về các phòng tra tấn, kẻ giết hợp đồng, và tất cả các loại tội ác khủng khiếp khác, nhưng sự thật là hầu hết nó chỉ là những trò lừa đảo và những cách khác để lấy cắp dữ liệu của bạn mà không được bảo vệ bởi an toàn của trình duyệt, mà chúng ta đều coi là điều hiển nhiên. Tuy nhiên, Dark Web được cho là được sử dụng bởi mạng tội phạm mạng để trò chuyện ẩn danh, khiến nó trở thành một mục tiêu vô cùng quan trọng cho cảnh sát.

Một nhóm từ Hàn Quốc đã kết nối một mô hình ngôn ngữ để khám phá Dark Web bằng cách sử dụng Tor và trả lại dữ liệu thô mà nó tìm thấy, tạo ra một mô hình có thể hiểu được ngôn ngữ được sử dụng ở đó tốt hơn. Sau khi hoàn thành, họ so sánh cách nó hoạt động so với các mô hình đã tạo ra trước đó của các nhà nghiên cứu, bao gồm RoBERTa và BERT.

Các kết quả được trình bày trong bài báo trước khi được xem xét lại cho thấy rằng DarkBERT hoạt động tốt hơn các mô hình khác trong tất cả các tập dữ liệu, nhưng nó gần chạm đến. Vì tất cả các AI đều từ khung công việc tương tự, nên dự kiến ​​rằng chúng sẽ có hiệu suất tương tự, nhưng DarkBERT xuất sắc trên Dark Web cụ thể.

Vậy DarkBERT sẽ được sử dụng cho gì? Hy vọng rằng nó sẽ không được cho mã khởi động hạt nhân, nhưng nhóm người này mong đợi nó sẽ là một công cụ mạnh mẽ trong quét Dark Web để tìm kiếm các mối đe dọa về an ninh mạng, cũng như theo dõi các diễn đàn để xác định các hoạt động bất hợp pháp.

Hy vọng điều này sẽ không cho bất kỳ ý tưởng nào cho OpenAI.

Việc xuất bản trước đây, là một phiên bản sơ bộ của nghiên cứu chưa được xem xét bởi các chuyên gia cùng lĩnh vực, có thể được tìm thấy trên arXiv.