Nghiên cứu về trí tuệ nhân tạo hiện nay đang tiến triển với tốc độ đáng kinh ngạc. Ngày càng nhiều công ty trong ngành mong đợi được chứng kiến sự ra đời của trí tuệ nhân tạo tổng quát (AGI) đầu tiên, với khả năng suy luận vượt trội hơn con người, trong vòng vài năm tới. Một viễn cảnh vừa thú vị vừa đáng lo ngại, và có lý do chính đáng: các chuyên gia từ lâu đã tin rằng một hệ thống như vậy có thể gây ra sự bất hòa chưa từng có trong nền văn minh của chúng ta.
Đây là chủ đề thường được các nhà văn hư cấu khai thác trong các tác phẩm như 2001: A Space Odyssey, Terminator, hay thậm chí là The Matrix, v.v. Nhưng mặc dù đáng kinh ngạc, những kịch bản này rõ ràng vẫn còn khá cường điệu. Nếu một trí tuệ nhân tạo tiên tiến bắt đầu gây hại cho nhân loại, nó có thể làm điều đó theo những cách tinh vi hơn và ít cực đoan hơn. Để tránh thảm họa có thể xảy ra, cần phải thiết lập ngay một bộ hướng dẫn vững chắc. Và đó chính xác là chủ đề của bài báo kỹ thuật mới nhất của DeepMind, được phát hiện bởi Ars Technica.
Đối với những ai chưa biết, công ty con của Google này là một trong những công ty tiên tiến nhất trong ngành. Từ lý thuyết trò chơi (AlphaZero, AlphaGo, v.v.) đến sinh học cấu trúc (AlphaFold), dự báo thời tiết (GenCast) và phản ứng tổng hợp hạt nhân, công ty đã phát triển nhiều hệ thống dựa trên AI để giải quyết các vấn đề mà trước đây có vẻ hoàn toàn không thể đạt được.
Gần đây, các nhà nghiên cứu của công ty đã công bố một một bài báo dài khám phá các cách tiếp cận khác nhau để hạn chế rủi ro liên quan đến việc phát triển AGI. Nó tập trung đặc biệt vào các loại rủi ro khác nhau liên quan đến hệ thống như vậy. Tổng cộng, các tác giả đã xác định bốn loại chính.
Do đó, DeepMind tin rằng các công ty phải triển khai các giao thức xác thực và bảo mật cực kỳ mạnh mẽ, bắt đầu ngay từ bây giờ. Các tác giả cũng nhấn mạnh tầm quan trọng của việc phát triển các kỹ thuật buộc các mô hình AI phải "quên" dữ liệu, để chúng có thể được kéo ra khỏi đôi ủng của mình trong trường hợp khẩn cấp nếu kịch bản xấu nhất bắt đầu xuất hiện.
Học máy: tại sao AI nhất thiết phải học cách quên
Loại thứ hai bao gồm tất cả các vấn đề liên quan đến cái được gọi là căn chỉnh — đảm bảo rằng các mô hình AI này "hiểu" các giá trị và kỳ vọng của con người và ưu tiên chúng khi hành động. Mặt khác, một hệ thống không cân xứng có thể thực hiện những hành động mà nó biết rõ là không phù hợp với tầm nhìn của người tạo ra chúng.
Đây là tình huống thường xuất hiện nhất trong tiểu thuyết. Ví dụ, nếu HAL 9000 cố gắng tiêu diệt phi hành đoàn trong 2001: A Space Odyssey, thì đó là vì hắn coi sự thành công của nhiệm vụ quan trọng hơn mạng sống con người. Tương tự như Skynet trong loạt phim Terminator: mặc dù ban đầu nó được thiết kế để bảo vệ loài người, nhưng cuối cùng nó lại kết luận rằng nó là mối đe dọa cần phải bị tiêu diệt bằng mọi giá.
Để tránh tình huống này, DeepMind đưa ra giải pháp đầu tiên thú vị: để các AGI hoạt động theo cặp. Thay vì tiến hóa một mình, chúng sẽ liên tục được giám sát bởi một bản sao giống hệt nhau, do đó làm giảm nguy cơ trôi dạt. Nhưng các tác giả của bài báo thừa nhận rằng cách tiếp cận này có lẽ không phải là hoàn hảo.
Do đó, họ khuyến nghị chạy các AGI trong tương lai trong “hộp cát ảo”. Thuật ngữ này đề cập đến không gian kỹ thuật số tách biệt với phần còn lại của hệ thống, hiện nay chủ yếu được sử dụng trong lĩnh vực an ninh mạng để thử nghiệm các chương trình nhạy cảm mà không gây nguy cơ xâm phạm phần còn lại của cơ sở hạ tầng. Về mặt lý thuyết, nếu có vấn đề phát sinh, chỉ cần vô hiệu hóa hộp cát này là đủ để tước đi khả năng gây hại của AGI. Tuy nhiên, người ta có thể tự hỏi liệu một hệ thống xảo quyệt như vậy có thể tìm ra cách thoát khỏi...
Ví dụ này có thể buồn cười, nhưng bạn có thể dễ dàng tưởng tượng ra những tình huống mà những sai lầm như vậy (đôi khi được gọi là ảo giác) có thể gây ra hậu quả khủng khiếp. Ví dụ, hãy tưởng tượng một IAG chuyên về quân sự nghĩ rằng họ có thể phát hiện ra các dấu hiệu cảnh báo về một cuộc tấn công hạt nhân; Sau đó, nó có thể gây ra "sự trả đũa" hoàn toàn vô lý, dẫn đến sự hủy diệt hoàn toàn một phần của thế giới chỉ vì một lỗi đơn giản.
Tin xấu là không có cách tiếp cận tổng quát thực sự nào để hạn chế những lỗi này. Do đó, đối với các tác giả của bài báo, điều quan trọng là phải triển khai các AGI trong tương lai một cách dần dần, với các cuộc thử nghiệm nghiêm ngặt ở từng giai đoạn và trên hết là hạn chế khả năng hoạt động tự chủ của chúng.
Cùng nhau, các hệ thống tương tác này có thể “tích lũy quyền kiểm soát ngày càng tăng đối với các hệ thống kinh tế và chính trị của chúng ta”, đối với luồng thông tin, v.v. Nói cách khác, AGI cuối cùng sẽ kiểm soát toàn bộ xã hội của chúng ta, trong khi con người sẽ chỉ là những quân cờ hữu cơ vô nghĩa trên bàn cờ ảo rộng lớn. Một kịch bản phản địa đàng thực sự đáng sợ.
Các nhà nghiên cứu chỉ ra rằng loại rủi ro này có thể sẽ là loại rủi ro khó đối phó nhất, vì hậu quả tiềm tàng phụ thuộc trực tiếp vào cách con người, cơ sở hạ tầng và các tổ chức vận hành và tương tác.
Vào thời điểm này, không ai biết chính xác khi nào—hoặc thậm chí liệu—một AGI thực sự có thực sự xuất hiện hay không. Nhưng trong bối cảnh hiện tại, sẽ rất thiếu thận trọng nếu không xem xét nghiêm túc khả năng này. Do đó, sẽ rất thú vị khi xem liệu OpenAI và những công ty khác có dựa trên bài báo trừu tượng nhưng rất thú vị này để thực hiện công trình trong tương lai hay không.
Đây là chủ đề thường được các nhà văn hư cấu khai thác trong các tác phẩm như 2001: A Space Odyssey, Terminator, hay thậm chí là The Matrix, v.v. Nhưng mặc dù đáng kinh ngạc, những kịch bản này rõ ràng vẫn còn khá cường điệu. Nếu một trí tuệ nhân tạo tiên tiến bắt đầu gây hại cho nhân loại, nó có thể làm điều đó theo những cách tinh vi hơn và ít cực đoan hơn. Để tránh thảm họa có thể xảy ra, cần phải thiết lập ngay một bộ hướng dẫn vững chắc. Và đó chính xác là chủ đề của bài báo kỹ thuật mới nhất của DeepMind, được phát hiện bởi Ars Technica.
Đối với những ai chưa biết, công ty con của Google này là một trong những công ty tiên tiến nhất trong ngành. Từ lý thuyết trò chơi (AlphaZero, AlphaGo, v.v.) đến sinh học cấu trúc (AlphaFold), dự báo thời tiết (GenCast) và phản ứng tổng hợp hạt nhân, công ty đã phát triển nhiều hệ thống dựa trên AI để giải quyết các vấn đề mà trước đây có vẻ hoàn toàn không thể đạt được.
Gần đây, các nhà nghiên cứu của công ty đã công bố một một bài báo dài khám phá các cách tiếp cận khác nhau để hạn chế rủi ro liên quan đến việc phát triển AGI. Nó tập trung đặc biệt vào các loại rủi ro khác nhau liên quan đến hệ thống như vậy. Tổng cộng, các tác giả đã xác định bốn loại chính.

Một vũ khí dành cho những con người có ý đồ xấu
Loại đầu tiên liên quan đến những gì DeepMind mô tả là "lạm dụng ." Trong trường hợp này, bản thân hệ thống không phải là vấn đề trực tiếp mà là con người vận hành hệ thống. Có vẻ như một công cụ mạnh mẽ như AGI có thể gây ra thiệt hại nghiêm trọng nếu rơi vào tay những kẻ xấu. Ví dụ, họ có thể yêu cầu nó khai thác các lỗ hổng an ninh mạng quan trọng, đặc biệt là trong các cơ sở hạ tầng quan trọng như nhà máy điện hạt nhân, để tạo ra vũ khí vi khuẩn đáng gờm, v.v.Do đó, DeepMind tin rằng các công ty phải triển khai các giao thức xác thực và bảo mật cực kỳ mạnh mẽ, bắt đầu ngay từ bây giờ. Các tác giả cũng nhấn mạnh tầm quan trọng của việc phát triển các kỹ thuật buộc các mô hình AI phải "quên" dữ liệu, để chúng có thể được kéo ra khỏi đôi ủng của mình trong trường hợp khẩn cấp nếu kịch bản xấu nhất bắt đầu xuất hiện.
Học máy: tại sao AI nhất thiết phải học cách quên
Lỗi căn chỉnh
Loại thứ hai bao gồm tất cả các vấn đề liên quan đến cái được gọi là căn chỉnh — đảm bảo rằng các mô hình AI này "hiểu" các giá trị và kỳ vọng của con người và ưu tiên chúng khi hành động. Mặt khác, một hệ thống không cân xứng có thể thực hiện những hành động mà nó biết rõ là không phù hợp với tầm nhìn của người tạo ra chúng.
Đây là tình huống thường xuất hiện nhất trong tiểu thuyết. Ví dụ, nếu HAL 9000 cố gắng tiêu diệt phi hành đoàn trong 2001: A Space Odyssey, thì đó là vì hắn coi sự thành công của nhiệm vụ quan trọng hơn mạng sống con người. Tương tự như Skynet trong loạt phim Terminator: mặc dù ban đầu nó được thiết kế để bảo vệ loài người, nhưng cuối cùng nó lại kết luận rằng nó là mối đe dọa cần phải bị tiêu diệt bằng mọi giá.

Để tránh tình huống này, DeepMind đưa ra giải pháp đầu tiên thú vị: để các AGI hoạt động theo cặp. Thay vì tiến hóa một mình, chúng sẽ liên tục được giám sát bởi một bản sao giống hệt nhau, do đó làm giảm nguy cơ trôi dạt. Nhưng các tác giả của bài báo thừa nhận rằng cách tiếp cận này có lẽ không phải là hoàn hảo.
Do đó, họ khuyến nghị chạy các AGI trong tương lai trong “hộp cát ảo”. Thuật ngữ này đề cập đến không gian kỹ thuật số tách biệt với phần còn lại của hệ thống, hiện nay chủ yếu được sử dụng trong lĩnh vực an ninh mạng để thử nghiệm các chương trình nhạy cảm mà không gây nguy cơ xâm phạm phần còn lại của cơ sở hạ tầng. Về mặt lý thuyết, nếu có vấn đề phát sinh, chỉ cần vô hiệu hóa hộp cát này là đủ để tước đi khả năng gây hại của AGI. Tuy nhiên, người ta có thể tự hỏi liệu một hệ thống xảo quyệt như vậy có thể tìm ra cách thoát khỏi...
Khi AI mất kiểm soát
Thể loại thứ ba có tên là “Lỗi,” có vẻ khá giống với các vấn đề căn chỉnh. Nhưng điều này dựa trên một sự khác biệt quan trọng: ở đây, mô hình AI không nhận thức được hậu quả có hại của hành động của mình. Anh ta nghĩ mình đang làm điều đúng đắn trong khi thực tế anh ta hoàn toàn sai, giống như khi tính năng Tổng quan về AI của Google khuyến nghị mọi người bôi keo lên bánh pizza để phô mai tan chảy không bị trượt.Ví dụ này có thể buồn cười, nhưng bạn có thể dễ dàng tưởng tượng ra những tình huống mà những sai lầm như vậy (đôi khi được gọi là ảo giác) có thể gây ra hậu quả khủng khiếp. Ví dụ, hãy tưởng tượng một IAG chuyên về quân sự nghĩ rằng họ có thể phát hiện ra các dấu hiệu cảnh báo về một cuộc tấn công hạt nhân; Sau đó, nó có thể gây ra "sự trả đũa" hoàn toàn vô lý, dẫn đến sự hủy diệt hoàn toàn một phần của thế giới chỉ vì một lỗi đơn giản.
Tin xấu là không có cách tiếp cận tổng quát thực sự nào để hạn chế những lỗi này. Do đó, đối với các tác giả của bài báo, điều quan trọng là phải triển khai các AGI trong tương lai một cách dần dần, với các cuộc thử nghiệm nghiêm ngặt ở từng giai đoạn và trên hết là hạn chế khả năng hoạt động tự chủ của chúng.
Rủi ro về cấu trúc quy mô lớn
Loại cuối cùng, và có lẽ là loại thú vị nhất, tập hợp những gì DeepMind gọi là “rủi ro về cấu trúc”. Ở đây, vấn đề sẽ không phát sinh từ một hệ thống đơn lẻ bị cô lập, mà từ sự tương tác giữa một số hệ thống phức tạp được tích hợp ở các cấp độ khác nhau của xã hội chúng ta.Cùng nhau, các hệ thống tương tác này có thể “tích lũy quyền kiểm soát ngày càng tăng đối với các hệ thống kinh tế và chính trị của chúng ta”, đối với luồng thông tin, v.v. Nói cách khác, AGI cuối cùng sẽ kiểm soát toàn bộ xã hội của chúng ta, trong khi con người sẽ chỉ là những quân cờ hữu cơ vô nghĩa trên bàn cờ ảo rộng lớn. Một kịch bản phản địa đàng thực sự đáng sợ.
Các nhà nghiên cứu chỉ ra rằng loại rủi ro này có thể sẽ là loại rủi ro khó đối phó nhất, vì hậu quả tiềm tàng phụ thuộc trực tiếp vào cách con người, cơ sở hạ tầng và các tổ chức vận hành và tương tác.
Vào thời điểm này, không ai biết chính xác khi nào—hoặc thậm chí liệu—một AGI thực sự có thực sự xuất hiện hay không. Nhưng trong bối cảnh hiện tại, sẽ rất thiếu thận trọng nếu không xem xét nghiêm túc khả năng này. Do đó, sẽ rất thú vị khi xem liệu OpenAI và những công ty khác có dựa trên bài báo trừu tượng nhưng rất thú vị này để thực hiện công trình trong tương lai hay không.