Quét sách để đào tạo AI: theo phán quyết chưa từng có của tòa án, đây là hành động hợp pháp tại Hoa Kỳ

theanh

Administrator
Nhân viên
Đây là một phán quyết chưa từng có tiền lệ, chỉ giải quyết được một phần vấn đề gai góc về việc sử dụng các tác phẩm được bảo vệ bản quyền để đào tạo các hệ thống trí tuệ nhân tạo (AI). Vào tháng 6 năm 2024, ba nhà văn ở Hoa Kỳ đã kiện Anthropic, công ty phát triển Claude, một trong những đối thủ cạnh tranh của ChatGPT, vì vi phạm bản quyền. Vào thứ Hai, ngày 23 tháng 6, công ty khởi nghiệp của Mỹ đã giành chiến thắng trong vòng đầu tiên, mặc dù vẫn còn lâu mới giành chiến thắng trong cuộc chiến này.

Kể từ khi ChatGPT ra mắt vào tháng 11 năm 2022, đánh dấu sự khởi đầu của làn sóng AI tạo sinh, các công ty AI đã tin rằng họ có quyền sử dụng mọi dữ liệu có thể có trên web để đào tạo mô hình ngôn ngữ của mình, theo "sử dụng hợp lý" tại Hoa Kỳ - một ngoại lệ đối với bản quyền - hoặc quyền khai thác dữ liệu ở Châu Âu. Về phần mình, các nhà văn và nhà xuất bản tin rằng đây là hành vi vi phạm bản quyền của họ - và là hành vi "cướp bóc" nội dung của họ. Hành động pháp lý đang được tiến hành để giải quyết vấn đề này và phán quyết của tòa án California là lần đầu tiên liên quan đến vấn đề này.

Trong trường hợp này, Anthropic bị cáo buộc đã mua hợp pháp sách vật lý sau đó số hóa vào cơ sở dữ liệu đào tạo của chatbot Claude. Tuy nhiên, công ty khởi nghiệp này đã không yêu cầu tác giả và chủ sở hữu bản quyền của các tác phẩm này cho phép quét và đào tạo chúng, khiến những người sau này rất thất vọng và đã kiện công ty vì vi phạm bản quyền.

Thẩm phán phụ trách vụ án người California, William Alsup, lần đầu tiên phát hiện ra rằng việc đào tạo các mô hình AI của mình trên các cuốn sách được mua hợp pháp, mà không có sự cho phép của tác giả hoặc chủ sở hữu bản quyền của họ, cấu thành "sử dụng hợp lý", một ngoại lệ đối với luật bản quyền trong luật pháp Hoa Kỳ.

Theo thẩm phán, việc đào tạo AI tương tự như học viết​

Nói cách khác, Anthropic đã có toàn quyền mua và số hóa những cuốn sách này với mục đích đào tạo mô hình AI Claude của mình, mà không cần sự đồng ý của tác giả. Không có "sự trùng lặp" nào đối với từng tác phẩm vì Anthropic, sau khi mua và số hóa những cuốn sách này, đã tiêu hủy các tác phẩm vật lý, thẩm phán California giải thích. Do đó, các công ty khởi nghiệp AI có quyền quét các cuốn sách đã mua để đào tạo LLM của họ tại Hoa Kỳ, theo quyết định này.

Đối với Thẩm phán William Alsup, một thẩm phán nổi tiếng khắp Đại Tây Dương là chuyên gia về các chủ đề liên quan đến công nghệ mới, việc sử dụng này tương tự như việc cho phép "trẻ em học cách viết tốt." Trong trường hợp như vậy, các tác giả của những cuốn sách được sử dụng không thể phàn nàn về "sự bùng nổ của các tác phẩm cạnh tranh" vì trẻ em học viết nhờ những tác phẩm này. Đối với thẩm phán California, luật bản quyền không nhằm mục đích "bảo vệ tác giả khỏi sự cạnh tranh".

Lý luận áp dụng cho AI như sau: một con người học đọc và viết, rồi xuất bản một cuốn sách nhiều năm sau đó, không vi phạm bất kỳ luật bản quyền nào - và AI cũng sẽ làm như vậy ở đây, theo thẩm phán.

Anthropic hoan nghênh quyết định này, ước tính trong các cột của Register rằng "phù hợp với mục tiêu của bản quyền, đó là thúc đẩy sự sáng tạo và khuyến khích tiến bộ khoa học, các LLM của Anthropic được đào tạo về các tác phẩm không phải để sao chép hoặc thay thế chúng, mà là để thực hiện một bước ngoặt khó khăn và tạo ra một cái gì đó khác biệt".

Phạm vi giới hạn ở sách vật lý​

Phạm vi của quyết định này, mặc dù chưa từng có tiền lệ, tuy nhiên cần phải được xem xét một cách thấu đáo. Phán quyết chỉ giới hạn ở những cuốn sách vật lý được mua hợp pháp – việc sử dụng sách lậu cho mục đích đào tạo không nằm trong ngoại lệ này đối với bản quyền.

Và đây là một điểm được Thẩm phán William Alsup nhắc lại, người dường như phán quyết có lợi cho tác giả và chủ sở hữu bản quyền về vấn đề này. Thẩm phán nhớ lại rằng vào năm 2021, người đồng sáng lập Anthropic là Ben Mann đã "tải xuống Books3, một thư viện trực tuyến gồm 196.640 cuốn sách mà ông biết là đã được tập hợp từ các bản sao trái phép của những cuốn sách có bản quyền, tức là sách lậu". Cùng năm đó, công ty này đã tải xuống "ít nhất năm triệu bản sách" từ Libgen, và vào năm 2022, thêm hai triệu bản nữa được tải xuống từ PiLiMi.

Tuy nhiên, thẩm phán California cho rằng quyết định lưu trữ bảy triệu bản sách lậu trên máy chủ của Anthropic - ngay cả khi không phải tất cả các bản sao này đều được sử dụng cho khóa học LLM - sẽ không được coi là "sử dụng hợp lý". Hiểu rằng: việc sử dụng sách lậu cho mục đích đào tạo AI sẽ vi phạm bản quyền theo nguyên tắc.

Vấn đề sử dụng sách lậu trên Web cũng sẽ được quyết định trong một phán quyết riêng, thẩm phán người Mỹ giải thích, mà không nêu ngày cụ thể. Trên thực tế, Anthropic có thể phải bồi thường hàng triệu đô la tiền thiệt hại – mức phạt thấp nhất được đưa ra cho loại vi phạm này là 750 đô la cho mỗi cuốn sách, theo Wired, Thứ Ba, ngày 24 tháng 6. Với mức bồi thường là 7 triệu bảng Anh, số tiền này có thể còn lớn hơn nhiều.

Nguồn: Phán quyết vào Thứ Hai, ngày 23 tháng 6 năm 2025, từ Tòa án Quận thuộc Quận phía Bắc California (Hoa Kỳ)
 
Back
Bên trên