Meta (Facebook, Instagram, WhatsApp) bị cáo buộc ăn cắp sách cho AI của mình tại Pháp

theanh

Administrator
Nhân viên
Sau Hoa Kỳ, Pháp: Meta, công ty mẹ của Facebook, WhatsApp và Instagram, đang bị kiện tại tòa án Paris vì vi phạm bản quyền và hoạt động ký sinh. Nhóm của Mark Zuckerberg bị cáo buộc đã tự ý mượn ý tưởng từ văn học Pháp mà không được phép để đào tạo mô hình AI tạo sinh Llama. Theo thông cáo báo chí được công bố vào thứ Tư, ngày 12 tháng 3, một số công đoàn sách đã đưa ra lời cáo buộc này, bao gồm Công đoàn Xuất bản Quốc gia (SNE), Công đoàn Tác giả và Nhạc sĩ Quốc gia (SNAC) và Hội Nhà văn (SGDL). Họ yêu cầu "xóa bỏ hoàn toàn" các "thư mục dữ liệu được tạo ra mà không được phép và được sử dụng để đào tạo AI". Theo các đồng nghiệp của chúng tôi tại Figaro, họ cũng yêu cầu các tác giả của các tác phẩm được sử dụng cho Llama phải nhận được khoản bồi thường tài chính. Mặc dù Meta là gã khổng lồ AI đầu tiên bị các nhà xuất bản và tác giả này tấn công tại Pháp, những công ty khác cũng có thể bị kiện vì những lý do tương tự. Vincent Montagne, chủ tịch của SNE, được trích dẫn trong thông cáo báo chí, cho biết: «Việc tạo ra một thị trường AI không thể đánh đổi bằng sự hy sinh của ngành văn hóa Trọng tâm của tranh chấp này một lần nữa lại là "Books3", một cơ sở dữ liệu gồm 170.000 cuốn sách lậu, được nhiều công ty trong lĩnh vực này sử dụng. Meta đã thừa nhận một năm trước đó tại Hoa Kỳ rằng đã sử dụng cơ sở dữ liệu này để đào tạo Llama, dựa vào một ngoại lệ về bản quyền ("sử dụng hợp lý") tại quốc gia này mà Pháp không có.

Books3, cơ sở dữ liệu trọng tâm của tranh chấp này là gì?​

Như chúng tôi đã giải thích trong bài viết này, Books3 đã được Shawn Presser, một nhà nghiên cứu vận động cho mã nguồn mở, đưa lên mạng vào năm 2020. Theo một trong những dòng tweet của ông được Torrent Freak chuyển tiếp, thì cơ sở dữ liệu này sẽ bao gồm gần 196.640 tài liệu tham khảo ở định dạng plain.txt.

Cơ sở dữ liệu này được cho là đã được Meta sử dụng để đào tạo LLaMA của mình về Large Language Model Meta AI, một mô hình nguồn mở được coi là giải pháp thay thế cho GPT của OpenAI, như chính công ty đã viết trong một bài báo nghiên cứu. Ứng dụng này cũng là trọng tâm của một thử nghiệm khác, được khởi xướng vào tháng 7 năm 2023 tại Hoa Kỳ, trong đó diễn viên hài người Mỹ Sarah Silverman và hai tác giả khác đấu với Meta và OpenAI.

Cơ sở dữ liệu này chứa những gì? Theo The Atlantic, nó bao gồm một số lượng lớn sách vi phạm bản quyền (gần 170.000 cuốn), phần lớn trong số đó được xuất bản trong 20 năm qua, cũng như các dữ liệu đáng ngạc nhiên khác như phụ đề video trên YouTube, tài liệu và bản ghi chép từ Nghị viện Châu Âu, Wikipedia tiếng Anh và email được gửi và nhận bởi các nhân viên của Tập đoàn Enron trước khi tập đoàn này sụp đổ vào năm 2001.
 
Back
Bên trên