Wikimedia, tổ chức phi lợi nhuận lưu trữ và hỗ trợ Wikipedia đang phải vật lộn với các bot thu thập dữ liệu từ các công ty AI. Những giải pháp này tiêu tốn rất nhiều nguồn lực và gây áp lực lên cơ sở hạ tầng của tổ chức. Trên thực tế, kể từ đầu năm, hoạt động đã tăng 50% băng thông được sử dụng để tải xuống nội dung đa phương tiện.
Về mặt kỹ thuật, cơ sở dữ liệu tận dụng Snapshot Structured Contents API, cung cấp dữ liệu ở định dạng JSON mà máy có thể đọc được. Điều này cho phép các nhà phát triển và nhà nghiên cứu làm việc trực tiếp với các bài viết được phân đoạn tốt, bao gồm tóm tắt, mô tả ngắn, dữ liệu có cấu trúc như hộp thông tin, liên kết đến hình ảnh cũng như các phần bài viết được định nghĩa rõ ràng (không bao gồm tài liệu tham khảo hoặc các thành phần không phải văn bản).
Dữ liệu này được xuất bản theo giấy phép miễn phí, một số trường hợp thuộc phạm vi công cộng hoặc giấy phép thay thế. Chúng được lưu trữ trên Kaggle, nền tảng tham chiếu thuộc sở hữu của Google. máy học đích đến cộng đồng. Wikimedia đã hợp tác với Google để chia sẻ nội dung của mình. Do đó, sáng kiến mới này là sự tiếp nối hợp lý của sáng kiến này.
Nguồn: Wikimedia
Thay vì chịu đựng, Wikipedia chọn phục vụ
Để giải tỏa gánh nặng cho máy chủ, Wikimedia hiện cung cấp cơ sở dữ liệu các bài viết trên Wikipedia bằng tiếng Anh và tiếng Pháp. Cơ sở dữ liệu có cấu trúc này được thiết kế riêng cho mục đích sử dụng máy học: nó tạo điều kiện truy cập vào các bài viết đã được xử lý có thể sử dụng ngay cho các tác vụ như lập mô hình, tinh chỉnh, căn chỉnh hoặc thậm chí là phân tích.Về mặt kỹ thuật, cơ sở dữ liệu tận dụng Snapshot Structured Contents API, cung cấp dữ liệu ở định dạng JSON mà máy có thể đọc được. Điều này cho phép các nhà phát triển và nhà nghiên cứu làm việc trực tiếp với các bài viết được phân đoạn tốt, bao gồm tóm tắt, mô tả ngắn, dữ liệu có cấu trúc như hộp thông tin, liên kết đến hình ảnh cũng như các phần bài viết được định nghĩa rõ ràng (không bao gồm tài liệu tham khảo hoặc các thành phần không phải văn bản).
Dữ liệu này được xuất bản theo giấy phép miễn phí, một số trường hợp thuộc phạm vi công cộng hoặc giấy phép thay thế. Chúng được lưu trữ trên Kaggle, nền tảng tham chiếu thuộc sở hữu của Google. máy học đích đến cộng đồng. Wikimedia đã hợp tác với Google để chia sẻ nội dung của mình. Do đó, sáng kiến mới này là sự tiếp nối hợp lý của sáng kiến này.
Nguồn: Wikimedia