Meta muốn mang lại sự hiểu biết thông thường cho máy móc

theanh

Administrator
Nhân viên
Tại Meta, trí tuệ nhân tạo không còn chỉ dừng lại ở việc viết thơ hay sắp xếp hình ảnh. Với V-JEPA 2, nhóm muốn tiến xa hơn nữa: giúp máy móc hiểu thế giới như chúng ta vẫn làm hằng ngày, bằng cách quan sát. Phiên bản mới của mô hình V-JEPA này có khả năng dự đoán những gì sẽ xảy ra trong một cảnh, dự đoán chuyển động hoặc thậm chí là lập kế hoạch hành động trong một môi trường chưa biết—giống như một con rô-bốt có thể đoán được rằng một quả trứng luộc trong chảo sẽ được cho vào đĩa.

Một AI học như trẻ con (hoặc gần như vậy)​

Tham vọng của Meta là phát triển cái mà công ty gọi là "mô hình thế giới", tức là AI có khả năng mô phỏng tinh thần hậu quả của một hành động trước khi thực hiện. "Chúng tôi tin rằng những mô hình này sẽ mở ra một kỷ nguyên mới cho các tác nhân rô-bốt, có khả năng tương tác trong thế giới thực mà không cần lượng lớn dữ liệu đào tạo", Yann LeCun, giám đốc khoa học AI của Meta giải thích. Để có được dạng hiểu biết thông thường này, V-JEPA 2 đã được đào tạo trên quy mô rất lớn: hơn một triệu giờ video, không có bình luận hoặc chú thích của con người, đã được sử dụng để đào tạo cấp độ hiểu biết đầu tiên của nó. Mô hình này dựa trên một kiến trúc gọi là JEPA, tách biệt việc mã hóa một tình huống (thông qua video) khỏi việc dự đoán những gì sẽ xảy ra tiếp theo. Hệ thống này học cách dự đoán một hành động trước khi nó diễn ra—ví dụ, trong tập dữ liệu Epic-Kitchens, nó có thể đoán được một người sẽ làm gì một giây sau đó trong bếp của họ. Thậm chí còn tốt hơn: khi đã căn chỉnh với một mô hình ngôn ngữ, V-JEPA 2 sẽ vượt trội trong các nhiệm vụ như trả lời các câu hỏi từ video.

Nhưng đặc biệt trong lĩnh vực robot, mô hình cho thấy kết quả cụ thể. Sau giai đoạn đào tạo thứ hai chỉ với 62 giờ dữ liệu từ các robot đang hoạt động, V-JEPA 2 có thể lập kế hoạch cho các cử chỉ đơn giản: cầm một vật thể, di chuyển nó, đặt nó ở một vị trí khác — ngay cả khi vật thể hoặc vị trí đó chưa từng được nhìn thấy trong quá trình đào tạo.

Một trong những khía cạnh thú vị nhất là robot không cần phải được đào tạo trong môi trường cuối cùng của nó. Nhờ có một tập dữ liệu được chuẩn hóa, Meta có thể trực tiếp chuyển mô hình của mình sang các robot của riêng nó trong phòng thí nghiệm mà không cần điều chỉnh cụ thể. Nó chỉ cần quan sát bối cảnh hiện tại và biết mục tiêu trực quan cần đạt được (ví dụ: hình ảnh của một vật thể được đặt ở một vị trí nhất định) để hình dung các tình huống và chọn hành động hứa hẹn nhất.

Meta tuyên bố tỷ lệ thành công từ 65 đến 80% đối với các nhiệm vụ kiểu "nhặt và đặt" này, ngay cả trong môi trường không xác định. V-JEPA 2 cũng được cho là nhanh hơn 30 lần so với mô hình Cosmos của Nvidia, theo tiêu chí của Meta.
 
Back
Bên trên