Lượng dữ liệu mà Đài quan sát Vera C. Rubin, nơi đã công bố những hình ảnh đầu tiên tuyệt đẹp của mình vào tuần này, sẽ thu thập được, lớn hơn nhiều so với bất kỳ kính thiên văn nào trước đây. Điều này đã khiến các nhà thiên văn học phải bước vào điện toán đám mây — cũng như nhờ đến sự trợ giúp của bảy nhà môi giới và một quản gia dữ liệu.
Sau khi hoàn thành và đi vào hoạt động, Đài quan sát Rubin (do Quỹ Khoa học Quốc gia Hoa Kỳ - Bộ Năng lượng tài trợ) sẽ thu thập 20 terabyte dữ liệu mỗi đêm. Phân tích dữ liệu này, nó sẽ đưa ra 10 triệu cảnh báo cho các nhà thiên văn học, tất cả sẽ được quản lý bởi những người được gọi là "người môi giới" để lọc số lượng lớn cảnh báo thành thứ gì đó dễ quản lý hơn.
"Về mặt dữ liệu, chúng tôi lớn hơn ít nhất một cấp độ so với các kính thiên văn trước đây", nhà khoa học máy tính George Beckett của Đại học Edinburgh, hiện là Điều phối viên Cơ sở dữ liệu của Vương quốc Anh cho Rubin, nói với Space.com.
Trong 10 năm tới, Rubin Legacy Survey of Space and Time sẽ thu thập khoảng 500 petabyte dữ liệu, tương đương với nửa triệu đĩa Blu-ray 4K-UHD. Sau khi được kính thiên văn thu thập, dữ liệu sẽ được truyền qua một liên kết mạng chuyên dụng giữa Rubin, nằm ở Chile, và một trung tâm dữ liệu tại Phòng thí nghiệm Máy gia tốc Quốc gia SLAC ở California. Từ SLAC, một bản sao của tất cả dữ liệu thô sẽ được gửi đến cơ sở điện toán IN2P3 tại Lyon, Pháp và một số dữ liệu cũng sẽ được gửi đến mạng điện toán phân tán có trụ sở tại Vương quốc Anh.
Việc xử lý dữ liệu sẽ được chia sẻ giữa ba trung tâm dữ liệu này, trong đó SLAC đóng góp 35%, IN2P3 đảm nhận 40% và Vương quốc Anh 25%. (Ngoài ra còn có một trung tâm dữ liệu khiêm tốn ở Chile, nơi lưu trữ Đài quan sát Rubin, để hỗ trợ các nhà thiên văn học Chile.) Không chỉ nhiều trung tâm dữ liệu cung cấp khả năng dự phòng để dữ liệu không bị mất trong trường hợp tai nạn, mà chúng còn có thể hỗ trợ lẫn nhau nếu một trung tâm dữ liệu bị chậm xử lý. Đó là vì điều thực sự quan trọng đối với các nhà thiên văn học là đưa dữ liệu quan trọng ra ngoài một cách nhanh chóng, để họ có thể theo dõi các cảnh báo thú vị sớm nhất có thể.
"Thách thức lớn nhất của tôi là các nhà thiên văn học liên tục yêu cầu dữ liệu của họ!" Beckett nói đùa.
Lượng dữ liệu khổng lồ này sẽ là nguồn tài nguyên quý giá cho các nhà thiên văn học không chỉ ở đây và bây giờ mà còn trong nhiều thập kỷ tới.
Vậy, làm thế nào để tìm kiếm tất cả những dữ liệu đó?
Beckett đưa ra phép so sánh với việc tìm kiếm một bức ảnh chụp bằng điện thoại thông minh của bạn. "Điện thoại của bạn có thể chứa đầy những bức ảnh bạn đã chụp trong năm hoặc 10 năm qua và việc tìm một bức ảnh từ hai năm trước thường liên quan đến việc lướt qua và đó là cách tiếp cận từng phần", ông nói. "Bây giờ hãy tưởng tượng rằng điện thoại của bạn có 1,5 triệu bức ảnh và tất cả đều rộng 10.000 pixel, bạn không có cơ hội chỉ lướt qua chúng".
Đưa phép so sánh này trở lại với tập dữ liệu Rubin, Beckett cho biết giải pháp là cung cấp các mô tả dễ hiểu về tất cả những hình ảnh đó theo cách mà các nhà thiên văn học có thể tìm thấy những gì họ đang tìm kiếm một cách tương đối dễ dàng. Đó là một trong những lý do tại sao cách xử lý dữ liệu của Rubin lại khác so với các kính thiên văn trước đây, với cách này, các nhà thiên văn học có thể tải xuống các nhóm dữ liệu mà họ cần mà không quá phức tạp. Bộ dữ liệu của Rubin quá lớn để tải xuống — vì vậy, tất cả đều được lưu trữ trên "đám mây".
Bộ dữ liệu Rubin được quản lý bởi một dịch vụ có tên là Data Butler. Dịch vụ này ghi lại tất cả siêu dữ liệu, tức là dữ liệu về dữ liệu — thời gian, ngày tháng, tọa độ bầu trời, nội dung trong hình ảnh, v.v.
"Một nhà thiên văn học có thể đưa ra hầu như bất kỳ truy vấn nào họ muốn được viết bằng các thuật ngữ thiên văn học nói về các vật thể thiên văn, thang thời gian hoặc hệ tọa độ, và Data Butler sẽ lấy những gì họ cần", Beckett cho biết.
Đó là nghiên cứu dài hạn, nhưng cũng có những vật thể chuyển động, những thứ va chạm vào ban đêm khiến các nhà thiên văn học phải đuổi theo chúng trước khi những vật thể chuyển động biến mất. Những thứ này bao gồm siêu tân tinh, kilonova tạo ra sóng hấp dẫn, tân tinh, sao bùng phát, sao đôi che khuất, vụ nổ sao từ, tiểu hành tinh và sao chổi di chuyển trên bầu trời, sao quasar và nhiều thứ khác nữa, thậm chí có thể là những loại vật thể mới chưa từng thấy trước đây. Rubin sẽ tạo ra khoảng 10 triệu cảnh báo mỗi đêm, phát hành từng cảnh báo trong vòng hai phút sau khi kính viễn vọng phát hiện ra: Ngay cả với sự trợ giúp của Data Butler, làm sao các nhà thiên văn học có thể sàng lọc tất cả những cảnh báo đó để tìm ra những cảnh báo quan trọng nhất để theo dõi?
Có bảy nhà môi giới do các nhà khoa học ở các quốc gia khác nhau điều hành, sẽ xử lý toàn bộ 10 triệu cảnh báo (và hai nhà môi giới khác có mục tiêu khoa học cụ thể sẽ chỉ hoạt động trên một tập hợp con trong số 10 triệu cảnh báo hàng ngày). Ví dụ, có một công ty môi giới của Chile tên là ALeRCE, viết tắt của Automatic Learning for the Rapid Classification of Events, và ANTARES, Arizona–NOIRLab Temporal Analysis and Response to Events Systems. Nhà môi giới của Anh có tên là Lasair (phát âm là LAH-suhr, có nghĩa là 'ngọn lửa' hoặc 'tia chớp' trong tiếng Gaelic của Scotland và Ireland) và tập trung vào các hiện tượng thoáng qua.
Hãy nghĩ về các nhà môi giới như một tập hợp các bộ lọc mà các nhà thiên văn học có thể lựa chọn để giúp sàng lọc các cảnh báo và chọn ra những cảnh báo mà họ quan tâm nhất. Một số nhà môi giới sử dụng thuật toán học máy và trí tuệ nhân tạo, nhưng các phương pháp mô hình hóa truyền thống hơn cũng được sử dụng để xử lý dữ liệu nhanh chóng.
"Các nhà thiên văn học có thể đăng ký với một nhà môi giới, mô tả loại điều họ quan tâm và hy vọng rằng với các mô tả phù hợp, 10 triệu cảnh báo mỗi đêm sẽ được lọc xuống còn có thể là hai hoặc ba cảnh báo", Beckett cho biết.
Không phải là 9.999.998 cảnh báo khác không có giá trị — có thể chúng không phải là thứ mà nhà thiên văn học quan tâm hoặc có lẽ chúng không đủ độc đáo để đòi hỏi phải theo dõi chuyên sâu, nhưng chúng bổ sung vào số liệu thống kê cho từng loại object.
CÂU CHUYỆN LIÊN QUAN
— Đài quan sát Vera C Rubin tiết lộ những hình ảnh tuyệt đẹp đầu tiên về vũ trụ. Các nhà khoa học 'vô cùng phấn khích về những gì sắp diễn ra'
— Đài quan sát Rubin đã tìm thấy 2.104 tiểu hành tinh chỉ trong vài ngày. Họ có thể sớm tìm thấy hàng triệu tiểu hành tinh nữa
— Đài quan sát Vera Rubin phóng to vào không gian sâu thẳm | Ảnh không gian trong ngày 24 tháng 6 năm 2025
Rubin sẽ khảo sát một phần tư bầu trời Nam Bán cầu mỗi đêm, nhìn thấy mọi thứ và không bỏ sót điều gì. Người ta có thể nghĩ rằng đây là cuộc khảo sát chấm dứt mọi cuộc khảo sát, rằng sẽ không bao giờ có một cuộc khảo sát nào lớn hơn có thể tạo ra nhiều dữ liệu hơn. Tuy nhiên, Beckett cũng làm việc trong nhóm quản lý dữ liệu cho Square Kilometre Array (SKA), một mảng kính viễn vọng vô tuyến khổng lồ ở Nam Phi và Úc, và các kỹ thuật được phát triển cho Rubin cùng những bài học kinh nghiệm sẽ được sử dụng để giúp việc xử lý dữ liệu cho SKA diễn ra suôn sẻ hơn rất nhiều.
"Quy mô tập dữ liệu của Rubin sẽ bị SKA lấn át, vốn sẽ lớn hơn Rubin gấp một bậc", Beckett cho biết.
Luôn có một con cá lớn hơn!
Sau khi hoàn thành và đi vào hoạt động, Đài quan sát Rubin (do Quỹ Khoa học Quốc gia Hoa Kỳ - Bộ Năng lượng tài trợ) sẽ thu thập 20 terabyte dữ liệu mỗi đêm. Phân tích dữ liệu này, nó sẽ đưa ra 10 triệu cảnh báo cho các nhà thiên văn học, tất cả sẽ được quản lý bởi những người được gọi là "người môi giới" để lọc số lượng lớn cảnh báo thành thứ gì đó dễ quản lý hơn.
"Về mặt dữ liệu, chúng tôi lớn hơn ít nhất một cấp độ so với các kính thiên văn trước đây", nhà khoa học máy tính George Beckett của Đại học Edinburgh, hiện là Điều phối viên Cơ sở dữ liệu của Vương quốc Anh cho Rubin, nói với Space.com.
Trong 10 năm tới, Rubin Legacy Survey of Space and Time sẽ thu thập khoảng 500 petabyte dữ liệu, tương đương với nửa triệu đĩa Blu-ray 4K-UHD. Sau khi được kính thiên văn thu thập, dữ liệu sẽ được truyền qua một liên kết mạng chuyên dụng giữa Rubin, nằm ở Chile, và một trung tâm dữ liệu tại Phòng thí nghiệm Máy gia tốc Quốc gia SLAC ở California. Từ SLAC, một bản sao của tất cả dữ liệu thô sẽ được gửi đến cơ sở điện toán IN2P3 tại Lyon, Pháp và một số dữ liệu cũng sẽ được gửi đến mạng điện toán phân tán có trụ sở tại Vương quốc Anh.
Việc xử lý dữ liệu sẽ được chia sẻ giữa ba trung tâm dữ liệu này, trong đó SLAC đóng góp 35%, IN2P3 đảm nhận 40% và Vương quốc Anh 25%. (Ngoài ra còn có một trung tâm dữ liệu khiêm tốn ở Chile, nơi lưu trữ Đài quan sát Rubin, để hỗ trợ các nhà thiên văn học Chile.) Không chỉ nhiều trung tâm dữ liệu cung cấp khả năng dự phòng để dữ liệu không bị mất trong trường hợp tai nạn, mà chúng còn có thể hỗ trợ lẫn nhau nếu một trung tâm dữ liệu bị chậm xử lý. Đó là vì điều thực sự quan trọng đối với các nhà thiên văn học là đưa dữ liệu quan trọng ra ngoài một cách nhanh chóng, để họ có thể theo dõi các cảnh báo thú vị sớm nhất có thể.
"Thách thức lớn nhất của tôi là các nhà thiên văn học liên tục yêu cầu dữ liệu của họ!" Beckett nói đùa.
Lượng dữ liệu khổng lồ này sẽ là nguồn tài nguyên quý giá cho các nhà thiên văn học không chỉ ở đây và bây giờ mà còn trong nhiều thập kỷ tới.
Vậy, làm thế nào để tìm kiếm tất cả những dữ liệu đó?
Beckett đưa ra phép so sánh với việc tìm kiếm một bức ảnh chụp bằng điện thoại thông minh của bạn. "Điện thoại của bạn có thể chứa đầy những bức ảnh bạn đã chụp trong năm hoặc 10 năm qua và việc tìm một bức ảnh từ hai năm trước thường liên quan đến việc lướt qua và đó là cách tiếp cận từng phần", ông nói. "Bây giờ hãy tưởng tượng rằng điện thoại của bạn có 1,5 triệu bức ảnh và tất cả đều rộng 10.000 pixel, bạn không có cơ hội chỉ lướt qua chúng".
Đưa phép so sánh này trở lại với tập dữ liệu Rubin, Beckett cho biết giải pháp là cung cấp các mô tả dễ hiểu về tất cả những hình ảnh đó theo cách mà các nhà thiên văn học có thể tìm thấy những gì họ đang tìm kiếm một cách tương đối dễ dàng. Đó là một trong những lý do tại sao cách xử lý dữ liệu của Rubin lại khác so với các kính thiên văn trước đây, với cách này, các nhà thiên văn học có thể tải xuống các nhóm dữ liệu mà họ cần mà không quá phức tạp. Bộ dữ liệu của Rubin quá lớn để tải xuống — vì vậy, tất cả đều được lưu trữ trên "đám mây".
Bộ dữ liệu Rubin được quản lý bởi một dịch vụ có tên là Data Butler. Dịch vụ này ghi lại tất cả siêu dữ liệu, tức là dữ liệu về dữ liệu — thời gian, ngày tháng, tọa độ bầu trời, nội dung trong hình ảnh, v.v.
"Một nhà thiên văn học có thể đưa ra hầu như bất kỳ truy vấn nào họ muốn được viết bằng các thuật ngữ thiên văn học nói về các vật thể thiên văn, thang thời gian hoặc hệ tọa độ, và Data Butler sẽ lấy những gì họ cần", Beckett cho biết.
Đó là nghiên cứu dài hạn, nhưng cũng có những vật thể chuyển động, những thứ va chạm vào ban đêm khiến các nhà thiên văn học phải đuổi theo chúng trước khi những vật thể chuyển động biến mất. Những thứ này bao gồm siêu tân tinh, kilonova tạo ra sóng hấp dẫn, tân tinh, sao bùng phát, sao đôi che khuất, vụ nổ sao từ, tiểu hành tinh và sao chổi di chuyển trên bầu trời, sao quasar và nhiều thứ khác nữa, thậm chí có thể là những loại vật thể mới chưa từng thấy trước đây. Rubin sẽ tạo ra khoảng 10 triệu cảnh báo mỗi đêm, phát hành từng cảnh báo trong vòng hai phút sau khi kính viễn vọng phát hiện ra: Ngay cả với sự trợ giúp của Data Butler, làm sao các nhà thiên văn học có thể sàng lọc tất cả những cảnh báo đó để tìm ra những cảnh báo quan trọng nhất để theo dõi?

Có bảy nhà môi giới do các nhà khoa học ở các quốc gia khác nhau điều hành, sẽ xử lý toàn bộ 10 triệu cảnh báo (và hai nhà môi giới khác có mục tiêu khoa học cụ thể sẽ chỉ hoạt động trên một tập hợp con trong số 10 triệu cảnh báo hàng ngày). Ví dụ, có một công ty môi giới của Chile tên là ALeRCE, viết tắt của Automatic Learning for the Rapid Classification of Events, và ANTARES, Arizona–NOIRLab Temporal Analysis and Response to Events Systems. Nhà môi giới của Anh có tên là Lasair (phát âm là LAH-suhr, có nghĩa là 'ngọn lửa' hoặc 'tia chớp' trong tiếng Gaelic của Scotland và Ireland) và tập trung vào các hiện tượng thoáng qua.
Hãy nghĩ về các nhà môi giới như một tập hợp các bộ lọc mà các nhà thiên văn học có thể lựa chọn để giúp sàng lọc các cảnh báo và chọn ra những cảnh báo mà họ quan tâm nhất. Một số nhà môi giới sử dụng thuật toán học máy và trí tuệ nhân tạo, nhưng các phương pháp mô hình hóa truyền thống hơn cũng được sử dụng để xử lý dữ liệu nhanh chóng.
"Các nhà thiên văn học có thể đăng ký với một nhà môi giới, mô tả loại điều họ quan tâm và hy vọng rằng với các mô tả phù hợp, 10 triệu cảnh báo mỗi đêm sẽ được lọc xuống còn có thể là hai hoặc ba cảnh báo", Beckett cho biết.
Không phải là 9.999.998 cảnh báo khác không có giá trị — có thể chúng không phải là thứ mà nhà thiên văn học quan tâm hoặc có lẽ chúng không đủ độc đáo để đòi hỏi phải theo dõi chuyên sâu, nhưng chúng bổ sung vào số liệu thống kê cho từng loại object.
CÂU CHUYỆN LIÊN QUAN
— Đài quan sát Vera C Rubin tiết lộ những hình ảnh tuyệt đẹp đầu tiên về vũ trụ. Các nhà khoa học 'vô cùng phấn khích về những gì sắp diễn ra'
— Đài quan sát Rubin đã tìm thấy 2.104 tiểu hành tinh chỉ trong vài ngày. Họ có thể sớm tìm thấy hàng triệu tiểu hành tinh nữa
— Đài quan sát Vera Rubin phóng to vào không gian sâu thẳm | Ảnh không gian trong ngày 24 tháng 6 năm 2025
Rubin sẽ khảo sát một phần tư bầu trời Nam Bán cầu mỗi đêm, nhìn thấy mọi thứ và không bỏ sót điều gì. Người ta có thể nghĩ rằng đây là cuộc khảo sát chấm dứt mọi cuộc khảo sát, rằng sẽ không bao giờ có một cuộc khảo sát nào lớn hơn có thể tạo ra nhiều dữ liệu hơn. Tuy nhiên, Beckett cũng làm việc trong nhóm quản lý dữ liệu cho Square Kilometre Array (SKA), một mảng kính viễn vọng vô tuyến khổng lồ ở Nam Phi và Úc, và các kỹ thuật được phát triển cho Rubin cùng những bài học kinh nghiệm sẽ được sử dụng để giúp việc xử lý dữ liệu cho SKA diễn ra suôn sẻ hơn rất nhiều.
"Quy mô tập dữ liệu của Rubin sẽ bị SKA lấn át, vốn sẽ lớn hơn Rubin gấp một bậc", Beckett cho biết.
Luôn có một con cá lớn hơn!