Cách cài đặt Apache Spark trên Debian 11

theanh · 16 Tháng tư 2025

Apache Spark là một nền tảng tính toán phân tán, miễn phí, mã nguồn mở, đa năng được tạo ra để cung cấp kết quả tính toán nhanh hơn. Nó hỗ trợ một số API để phát trực tuyến, xử lý đồ thị bao gồm Java, Python, Scala và R. Nhìn chung, Apache Spark có thể được sử dụng trong các cụm Hadoop, nhưng bạn cũng có thể cài đặt nó ở chế độ độc lập.

Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt khung Apache Spark trên Debian 11.

Điều kiện tiên quyết

Máy chủ chạy Debian 11.
Mật khẩu gốc được cấu hình trên máy chủ.

Cài đặt Java

Apache Spark được viết bằng Java. Vì vậy, Java phải được cài đặt trong hệ thống của bạn. Nếu chưa cài đặt, bạn có thể cài đặt bằng lệnh sau:

Mã:

apt-get install default-jdk curl -y

Sau khi Java được cài đặt, hãy xác minh phiên bản Java bằng lệnh sau:

Mã:

java --version

Bạn sẽ nhận được kết quả sau:

Mã:

openjdk 11.0.12 2021-07-20Môi trường chạy thời gian OpenJDK (bản dựng 11.0.12+7-post-Debian-2)Máy ảo máy chủ OpenJDK 64-Bit (bản dựng 11.0.12+7-post-Debian-2, chế độ hỗn hợp, chia sẻ)

Cài đặt Apache Spark

Tại thời điểm viết hướng dẫn này, phiên bản mới nhất của Apache Spark là 3.1.2. Bạn có thể tải xuống bằng lệnh sau:

Mã:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Sau khi tải xuống hoàn tất, hãy giải nén tệp đã tải xuống bằng lệnh sau:

Mã:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Tiếp theo, di chuyển thư mục đã giải nén đến /opt bằng lệnh sau:

Mã:

mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

Tiếp theo, chỉnh sửa tệp ~/.bashrc và thêm biến đường dẫn Spark:

Mã:

nano ~/.bashrc

Thêm các dòng sau:

Mã:

export SPARK_HOME=/opt/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Lưu và đóng tệp, sau đó kích hoạt biến môi trường Spark bằng lệnh sau:

Mã:

source ~/.bashrc

Khởi động Apache Spark

Bây giờ bạn có thể chạy lệnh sau để khởi động dịch vụ Spark master:

Mã:

start-master.sh

Bạn sẽ nhận được kết quả sau:

Mã:

starting org.apache.spark.deploy.master.Master, ghi vào /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out

Theo mặc định, Apache Spark lắng nghe trên cổng 8080. Bạn có thể xác minh bằng lệnh sau:

Mã:

ss -tunelp | grep 8080

Bạn sẽ nhận được kết quả đầu ra sau:

Mã:

tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0

Tiếp theo, hãy khởi động quy trình làm việc của Apache Spark bằng lệnh sau:

Mã:

start-slave.sh spark://your-server-ip:7077

Truy cập Giao diện người dùng web Apache Spark

Bây giờ bạn có thể truy cập giao diện người dùng web Apache Spark bằng URL
http://your-server-ip:8080
. Bạn sẽ thấy dịch vụ chủ và dịch vụ phụ Apache Spark trên màn hình sau:

Nhấp vào id Worker. Bạn sẽ thấy thông tin chi tiết về Worker của mình trên màn hình sau:

Kết nối Apache Spark qua Dòng lệnh

Nếu bạn muốn kết nối với Spark qua shell lệnh của nó, hãy chạy các lệnh bên dưới:

Mã:

spark-shell

Sau khi kết nối, bạn sẽ nhận được giao diện sau:

Mã:

Phiên Spark có sẵn dưới dạng 'spark'.Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ phiên bản 3.1.2 /_/Sử dụng Scala phiên bản 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)Nhập biểu thức để đánh giá chúng.Nhập :help để biết thêm thông tin.scala>

Nếu bạn muốn sử dụng Python trong Spark. Bạn có thể sử dụng tiện ích dòng lệnh pyspark.

Trước tiên, hãy cài đặt Python phiên bản 2 bằng lệnh sau:

Mã:

apt-get install python -y

Sau khi cài đặt, bạn có thể kết nối Spark bằng lệnh sau:

Mã:

pyspark

Sau khi kết nối, bạn sẽ nhận được kết quả sau:

Mã:

Để điều chỉnh mức ghi nhật ký, hãy sử dụng sc.setLogLevel(newLevel). Đối với SparkR, hãy sử dụng setLogLevel(newLevel).Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ phiên bản 3.1.2 /_/Sử dụng Python phiên bản 3.9.2 (mặc định, 28 tháng 2 năm 2021 17:03:44)Bối cảnh Spark Giao diện người dùng web có sẵn tại http://debian11:4040Bối cảnh Spark có sẵn dưới dạng 'sc' (master = local[*], app id = local-1633769632964).SparkSession có sẵn dưới dạng 'spark'.>>>

Dừng Master và Slave

Trước tiên, dừng tiến trình slave bằng lệnh sau:

Mã:

stop-slave.sh

Bạn sẽ nhận được kết quả sau:

Mã:

stopping org.apache.spark.deploy.worker.Worker

Tiếp theo, dừng tiến trình master bằng lệnh sau:

Mã:

stop-master.sh

Bạn sẽ nhận được kết quả sau:

Mã:

stopping org.apache.spark.deploy.master.Master

Kết luận

Xin chúc mừng! Bạn đã cài đặt thành công Apache Spark trên Debian 11. Bây giờ bạn có thể sử dụng Apache Spark trong tổ chức của mình để xử lý các tập dữ liệu lớn

Cách cài đặt Apache Spark trên Debian 11

theanh

Administrator

Điều kiện tiên quyết

Cài đặt Java

Cài đặt Apache Spark

Khởi động Apache Spark

Truy cập Giao diện người dùng web Apache Spark

Kết nối Apache Spark qua Dòng lệnh

Dừng Master và Slave

Kết luận

Chủ đề tương tự

Cách cài đặt Apache Spark trên Debian 11

theanh

Administrator

Điều kiện tiên quyết​

Cài đặt Java​

Cài đặt Apache Spark​

Khởi động Apache Spark​

Truy cập Giao diện người dùng web Apache Spark​

Kết nối Apache Spark qua Dòng lệnh​

Dừng Master và Slave​

Kết luận​

Chủ đề tương tự

Điều kiện tiên quyết

Cài đặt Java

Cài đặt Apache Spark

Khởi động Apache Spark

Truy cập Giao diện người dùng web Apache Spark

Kết nối Apache Spark qua Dòng lệnh

Dừng Master và Slave

Kết luận