Cách cài đặt Apache Spark trên Debian 11

theanh

Administrator
Nhân viên
Apache Spark là một nền tảng tính toán phân tán, miễn phí, mã nguồn mở, đa năng được tạo ra để cung cấp kết quả tính toán nhanh hơn. Nó hỗ trợ một số API để phát trực tuyến, xử lý đồ thị bao gồm Java, Python, Scala và R. Nhìn chung, Apache Spark có thể được sử dụng trong các cụm Hadoop, nhưng bạn cũng có thể cài đặt nó ở chế độ độc lập.

Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt khung Apache Spark trên Debian 11.

Điều kiện tiên quyết​

  • Máy chủ chạy Debian 11.
  • Mật khẩu gốc được cấu hình trên máy chủ.

Cài đặt Java​

Apache Spark được viết bằng Java. Vì vậy, Java phải được cài đặt trong hệ thống của bạn. Nếu chưa cài đặt, bạn có thể cài đặt bằng lệnh sau:
Mã:
apt-get install default-jdk curl -y
Sau khi Java được cài đặt, hãy xác minh phiên bản Java bằng lệnh sau:
Mã:
java --version
Bạn sẽ nhận được kết quả sau:
Mã:
openjdk 11.0.12 2021-07-20Môi trường chạy thời gian OpenJDK (bản dựng 11.0.12+7-post-Debian-2)Máy ảo máy chủ OpenJDK 64-Bit (bản dựng 11.0.12+7-post-Debian-2, chế độ hỗn hợp, chia sẻ)

Cài đặt Apache Spark​

Tại thời điểm viết hướng dẫn này, phiên bản mới nhất của Apache Spark là 3.1.2. Bạn có thể tải xuống bằng lệnh sau:
Mã:
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
Sau khi tải xuống hoàn tất, hãy giải nén tệp đã tải xuống bằng lệnh sau:
Mã:
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
Tiếp theo, di chuyển thư mục đã giải nén đến /opt bằng lệnh sau:
Mã:
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
Tiếp theo, chỉnh sửa tệp ~/.bashrc và thêm biến đường dẫn Spark:
Mã:
nano ~/.bashrc
Thêm các dòng sau:
Mã:
export SPARK_HOME=/opt/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Lưu và đóng tệp, sau đó kích hoạt biến môi trường Spark bằng lệnh sau:
Mã:
source ~/.bashrc

Khởi động Apache Spark​

Bây giờ bạn có thể chạy lệnh sau để khởi động dịch vụ Spark master:
Mã:
start-master.sh
Bạn sẽ nhận được kết quả sau:
Mã:
starting org.apache.spark.deploy.master.Master, ghi vào /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out
Theo mặc định, Apache Spark lắng nghe trên cổng 8080. Bạn có thể xác minh bằng lệnh sau:
Mã:
ss -tunelp | grep 8080
Bạn sẽ nhận được kết quả đầu ra sau:
Mã:
tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0
Tiếp theo, hãy khởi động quy trình làm việc của Apache Spark bằng lệnh sau:
Mã:
start-slave.sh spark://your-server-ip:7077

Truy cập Giao diện người dùng web Apache Spark​

Bây giờ bạn có thể truy cập giao diện người dùng web Apache Spark bằng URL . Bạn sẽ thấy dịch vụ chủ và dịch vụ phụ Apache Spark trên màn hình sau:



Nhấp vào id Worker. Bạn sẽ thấy thông tin chi tiết về Worker của mình trên màn hình sau:


Kết nối Apache Spark qua Dòng lệnh​

Nếu bạn muốn kết nối với Spark qua shell lệnh của nó, hãy chạy các lệnh bên dưới:
Mã:
spark-shell
Sau khi kết nối, bạn sẽ nhận được giao diện sau:
Mã:
Phiên Spark có sẵn dưới dạng 'spark'.Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ phiên bản 3.1.2 /_/Sử dụng Scala phiên bản 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)Nhập biểu thức để đánh giá chúng.Nhập :help để biết thêm thông tin.scala>
Nếu bạn muốn sử dụng Python trong Spark. Bạn có thể sử dụng tiện ích dòng lệnh pyspark.

Trước tiên, hãy cài đặt Python phiên bản 2 bằng lệnh sau:
Mã:
apt-get install python -y
Sau khi cài đặt, bạn có thể kết nối Spark bằng lệnh sau:
Mã:
pyspark
Sau khi kết nối, bạn sẽ nhận được kết quả sau:
Mã:
Để điều chỉnh mức ghi nhật ký, hãy sử dụng sc.setLogLevel(newLevel). Đối với SparkR, hãy sử dụng setLogLevel(newLevel).Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ phiên bản 3.1.2 /_/Sử dụng Python phiên bản 3.9.2 (mặc định, 28 tháng 2 năm 2021 17:03:44)Bối cảnh Spark Giao diện người dùng web có sẵn tại http://debian11:4040Bối cảnh Spark có sẵn dưới dạng 'sc' (master = local[*], app id = local-1633769632964).SparkSession có sẵn dưới dạng 'spark'.>>>

Dừng Master và Slave​

Trước tiên, dừng tiến trình slave bằng lệnh sau:
Mã:
stop-slave.sh
Bạn sẽ nhận được kết quả sau:
Mã:
stopping org.apache.spark.deploy.worker.Worker
Tiếp theo, dừng tiến trình master bằng lệnh sau:
Mã:
stop-master.sh
Bạn sẽ nhận được kết quả sau:
Mã:
stopping org.apache.spark.deploy.master.Master

Kết luận​

Xin chúc mừng! Bạn đã cài đặt thành công Apache Spark trên Debian 11. Bây giờ bạn có thể sử dụng Apache Spark trong tổ chức của mình để xử lý các tập dữ liệu lớn
 
Back
Bên trên