Apache Spark là một nền tảng tính toán phân tán, miễn phí, mã nguồn mở, đa năng được tạo ra để cung cấp kết quả tính toán nhanh hơn. Nó hỗ trợ một số API để phát trực tuyến, xử lý đồ thị bao gồm Java, Python, Scala và R. Nhìn chung, Apache Spark có thể được sử dụng trong các cụm Hadoop, nhưng bạn cũng có thể cài đặt nó ở chế độ độc lập.
Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt khung Apache Spark trên Debian 11.
Sau khi Java được cài đặt, hãy xác minh phiên bản Java bằng lệnh sau:
Bạn sẽ nhận được kết quả sau:
Sau khi tải xuống hoàn tất, hãy giải nén tệp đã tải xuống bằng lệnh sau:
Tiếp theo, di chuyển thư mục đã giải nén đến /opt bằng lệnh sau:
Tiếp theo, chỉnh sửa tệp ~/.bashrc và thêm biến đường dẫn Spark:
Thêm các dòng sau:
Lưu và đóng tệp, sau đó kích hoạt biến môi trường Spark bằng lệnh sau:
Bạn sẽ nhận được kết quả sau:
Theo mặc định, Apache Spark lắng nghe trên cổng 8080. Bạn có thể xác minh bằng lệnh sau:
Bạn sẽ nhận được kết quả đầu ra sau:
Tiếp theo, hãy khởi động quy trình làm việc của Apache Spark bằng lệnh sau:
Nhấp vào id Worker. Bạn sẽ thấy thông tin chi tiết về Worker của mình trên màn hình sau:
Sau khi kết nối, bạn sẽ nhận được giao diện sau:
Nếu bạn muốn sử dụng Python trong Spark. Bạn có thể sử dụng tiện ích dòng lệnh pyspark.
Trước tiên, hãy cài đặt Python phiên bản 2 bằng lệnh sau:
Sau khi cài đặt, bạn có thể kết nối Spark bằng lệnh sau:
Sau khi kết nối, bạn sẽ nhận được kết quả sau:
Bạn sẽ nhận được kết quả sau:
Tiếp theo, dừng tiến trình master bằng lệnh sau:
Bạn sẽ nhận được kết quả sau:
Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt khung Apache Spark trên Debian 11.
Điều kiện tiên quyết
- Máy chủ chạy Debian 11.
- Mật khẩu gốc được cấu hình trên máy chủ.
Cài đặt Java
Apache Spark được viết bằng Java. Vì vậy, Java phải được cài đặt trong hệ thống của bạn. Nếu chưa cài đặt, bạn có thể cài đặt bằng lệnh sau:
Mã:
apt-get install default-jdk curl -y
Mã:
java --version
Mã:
openjdk 11.0.12 2021-07-20Môi trường chạy thời gian OpenJDK (bản dựng 11.0.12+7-post-Debian-2)Máy ảo máy chủ OpenJDK 64-Bit (bản dựng 11.0.12+7-post-Debian-2, chế độ hỗn hợp, chia sẻ)
Cài đặt Apache Spark
Tại thời điểm viết hướng dẫn này, phiên bản mới nhất của Apache Spark là 3.1.2. Bạn có thể tải xuống bằng lệnh sau:
Mã:
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
Mã:
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
Mã:
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
Mã:
nano ~/.bashrc
Mã:
export SPARK_HOME=/opt/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Mã:
source ~/.bashrc
Khởi động Apache Spark
Bây giờ bạn có thể chạy lệnh sau để khởi động dịch vụ Spark master:
Mã:
start-master.sh
Mã:
starting org.apache.spark.deploy.master.Master, ghi vào /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out
Mã:
ss -tunelp | grep 8080
Mã:
tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0
Mã:
start-slave.sh spark://your-server-ip:7077
Truy cập Giao diện người dùng web Apache Spark
Bây giờ bạn có thể truy cập giao diện người dùng web Apache Spark bằng URL . Bạn sẽ thấy dịch vụ chủ và dịch vụ phụ Apache Spark trên màn hình sau:Nhấp vào id Worker. Bạn sẽ thấy thông tin chi tiết về Worker của mình trên màn hình sau:
Kết nối Apache Spark qua Dòng lệnh
Nếu bạn muốn kết nối với Spark qua shell lệnh của nó, hãy chạy các lệnh bên dưới:
Mã:
spark-shell
Mã:
Phiên Spark có sẵn dưới dạng 'spark'.Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ phiên bản 3.1.2 /_/Sử dụng Scala phiên bản 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)Nhập biểu thức để đánh giá chúng.Nhập :help để biết thêm thông tin.scala>
Trước tiên, hãy cài đặt Python phiên bản 2 bằng lệnh sau:
Mã:
apt-get install python -y
Mã:
pyspark
Mã:
Để điều chỉnh mức ghi nhật ký, hãy sử dụng sc.setLogLevel(newLevel). Đối với SparkR, hãy sử dụng setLogLevel(newLevel).Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ phiên bản 3.1.2 /_/Sử dụng Python phiên bản 3.9.2 (mặc định, 28 tháng 2 năm 2021 17:03:44)Bối cảnh Spark Giao diện người dùng web có sẵn tại http://debian11:4040Bối cảnh Spark có sẵn dưới dạng 'sc' (master = local[*], app id = local-1633769632964).SparkSession có sẵn dưới dạng 'spark'.>>>
Dừng Master và Slave
Trước tiên, dừng tiến trình slave bằng lệnh sau:
Mã:
stop-slave.sh
Mã:
stopping org.apache.spark.deploy.worker.Worker
Mã:
stop-master.sh
Mã:
stopping org.apache.spark.deploy.master.Master