Cách cài đặt Apache Spark Cluster Computing Framework trên Debian 10

theanh

Administrator
Nhân viên
Apache Spark là một khuôn khổ điện toán cụm mã nguồn mở và miễn phí được sử dụng để phân tích, học máy và xử lý đồ thị trên khối lượng dữ liệu lớn. Spark đi kèm với hơn 80 toán tử cấp cao cho phép bạn xây dựng các ứng dụng song song và sử dụng chúng một cách tương tác từ các shell Scala, Python, R và SQL. Đây là một công cụ xử lý dữ liệu trong bộ nhớ cực nhanh được thiết kế đặc biệt cho khoa học dữ liệu. Nó cung cấp một bộ tính năng phong phú bao gồm Tốc độ, Khả năng chịu lỗi, Xử lý luồng thời gian thực, Điện toán trong bộ nhớ, Phân tích nâng cao và nhiều tính năng khác.

Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt Apache Spark trên máy chủ Debian 10.

Điều kiện tiên quyết​

  • Máy chủ chạy Debian 10 với 2 GB RAM.
  • Mật khẩu gốc được cấu hình trên máy chủ của bạn.

Bắt đầu​

Trước khi bắt đầu, bạn nên cập nhật máy chủ của mình lên phiên bản mới nhất. Bạn có thể cập nhật bằng lệnh sau:
Mã:
apt-get update -y
 apt-get upgrade -y
Sau khi máy chủ của bạn được cập nhật, hãy khởi động lại để triển khai các thay đổi.

Cài đặt Java​

Apache Spark được viết bằng ngôn ngữ Java. Vì vậy, bạn sẽ cần cài đặt Java trong hệ thống của mình. Theo mặc định, phiên bản Java mới nhất có sẵn trong kho lưu trữ mặc định của Debian 10. Bạn có thể cài đặt bằng lệnh sau:
Mã:
apt-get install default-jdk -y
Sau khi cài đặt Java, hãy xác minh phiên bản Java đã cài đặt bằng lệnh sau:
Mã:
java --version
Bạn sẽ nhận được kết quả sau:
Mã:
openjdk 11.0.5 2019-10-15Môi trường chạy thời gian OpenJDK (bản dựng 11.0.5+10-post-Debian-1deb10u1)Máy ảo máy chủ OpenJDK 64-Bit (bản dựng 11.0.5+10-post-Debian-1deb10u1, chế độ hỗn hợp, chia sẻ)

Tải xuống Apache Spark​

Trước tiên, bạn sẽ cần tải xuống phiên bản mới nhất của Apache Spark từ trang web chính thức của nó. Tại thời điểm viết bài viết này, phiên bản mới nhất của Apache Spark là 3.0. Bạn có thể tải xuống thư mục /opt bằng lệnh sau:
Mã:
cd /opt
 wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
Sau khi tải xuống hoàn tất, hãy giải nén tệp đã tải xuống bằng lệnh sau:
Mã:
tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz
Tiếp theo, đổi tên thư mục đã giải nén thành spark như hiển thị bên dưới:
Mã:
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
Tiếp theo, bạn sẽ cần thiết lập môi trường cho Spark. Bạn có thể thực hiện bằng cách chỉnh sửa tệp ~/.bashrc:
Mã:
nano ~/.bashrc
Thêm các dòng sau vào cuối tệp:
Mã:
export SPARK_HOME=/opt/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Lưu và đóng tệp khi bạn hoàn tất. Sau đó, kích hoạt môi trường bằng lệnh sau:
Mã:
source ~/.bashrc

Khởi động Máy chủ chính​

Bây giờ bạn có thể khởi động máy chủ chính bằng lệnh sau:
Mã:
start-master.sh
Bạn sẽ nhận được kết quả sau:
Mã:
đang khởi động org.apache.spark.deploy.master.Master, ghi nhật ký vào /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out
Theo mặc định, Apache Spark đang lắng nghe trên cổng 8080. Bạn có thể xác minh bằng lệnh sau:
Mã:
netstat -ant | grep 8080
Đầu ra:
Mã:
tcp6 0 0 :::8080 :::* LISTEN
Bây giờ, hãy mở trình duyệt web của bạn và nhập URL http://server-ip-address:8080. Bạn sẽ thấy trang sau:



Vui lòng ghi lại URL Spark "spark://debian10:7077" từ hình ảnh trên. Lệnh này sẽ được sử dụng để bắt đầu quy trình Spark worker.

Bắt đầu quy trình Spark Worker​

Bây giờ, bạn có thể bắt đầu quy trình Spark worker bằng lệnh sau:
Mã:
start-slave.sh spark://debian10:7077
Bạn sẽ nhận được kết quả sau:
Mã:
starting org.apache.spark.deploy.worker.Worker, ghi vào /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

Access Spark Shell​

Spark Shell là một môi trường tương tác cung cấp một cách đơn giản để tìm hiểu API và phân tích dữ liệu một cách tương tác. Bạn có thể truy cập Spark shell bằng lệnh sau:
Mã:
spark-shell
Bạn sẽ thấy kết quả sau:
Mã:
CẢNH BÁO: Đã xảy ra hoạt động truy cập phản chiếu bất hợp phápCẢNH BÁO: Truy cập phản chiếu bất hợp pháp của org.apache.spark.unsafe.Platform (tệp:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) vào hàm tạo java.nio.DirectByteBuffer(long,int)CẢNH BÁO: Vui lòng cân nhắc báo cáo sự việc này cho người bảo trì org.apache.spark.unsafe.PlatformCẢNH BÁO: Sử dụng --illegal-access=warn để bật cảnh báo về các hoạt động truy cập phản chiếu bất hợp pháp tiếp theoCẢNH BÁO: Tất cả các hoạt động truy cập bất hợp pháp sẽ bị từ chối trong bản phát hành trong tương lai19/12/29 15:53:11 CẢNH BÁO NativeCodeLoader: Không thể tải thư viện native-hadoop cho nền tảng của bạn... sử dụng các lớp built-in-java khi có thểSử dụng cấu hình log4j mặc định của Spark: org/apache/spark/log4j-defaults.propertiesĐặt mức nhật ký mặc định thành "WARN".Để điều chỉnh mức ghi nhật ký, hãy sử dụng sc.setLogLevel(newLevel). Đối với SparkR, hãy sử dụng setLogLevel(newLevel).Giao diện người dùng web ngữ cảnh Spark có tại http://debian10:4040Ngữ cảnh Spark có sẵn dưới dạng 'sc' (master = local[*], app id = local-1577634806690).Phiên Spark có sẵn dưới dạng 'spark'.Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ phiên bản 3.0.0-preview2 /_/Sử dụng Scala phiên bản 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)Nhập biểu thức để đánh giá chúng.Nhập :help để biết thêm thông tin.scala>
Từ đây, bạn có thể tìm hiểu cách tận dụng tối đa Apache Spark một cách nhanh chóng và tiện lợi.

Nếu bạn muốn dừng Spark Master và Slave server, hãy chạy các lệnh sau:
Mã:
stop-slave.sh
 stop-master.sh
Vậy là xong, bạn đã cài đặt thành công Apache Spark trên server Debian 10. Để biết thêm thông tin, bạn có thể tham khảo tài liệu chính thức của Spark tại Spark Doc.
 
Back
Bên trên