Apache Spark là một khuôn khổ điện toán cụm mã nguồn mở và miễn phí được sử dụng để phân tích, học máy và xử lý đồ thị trên khối lượng dữ liệu lớn. Spark đi kèm với hơn 80 toán tử cấp cao cho phép bạn xây dựng các ứng dụng song song và sử dụng chúng một cách tương tác từ các shell Scala, Python, R và SQL. Đây là một công cụ xử lý dữ liệu trong bộ nhớ cực nhanh được thiết kế đặc biệt cho khoa học dữ liệu. Nó cung cấp một bộ tính năng phong phú bao gồm Tốc độ, Khả năng chịu lỗi, Xử lý luồng thời gian thực, Điện toán trong bộ nhớ, Phân tích nâng cao và nhiều tính năng khác.
Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt Apache Spark trên máy chủ Debian 10.
Sau khi máy chủ của bạn được cập nhật, hãy khởi động lại để triển khai các thay đổi.
Sau khi cài đặt Java, hãy xác minh phiên bản Java đã cài đặt bằng lệnh sau:
Bạn sẽ nhận được kết quả sau:
Sau khi tải xuống hoàn tất, hãy giải nén tệp đã tải xuống bằng lệnh sau:
Tiếp theo, đổi tên thư mục đã giải nén thành spark như hiển thị bên dưới:
Tiếp theo, bạn sẽ cần thiết lập môi trường cho Spark. Bạn có thể thực hiện bằng cách chỉnh sửa tệp ~/.bashrc:
Thêm các dòng sau vào cuối tệp:
Lưu và đóng tệp khi bạn hoàn tất. Sau đó, kích hoạt môi trường bằng lệnh sau:
Bạn sẽ nhận được kết quả sau:
Theo mặc định, Apache Spark đang lắng nghe trên cổng 8080. Bạn có thể xác minh bằng lệnh sau:
Đầu ra:
Bây giờ, hãy mở trình duyệt web của bạn và nhập URL http://server-ip-address:8080. Bạn sẽ thấy trang sau:
Vui lòng ghi lại URL Spark "spark://debian10:7077" từ hình ảnh trên. Lệnh này sẽ được sử dụng để bắt đầu quy trình Spark worker.
Bạn sẽ nhận được kết quả sau:
Bạn sẽ thấy kết quả sau:
Từ đây, bạn có thể tìm hiểu cách tận dụng tối đa Apache Spark một cách nhanh chóng và tiện lợi.
Nếu bạn muốn dừng Spark Master và Slave server, hãy chạy các lệnh sau:
Vậy là xong, bạn đã cài đặt thành công Apache Spark trên server Debian 10. Để biết thêm thông tin, bạn có thể tham khảo tài liệu chính thức của Spark tại Spark Doc.
Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách cài đặt Apache Spark trên máy chủ Debian 10.
Điều kiện tiên quyết
- Máy chủ chạy Debian 10 với 2 GB RAM.
- Mật khẩu gốc được cấu hình trên máy chủ của bạn.
Bắt đầu
Trước khi bắt đầu, bạn nên cập nhật máy chủ của mình lên phiên bản mới nhất. Bạn có thể cập nhật bằng lệnh sau:
Mã:
apt-get update -y
apt-get upgrade -y
Cài đặt Java
Apache Spark được viết bằng ngôn ngữ Java. Vì vậy, bạn sẽ cần cài đặt Java trong hệ thống của mình. Theo mặc định, phiên bản Java mới nhất có sẵn trong kho lưu trữ mặc định của Debian 10. Bạn có thể cài đặt bằng lệnh sau:
Mã:
apt-get install default-jdk -y
Mã:
java --version
Mã:
openjdk 11.0.5 2019-10-15Môi trường chạy thời gian OpenJDK (bản dựng 11.0.5+10-post-Debian-1deb10u1)Máy ảo máy chủ OpenJDK 64-Bit (bản dựng 11.0.5+10-post-Debian-1deb10u1, chế độ hỗn hợp, chia sẻ)
Tải xuống Apache Spark
Trước tiên, bạn sẽ cần tải xuống phiên bản mới nhất của Apache Spark từ trang web chính thức của nó. Tại thời điểm viết bài viết này, phiên bản mới nhất của Apache Spark là 3.0. Bạn có thể tải xuống thư mục /opt bằng lệnh sau:
Mã:
cd /opt
wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
Mã:
tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz
Mã:
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
Mã:
nano ~/.bashrc
Mã:
export SPARK_HOME=/opt/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Mã:
source ~/.bashrc
Khởi động Máy chủ chính
Bây giờ bạn có thể khởi động máy chủ chính bằng lệnh sau:
Mã:
start-master.sh
Mã:
đang khởi động org.apache.spark.deploy.master.Master, ghi nhật ký vào /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out
Mã:
netstat -ant | grep 8080
Mã:
tcp6 0 0 :::8080 :::* LISTEN
Vui lòng ghi lại URL Spark "spark://debian10:7077" từ hình ảnh trên. Lệnh này sẽ được sử dụng để bắt đầu quy trình Spark worker.
Bắt đầu quy trình Spark Worker
Bây giờ, bạn có thể bắt đầu quy trình Spark worker bằng lệnh sau:
Mã:
start-slave.sh spark://debian10:7077
Mã:
starting org.apache.spark.deploy.worker.Worker, ghi vào /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out
Access Spark Shell
Spark Shell là một môi trường tương tác cung cấp một cách đơn giản để tìm hiểu API và phân tích dữ liệu một cách tương tác. Bạn có thể truy cập Spark shell bằng lệnh sau:
Mã:
spark-shell
Mã:
CẢNH BÁO: Đã xảy ra hoạt động truy cập phản chiếu bất hợp phápCẢNH BÁO: Truy cập phản chiếu bất hợp pháp của org.apache.spark.unsafe.Platform (tệp:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) vào hàm tạo java.nio.DirectByteBuffer(long,int)CẢNH BÁO: Vui lòng cân nhắc báo cáo sự việc này cho người bảo trì org.apache.spark.unsafe.PlatformCẢNH BÁO: Sử dụng --illegal-access=warn để bật cảnh báo về các hoạt động truy cập phản chiếu bất hợp pháp tiếp theoCẢNH BÁO: Tất cả các hoạt động truy cập bất hợp pháp sẽ bị từ chối trong bản phát hành trong tương lai19/12/29 15:53:11 CẢNH BÁO NativeCodeLoader: Không thể tải thư viện native-hadoop cho nền tảng của bạn... sử dụng các lớp built-in-java khi có thểSử dụng cấu hình log4j mặc định của Spark: org/apache/spark/log4j-defaults.propertiesĐặt mức nhật ký mặc định thành "WARN".Để điều chỉnh mức ghi nhật ký, hãy sử dụng sc.setLogLevel(newLevel). Đối với SparkR, hãy sử dụng setLogLevel(newLevel).Giao diện người dùng web ngữ cảnh Spark có tại http://debian10:4040Ngữ cảnh Spark có sẵn dưới dạng 'sc' (master = local[*], app id = local-1577634806690).Phiên Spark có sẵn dưới dạng 'spark'.Chào mừng đến với ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ phiên bản 3.0.0-preview2 /_/Sử dụng Scala phiên bản 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)Nhập biểu thức để đánh giá chúng.Nhập :help để biết thêm thông tin.scala>
Nếu bạn muốn dừng Spark Master và Slave server, hãy chạy các lệnh sau:
Mã:
stop-slave.sh
stop-master.sh