Cách cài đặt phần mềm eSpeak Text to Speech trên Ubuntu 20.04

theanh · 15 Tháng tư 2025

eSpeak là một phần mềm tổng hợp giọng nói cho tiếng Anh và các ngôn ngữ khác, eSpeak là một phần mềm miễn phí và mã nguồn mở (FOSS) có thể chạy trên hầu hết các nền tảng bao gồm Linux, Windows và MacOS. eSpeak được Paul "Joe" Hazeldine phát triển dựa trên cơ sở mã của dự án eCAVE, vốn bắt nguồn từ X-SPEAK 1.0 của Bill Berry vào năm 1995— khiến eSpeak đã hơn 20 tuổi!

eSpeak là một phần mềm di động, có nghĩa là eSpeak có thể được di chuyển từ máy tính này sang máy tính khác. eSpeak là một chương trình rất nhẹ, eSpeak không cần nhiều CPU. Chỉ cần 5Mb RAM để chạy mượt mà.

Một số bản phân phối dựa trên Ubuntu như Linux Mint và Elementary sử dụng eSpeak theo mặc định nhưng một số bản phân phối dựa trên Ubuntu khác không cài đặt eSpeak, vì vậy bạn có thể muốn xem hướng dẫn này nếu eSpeak không được cài đặt trong hệ thống của bạn.

Phiên bản mới nhất của eSpeak tại thời điểm viết bài là 1.48.03 trong khi các phiên bản mới được phát hành thường xuyên, không gây hại gì trừ khi chúng phá vỡ khả năng tương thích ngược hoặc gây ra bất kỳ lỗi nào cần được khắc phục ngay lập tức.

Bài viết này đề cập đến việc cài đặt eSpeak trên Ubuntu 20.04, bản phân phối Linux được sử dụng và phổ biến nhất.

Điều kiện tiên quyết

Là Ubuntuserver hoặc máy tính để bàn, eSpeak cần ít nhất Ubuntu 12.04 trở lên để cài đặt trên đó. eSpeak được xây dựng trên dự án eCAVE dựa trên X-SPEAK, eCAVE được viết lại bằng C++ và phiên bản đó yêu cầu ít nhất Ubuntu 12.04 để chạy bình thường.
Mật khẩu gốc được cấu hình trên máy của bạn và kết nối internet. Cài đặt eSpeak yêu cầu kết nối internet để tải xuống gói eSpeak từ trang web eSpeak.

Bắt đầu

Trước hết, bạn cần cập nhật máy chủ của mình lên phiên bản mới nhất. Mở một thiết bị đầu cuối và chạy các lệnh sau để cập nhật hệ thống của bạn:

sudo apt-get update

Trên hệ thống Ubuntu / Debian, lệnh này cần được thực thi mỗi lần trước khi cài đặt bất kỳ gói nào từ kho lưu trữ trực tuyến. Lệnh này sẽ đồng bộ hóa danh sách các gói cục bộ của hệ thống (có trong thư mục /etc/apt) với danh sách có trên máy chủ tại http://archive.ubuntu.com hoặc các máy chủ khác. Để tận dụng tối đa kho lưu trữ để cài đặt các gói mới, bạn phải thực thi lệnh này sau mỗi lần khởi động lại.

Mã:

sudo apt-get -y upgrade

Lệnh này sẽ tìm tất cả các gói lỗi thời và thực hiện nâng cấp đầy đủ. Tuy nhiên, nó sẽ không cài đặt các gói mới nhất. Nó được thiết kế để làm cho hệ thống của bạn được cập nhật nhất có thể.

Ngoài ra, nếu bạn gặp lỗi trong quá trình cập nhật các gói bằng lệnh apt-get, hãy sử dụng sudo apt-get -f install. Lệnh này sẽ cố gắng khắc phục sự cố và tiếp tục cài đặt các bản cập nhật. Nếu không được, nó sẽ cho bạn biết cách giải quyết thủ công.

sudo apt-get -f install

Mẫu đầu ra:

Cài đặt eSpeak

Theo mặc định, eSpeak có sẵn trong kho lưu trữ của Ubuntu. Bạn có thể cài đặt bằng cách chạy lệnh sau trong thiết bị đầu cuối của mình:

sudoapt-get install espeak -y

Lệnh này sẽ tải xuống và cài đặt một gói có tên là "espeak", đây là phiên bản thực tế của công cụ eSpeak TTS. Sau khi chạy các lệnh được đề cập ở trên, bạn đã cài đặt thành công một công cụ giọng nói mới cho hệ thống của mình.

Mẫu đầu ra:

Bạn có thể xác minh phiên bản eSpeak đã cài đặt bằng lệnh sau:

espeak --version

Đầu ra mẫu:

Theo mặc định, espeak được cài đặt trên toàn hệ thống với tiền tố /usr, nghĩa là bất kỳ ai có quyền truy cập vào bản cài đặt này đều có thể chạy espeak. Nếu bạn muốn hạn chế quyền truy cập để chỉ một người dùng cụ thể có thể sử dụng phần mềm này, hãy cài đặt bằng –prefix=/home/username/.

Sử dụng eSpeak để chuyển đổi Văn bản thành Âm thanh

Lệnh eSpeak có thể được sử dụng để chuyển đổi văn bản thành giọng nói. Bạn có thể đưa bất kỳ tệp văn bản nào làm đầu vào hoặc nhập văn bản vào thiết bị đầu cuối để chuyển đổi. Hãy nói câu "Hi this is a sample" và ghi vào tệp âm thanh sample.mp4.

espeak "Hi this is a sample" -w sample.mp4 -g 60 -p 70 -s 100 -v en-us

Tại đây, tham số -w chỉ định tên tệp đầu ra là tệp âm thanh. Nó cũng có thể là .mp3 hoặc bất kỳ định dạng nào khác như ogg, vorbis, v.v.

Tiếp theo là tham số -g kiểm soát cao độ của giọng nói và giá trị của tham số này không được lớn hơn 90 để tránh giọng nói có cao độ cao nghe giống như 'rô bốt' hoặc 'nhân tạo'.

Tham số -p kiểm soát khoảng dừng giữa các từ và giá trị của tham số này phải nhỏ hơn 10 để tránh các khoảng dừng không cần thiết. Giá trị mặc định là 2, nghĩa là sẽ có hai giây im lặng sau mỗi từ.

Tham số –s kiểm soát tốc độ nói và có thể được điều chỉnh để thay đổi tốc độ đọc văn bản.

Tham số -v kiểm soát lựa chọn giọng nói cần người dùng nhập và sử dụng hậu tố en, es (cho giọng châu Âu) hoặc fi cho giọng Anh, Tây Ban Nha hoặc Phần Lan.

Bây giờ bạn có thể phát tệp sample.mp4 để nghe văn bản được nói trong bất kỳ trình phát phương tiện mp3 nào bạn chọn như mplayer hoặc vlc. Bạn có thể nhập bao nhiêu dòng văn bản tùy thích và ghi lại tất cả trong một phiên đầu cuối duy nhất.

Có nhiều cách khác để sử dụng eSpeak để đọc văn bản. Tùy chọn --help sẽ gợi ý một số cách khác để sử dụng nó.

espeak --help

Đầu ra mẫu:

Xóa eSpeak

Sử dụng lệnh sau để xóa eSpeak:

sudo apt-get remove espeak

Nhập y và nhấn enter khi được nhắc xóa eSpeak cùng với các phần phụ thuộc. Lệnh này sẽ xóa gói espeak và tất cả các phần phụ thuộc của nó khỏi hệ thống của bạn.

Lưu ý:

1. Nếu bạn đã cài đặt espeak trên toàn hệ thống, nó cũng sẽ xóa công cụ eSpeak khỏi hệ thống của bạn và sử dụng giọng nói mặc định.

2. Nếu bạn không thể sử dụng sudo apt-get remove espeak. Nó sẽ dẫn đến một lỗi cho biết gói 'espeak' là yêu cầu của gói này hoặc các gói khác và bạn sẽ không thể gỡ cài đặt gói này, tốt hơn là sử dụng tùy chọn cập nhật.

sudo apt-get -y upgrade --remove espeak

Cài đặt Gspeaker để chuyển đổi văn bản thành giọng nói dựa trên GUI

Gspeak là một phần mềm chuyển văn bản thành giọng nói phổ biến khác dành cho Linux. Nó được viết bằng Python và sử dụng công cụ TTS espeak để chuyển đổi thực tế. Nó cung cấp giao diện người dùng đơn giản được sử dụng để kiểm soát tất cả các cài đặt liên quan đến lựa chọn giọng nói, tùy chọn chung, v.v.

Bạn có thể cài đặt nó bằng bất kỳ trình quản lý gói nào. Nhập lệnh sau vào terminal để cài đặt GSpeaker:

apt-get install gespeaker -y

Sau khi cài đặt xong, bạn có thể khởi chạy GSpeaker từ bảng điều khiển Unity của mình. Nó sẽ khởi chạy giao diện người dùng đồ họa của Gspeak giúp bạn kiểm soát công cụ giọng nói của mình.

Giao diện người dùng Gespeaker trông như thế này:

Có các tab riêng biệt cho từng tùy chọn.

Tab 'cài đặt cơ sở' cho phép bạn thiết lập tất cả các tùy chọn chung của công cụ TTS như tốc độ giọng nói, cao độ, v.v. Bạn cũng có thể thiết lập các cài đặt khác như thời gian chờ và cài đặt âm thanh.

Tab giọng nói cho phép bạn chọn giọng nói trong số các giọng nói đã cài đặt.

Tab lịch sử cho phép bạn lưu trữ các chuyển đổi văn bản thành giọng nói tùy chỉnh của mình, có thể có thể sử dụng lại bất kỳ lúc nào sau này.

Tab hoàn nguyên khôi phục cài đặt trước đó sau khi cài đặt giọng nói của bạn thay đổi. Tab này chỉ hoạt động khi bạn thay đổi cài đặt đã lưu hiện có. Nút lưu sẽ có màu xám.

Bạn có thể đọc thêm về tùy chọn Gespeaker trong phần trợ giúp gespeaker có thể truy cập từ tab "Trợ giúp".

Xóa Gespeaker

Nếu bạn không sử dụng Gespeaker, hãy xóa nó để giải phóng một số dung lượng đĩa. Nhập lệnh sau vào terminal:

apt-get autoremove gespeaker -y

Bạn cũng có thể xóa Gespeaker thông qua trung tâm phần mềm của Ubuntu. Mở trung tâm phần mềm và tìm kiếm “gespeaker”. Nhấp vào biểu tượng và chọn tùy chọn xóa từ menu bên phải.

Kết luận

Hướng dẫn này chỉ cho bạn cách cài đặt eSpeak và Gespeaker trên máy Ubuntu. Bạn có thể sử dụng bất kỳ phần mềm TTS nào để đọc to văn bản, tùy bạn chọn phần mềm nào.

Nếu bạn không thích hai phần mềm này, vẫn còn nhiều công cụ chuyển văn bản thành giọng nói khác dành cho Linux. Tôi khuyên bạn nên xem qua các lựa chọn thay thế cho espeak trang wiki. Luôn tiện lợi khi cài đặt nhiều hơn một công cụ chuyển giọng nói trên máy của bạn.

Cách cài đặt phần mềm eSpeak Text to Speech trên Ubuntu 20.04

theanh

Administrator

Điều kiện tiên quyết

Bắt đầu

Cài đặt eSpeak

Sử dụng eSpeak để chuyển đổi Văn bản thành Âm thanh

Xóa eSpeak

Cài đặt Gspeaker để chuyển đổi văn bản thành giọng nói dựa trên GUI

Xóa Gespeaker

Kết luận

Chủ đề tương tự

Cách cài đặt phần mềm eSpeak Text to Speech trên Ubuntu 20.04

theanh

Administrator

Điều kiện tiên quyết​

Bắt đầu​

Cài đặt eSpeak​

Sử dụng eSpeak để chuyển đổi Văn bản thành Âm thanh​

Xóa eSpeak​

Cài đặt Gspeaker để chuyển đổi văn bản thành giọng nói dựa trên GUI​

Xóa Gespeaker​

Kết luận​

Chủ đề tương tự

Điều kiện tiên quyết

Bắt đầu

Cài đặt eSpeak

Sử dụng eSpeak để chuyển đổi Văn bản thành Âm thanh

Xóa eSpeak

Cài đặt Gspeaker để chuyển đổi văn bản thành giọng nói dựa trên GUI

Xóa Gespeaker

Kết luận