VoxCPM LogoVietnam Flag
Tác giả: Phạm Phú Ngọc Trai  |  Facebook  |  GitHub  |  LinkedIn
Ngôn ngữ

Cách sử dụng

  1. Nhập Prompt (không bắt buộc) – Mô tả phong cách, giọng điệu hoặc ngữ cảnh của giọng tham chiếu.
  2. Nhập văn bản cần đọc – Gõ chính xác đoạn bạn muốn VoxCPM đọc lên, hoặc chọn nhanh từ danh sách câu mẫu.
  3. (Tuỳ chọn) Mở "Thiết lập nâng cao (Config)" – Điều chỉnh giá trị CFG, số bước suy luận hoặc bật/tắt chuẩn hoá văn bản nếu bạn muốn tinh chỉnh chất lượng và tốc độ.
  4. Nhấn "Tạo giọng nói" – Chờ vài giây để mô hình tạo tiếng nói rồi nghe kết quả ở khung âm thanh bên phải.

Chuẩn hoá văn bản (Text normalization)

  • Bật khi câu chữ có nhiều số, ngày tháng, ký hiệu… và bạn muốn mô hình đọc lại một cách tự nhiên.
  • Tắt nếu văn bản đã được chuẩn hoá sẵn, hoặc khi bạn đang thử nghiệm kiểu nhập âm vị / ký hiệu đặc biệt.

Giá trị CFG

  • Giảm CFG (gần 1.0) để giọng nói linh hoạt, tự nhiên hơn, nhưng ít bám chặt vào prompt hơn.
  • Tăng CFG (gần 3.0) để mô hình bám sát phong cách prompt và nội dung hơn, nhưng đôi khi có thể kém ổn định.

Số bước suy luận (Inference timesteps)

  • Giảm số bước khi bạn cần tạo nhanh để nghe thử hoặc demo.
  • Tăng số bước khi bạn đã chốt nội dung/phong cách và muốn ưu tiên chất lượng âm thanh.
1 3
4 30

Sử dụng thư viện soe-vinorm để chuẩn hoá văn bản tiếng Việt đầu vào.