Cách sử dụng
- Nhập Prompt (không bắt buộc) – Mô tả phong cách, giọng điệu hoặc ngữ cảnh của giọng tham chiếu.
- Nhập văn bản cần đọc – Gõ chính xác đoạn bạn muốn VoxCPM đọc lên, hoặc chọn nhanh từ danh sách câu mẫu.
- (Tuỳ chọn) Mở "Thiết lập nâng cao (Config)" – Điều chỉnh giá trị CFG, số bước suy luận hoặc bật/tắt chuẩn hoá văn bản nếu bạn muốn tinh chỉnh chất lượng và tốc độ.
- Nhấn "Tạo giọng nói" – Chờ vài giây để mô hình tạo tiếng nói rồi nghe kết quả ở khung âm thanh bên phải.
Chuẩn hoá văn bản (Text normalization)
- Bật khi câu chữ có nhiều số, ngày tháng, ký hiệu… và bạn muốn mô hình đọc lại một cách tự nhiên.
- Tắt nếu văn bản đã được chuẩn hoá sẵn, hoặc khi bạn đang thử nghiệm kiểu nhập âm vị / ký hiệu đặc biệt.
Giá trị CFG
- Giảm CFG (gần 1.0) để giọng nói linh hoạt, tự nhiên hơn, nhưng ít bám chặt vào prompt hơn.
- Tăng CFG (gần 3.0) để mô hình bám sát phong cách prompt và nội dung hơn, nhưng đôi khi có thể kém ổn định.
Số bước suy luận (Inference timesteps)
- Giảm số bước khi bạn cần tạo nhanh để nghe thử hoặc demo.
- Tăng số bước khi bạn đã chốt nội dung/phong cách và muốn ưu tiên chất lượng âm thanh.
1 3
4 30
Sử dụng thư viện soe-vinorm để chuẩn hoá văn bản tiếng Việt đầu vào.

