📢 Bài viết có chứa link affiliate. Bạn không trả thêm phí khi mua qua link của mình.
Tháng 3/2026, mình quyết định thử nghiệm: liệu có thể tạo một podcast tiếng Việt chất lượng chỉ bằng AI mà không cần thu âm thực? Sau 30 ngày dùng ElevenLabs liên tục, kết quả vượt xa mong đợi — và cũng có những giới hạn bất ngờ. Đây là case study thực tế từ A đến Z.
👉 Thử ElevenLabs miễn phí: Tạo giọng AI đầu tiên của bạn →
Bối Cảnh: Tại Sao Mình Chọn ElevenLabs?
Mình quản lý một blog về AI và cần tạo thêm kênh podcast để diversify traffic. Vấn đề: không có thiết bị thu âm tốt, không có thời gian, và giọng đọc thực sự… không hay lắm. ElevenLabs nổi tiếng với giọng AI tự nhiên nhất hiện nay, hỗ trợ tiếng Việt từ bản cập nhật multilingual v2. Đây là lý do mình chọn thử.
Setup Ban Đầu: Clone Giọng Hay Dùng Preset?
Mình thử cả hai approach:
Approach 1 — Voice Cloning: Record 5 phút giọng đọc của bản thân (đọc đoạn văn trung tính), upload lên ElevenLabs Professional Voice Clone. Kết quả: giọng clone rất giống (~85% natural) nhưng tiếng Việt thỉnh thoảng bị accent lạ ở thanh sắc/nặng.
Approach 2 — Preset Vietnamese: Dùng các giọng preset multilingual của ElevenLabs (Rachel, Bella, Antoni). Kết quả tiếng Việt tốt hơn về dấu thanh, nhưng nghe ra ngay là AI.
Kết luận setup: Dùng Voice Clone cho nội dung dài (podcast 15-20 phút) để có brand identity, dùng preset cho short-form content (highlight clip 1-2 phút).
30 Ngày — Số Liệu Thực Tế
| Chỉ số | Kết quả |
|---|---|
| Số tập podcast đã tạo | 22 tập (15-25 phút/tập) |
| Tổng characters đã dùng | ~380,000 chars (gói Creator 100k chars/tháng → vượt, phải nâng lên Independent) |
| Chi phí ElevenLabs | $22/tháng (gói Independent 500k chars) |
| Thời gian tạo 1 tập 20 phút | 8-12 phút (viết script) + 3-5 phút (generate + edit) |
| Lượt nghe Spotify (tháng 1) | 847 lượt |
| Lượt nghe Spotify (tháng 2) | 2,340 lượt (+176%) |
| Feedback người nghe về chất lượng giọng | 73% không nhận ra là AI (khảo sát 30 người) |
Workflow Tạo 1 Tập Podcast Hoàn Chỉnh
Bước 1: Viết script bằng Claude AI (10-15 phút). Prompt: “Viết script podcast 2000 từ về [chủ đề], giọng điệu conversational như đang nói chuyện với bạn bè, thêm transition phrases tự nhiên.”
Bước 2: Paste vào ElevenLabs Speech Synthesis. Chọn voice đã clone. Điều chỉnh Stability: 0.5, Similarity: 0.75, Style Exaggeration: 0.1 (để giọng tự nhiên, không quá biểu cảm).
Bước 3: Generate và download MP3. Nghe qua lần 1 để phát hiện chỗ phát âm lạ — thường là tên riêng tiếng Anh hoặc từ kỹ thuật.
Bước 4: Edit bằng Audacity (miễn phí) — cắt silence, thêm intro/outro music từ Pixabay.
Bước 5: Upload lên Spotify for Podcasters và Apple Podcasts qua Anchor/Spotify.
Giới Hạn Thực Tế Của ElevenLabs Với Tiếng Việt
Vấn đề dấu thanh: Tiếng Việt có 6 thanh điệu, ElevenLabs đôi khi nhầm thanh hỏi/ngã, đặc biệt với từ đa âm tiết. Giải pháp: thêm dấu câu (dấu phẩy) để tách từ và giúp model xử lý đúng hơn.
Tên riêng nước ngoài: “ChatGPT”, “Anthropic”, “Hostinger” đôi khi bị đọc sai. Giải pháp: dùng Pronunciation Dictionary trong ElevenLabs để map từ với cách đọc đúng (IPA hoặc phonetic).
Giới hạn characters: Gói $5/tháng (30k chars) chỉ đủ cho ~5 tập ngắn. Production thực tế cần ít nhất gói $22/tháng (500k chars).
ROI Và Kết Luận
Sau 30 ngày, podcast kênh đã có 3,187 lượt nghe tổng cộng và 134 subscribers. Chi phí: $22 ElevenLabs + $0 distribution (Spotify free). So sánh với thuê người đọc podcast freelance (~500k-1tr VND/tập × 22 tập = 11-22 triệu VND), ElevenLabs tiết kiệm cực kỳ đáng kể.
Mình sẽ tiếp tục dùng ElevenLabs cho podcast. Kết quả tốt hơn kỳ vọng với tiếng Việt, dù vẫn cần người nghe có tai tinh mới phân biệt được AI vs human.
Đánh giá: ⭐⭐⭐⭐ (4/5) — Xuất sắc cho content creator Việt, chỉ bị trừ 1 sao vì dấu thanh đôi khi không hoàn hảo.
👉 Bắt đầu thử ElevenLabs miễn phí: Nhận 10,000 ký tự miễn phí mỗi tháng →