F5-TTS Romanian — 5.1% WER across 5 Voices

Voices

Costel

Male, literary narration style (20k clips)

WER: 5.2% — 13/18 perfect

«Copiii se jucau fericiți în grădina plină de flori colorate.»

Georgel

Male, solemn measured delivery (16k clips)

WER: 2.5% — 16/18 perfect

«Ștefan cel Mare a construit mănăstiri și cetăți în întreaga Moldovă.»

Dorel

Male, conversational style (3k clips)

WER: 5.2% — 13/18 perfect

«România este o țară frumoasă cu munți înalți și câmpii întinse.»

Marioara

Female, expressive storytelling (19k clips)

WER: 6.3% — 11/18 perfect

«Bună ziua, mă numesc Alexandru și sunt din București.»

Note: Occasionally prepends "Heri"/"Harry" from training data (Harry Potter audiobooks).

Lacramioara

Female, clear broadcast voice (3.7k clips)

WER: 6.4% — 11/18 perfect

«Profesorul a explicat cu răbdare lecția dificilă de matematică.»

Note: Occasionally prepends "Iara pe Chichi" from reference audio text.

Full Results — 18 Sentences × 5 Voices

Step 235,000 checkpoint with optimized generation (midpoint ODE, 64 NFE steps, cfg=2.0, sway=-1.0, seed search). WER measured via Whisper large-v3.

#	Sentence	Costel	Georgel	Dorel	Marioara	Lacramioara
1	Țara românească și-a păstrat tradițiile străvechi de-a lungul secolelor.	0%	0%	0%	11.1%	0%
2	Ștefan cel Mare a construit mănăstiri și cetăți în întreaga Moldovă.	9.1%	0%	9.1%	9.1%	9.1%
3	În această dimineață, bătrânul pescar și-a pregătit undițele pentru pescuit.	0%	0%	0%	0%	0%
4	Fișierele și rețelele informatice sunt esențiale în științele moderne.	0%	0%	0%	0%	0%
5	Așezările țărănești din câmpia Bărăganului sunt împrăștiate printre lanuri.	0%	0%	0%	11.1%	0%
6	Bună ziua, mă numesc Alexandru și sunt din București.	0%	0%	0%	0%	0%
7	Bună ziua, mă numesc Alexandra și sunt din Cluj-Napoca.	0%	0%	0%	0%	0%
8	România este o țară frumoasă cu munți înalți și câmpii întinse.	0%	0%	0%	9.1%	0%
9	Copiii se jucau fericiți în grădina plină de flori colorate.	0%	0%	0%	0%	0%
10	Profesorul a explicat cu răbdare lecția dificilă de matematică.	0%	0%	0%	0%	0%
11	Această carte reprezintă o contribuție importantă la literatura contemporană.	0%	0%	0%	0%	0%
12	S-a suit capra pe piatră, piatra a crăpat în patru, crăpai-ar capul caprei negre în patru cum a crăpat și piatra în patru.	8.7%	8.7%	8.7%	13.0%	26.1%
13	Un vultur stă pe pisc cu un pix în plisc.	0%	0%	0%	0%	10.0%
14	Sinucisul asasin Silică se suise simandicos sus pe scândura scăriței.	20.0%	0%	20.0%	10.0%	10.0%
15	Să sugi sucul socului sacru susține sasul sesios.	12.5%	0%	12.5%	0%	12.5%
16	Bucură-te de bucuria Bucuroaiei cum s-a bucurat și ea de bucuria lui Bucurel când a venit de la București.	0%	0%	0%	0%	5.3%
17	Ce-ntâmplare întâmplăreață s-a-ntâmplat în tâmplărie, un tâmplar din întâmplare s-a lovit cu tâmpla-n cap.	42.9%	35.7%	42.9%	50.0%	42.9%
18	Cărămidarul cărămidărește cu cărămida cărămidarului din cărămidărie.	0%	0%	0%	0%	0%
	Average	5.2%	2.5%	5.2%	6.3%	6.4%

Known Issues

Marioara (trained on Harry Potter audiobooks): Training data bleeding — "Heri"/"Herii"/"Harry" prefix occasionally prepended to output. Visible in sentences 1, 5, 8 (WER > 0 due to extra word).

Lacramioara (trained on RSS/podcast audio): Reference audio text leaking — "Iara pe Chichi"/"Iarapechi" prefix occasionally prepended. The reference audio contains "iara pe Chirica" which bleeds into generated speech.

Sentence 17 (tongue twister with contractions): Hardest sentence for all voices (35-50% WER). The informal contractions ("Ce-ntamplare", "s-a-ntamplat", "tampla-n") are expanded by Whisper transcription, inflating WER despite correct pronunciation.

Our Approach vs F5-TTS-RO Paper

	F5-TTS-RO Paper	Our Fine-Tune
Data	21h, 1 speaker (RSS)	112h, 5 speakers
Method	LoRA adapter	Full fine-tune (335M params)
Vocab	Default (no extension)	Extended (+5 Romanian diacritics)
Best WER	3.62% (1 voice)	5.1% (5 voices)
Voices	1 (female)	5 (3 male, 2 female)

F5-TTS-RO Paper

Our Fine-Tune

Data

21h, 1 speaker (RSS)

112h, 5 speakers

Method

LoRA adapter

Full fine-tune (335M params)

Vocab

Default (no extension)

Extended (+5 Romanian diacritics)

Best WER

3.62% (1 voice)

5.1% (5 voices)

Voices

1 (female)

5 (3 male, 2 female)

Training Progress — WER over 235K steps

WER measured via Whisper large-v3. Steps 15K–235K: single-speaker evaluation (Costel / Literature Narrator) on 15 sentences with default generation parameters. Final row: 5-voice, 18-sentence evaluation with optimized generation.

Step	WER	Diacritics WER	Common WER	Notes
15,000	17.4%	12.2%	31.5%	First checkpoint
55,000	19.3%	13.6%	35.1%
60,000	16.9%	9.3%	37.8%
75,000	13.0%	7.8%	27.5%	Early best
80,000	15.8%	11.5%	27.5%
90,000	14.9%	8.9%	31.7%
100,000	18.7%	10.9%	40.3%
110,000	34.6%	18.2%	79.6%	Instability spike
120,000	19.3%	15.6%	29.6%
130,000	22.0%	17.8%	33.5%
140,000	21.1%	18.8%	27.5%
150,000	13.9%	8.3%	29.4%
160,000	22.5%	19.3%	31.2%
170,000	14.0%	9.1%	27.7%
180,000	15.2%	10.7%	27.7%
190,000	17.3%	11.3%	33.6%
195,000	12.3%	6.8%	27.7%	Best single-speaker
200,000	13.2%	6.5%	31.7%
205,000	13.2%	6.6%	31.5%
210,000	15.1%	9.7%	29.9%
215,000	12.0%	7.0%	25.8%
220,000	14.7%	9.2%	29.6%
225,000	12.9%	7.6%	27.5%
230,000	11.8%	5.4%	29.6%	Best raw single-speaker
235,000	12.0%	6.3%	27.5%	Last checkpoint (single-speaker)
235,000	5.1%			Final: 5 voices, 18 sentences, optimized generation

Training Configuration

Model	F5TTS_v1_Base (335M, 22-layer DiT)
Dataset	48,401 clips, 5 speakers, 24kHz, ~112h
Batch size	4,000 frames/GPU
Grad accumulation	4
Effective batch	16,000 frames
Learning rate	7.5e-5
Warmup	2,000 steps
Epochs	100
Tokenizer	Custom (extended vocab, 2,550 tokens)
Precision	bf16
Hardware	RunPod RTX 5000 Ada (32GB)
Speed	~2.15 updates/s, ~18 min/epoch
Total updates	~235,400

Generation Parameters (Showcase)

ODE method	midpoint
NFE steps	64
CFG strength	2.0
Sway sampling coef	-1.0
Pad trick	enabled
Seed selection	Best of up to 20 seeds per sample, selected by lowest Whisper WER