F5-TTS Romanian

Fine-tuned F5-TTS v1 Base (335M params) for Romanian text-to-speech

5.1%
Overall WER
5
Voices
112h
Training Data
235K
Steps Trained

Voices

Costel
Male, literary narration style (20k clips)
WER: 5.2% — 13/18 perfect

«Copiii se jucau fericiți în grădina plină de flori colorate.»

Georgel
Male, solemn measured delivery (16k clips)
WER: 2.5% — 16/18 perfect

«Ștefan cel Mare a construit mănăstiri și cetăți în întreaga Moldovă.»

Dorel
Male, conversational style (3k clips)
WER: 5.2% — 13/18 perfect

«România este o țară frumoasă cu munți înalți și câmpii întinse.»

Marioara
Female, expressive storytelling (19k clips)
WER: 6.3% — 11/18 perfect

«Bună ziua, mă numesc Alexandru și sunt din București.»

Note: Occasionally prepends "Heri"/"Harry" from training data (Harry Potter audiobooks).

Lacramioara
Female, clear broadcast voice (3.7k clips)
WER: 6.4% — 11/18 perfect

«Profesorul a explicat cu răbdare lecția dificilă de matematică.»

Note: Occasionally prepends "Iara pe Chichi" from reference audio text.

Full Results — 18 Sentences × 5 Voices

Step 235,000 checkpoint with optimized generation (midpoint ODE, 64 NFE steps, cfg=2.0, sway=-1.0, seed search). WER measured via Whisper large-v3.

# Sentence Costel Georgel Dorel Marioara Lacramioara
1 Țara românească și-a păstrat tradițiile străvechi de-a lungul secolelor. 0%
0%
0%
11.1%
0%
2 Ștefan cel Mare a construit mănăstiri și cetăți în întreaga Moldovă. 9.1%
0%
9.1%
9.1%
9.1%
3 În această dimineață, bătrânul pescar și-a pregătit undițele pentru pescuit. 0%
0%
0%
0%
0%
4 Fișierele și rețelele informatice sunt esențiale în științele moderne. 0%
0%
0%
0%
0%
5 Așezările țărănești din câmpia Bărăganului sunt împrăștiate printre lanuri. 0%
0%
0%
11.1%
0%
6 Bună ziua, mă numesc Alexandru și sunt din București. 0%
0%
0%
0%
0%
7 Bună ziua, mă numesc Alexandra și sunt din Cluj-Napoca. 0%
0%
0%
0%
0%
8 România este o țară frumoasă cu munți înalți și câmpii întinse. 0%
0%
0%
9.1%
0%
9 Copiii se jucau fericiți în grădina plină de flori colorate. 0%
0%
0%
0%
0%
10 Profesorul a explicat cu răbdare lecția dificilă de matematică. 0%
0%
0%
0%
0%
11 Această carte reprezintă o contribuție importantă la literatura contemporană. 0%
0%
0%
0%
0%
12 S-a suit capra pe piatră, piatra a crăpat în patru, crăpai-ar capul caprei negre în patru cum a crăpat și piatra în patru. 8.7%
8.7%
8.7%
13.0%
26.1%
13 Un vultur stă pe pisc cu un pix în plisc. 0%
0%
0%
0%
10.0%
14 Sinucisul asasin Silică se suise simandicos sus pe scândura scăriței. 20.0%
0%
20.0%
10.0%
10.0%
15 Să sugi sucul socului sacru susține sasul sesios. 12.5%
0%
12.5%
0%
12.5%
16 Bucură-te de bucuria Bucuroaiei cum s-a bucurat și ea de bucuria lui Bucurel când a venit de la București. 0%
0%
0%
0%
5.3%
17 Ce-ntâmplare întâmplăreață s-a-ntâmplat în tâmplărie, un tâmplar din întâmplare s-a lovit cu tâmpla-n cap. 42.9%
35.7%
42.9%
50.0%
42.9%
18 Cărămidarul cărămidărește cu cărămida cărămidarului din cărămidărie. 0%
0%
0%
0%
0%
Average 5.2% 2.5% 5.2% 6.3% 6.4%

Known Issues

Our Approach vs F5-TTS-RO Paper

F5-TTS-RO PaperOur Fine-Tune
Data21h, 1 speaker (RSS)112h, 5 speakers
MethodLoRA adapterFull fine-tune (335M params)
VocabDefault (no extension)Extended (+5 Romanian diacritics)
Best WER3.62% (1 voice)5.1% (5 voices)
Voices1 (female)5 (3 male, 2 female)
Training Progress — WER over 235K steps

WER measured via Whisper large-v3. Steps 15K–235K: single-speaker evaluation (Costel / Literature Narrator) on 15 sentences with default generation parameters. Final row: 5-voice, 18-sentence evaluation with optimized generation.

StepWERDiacritics WERCommon WERNotes
15,00017.4%12.2%31.5%First checkpoint
55,00019.3%13.6%35.1%
60,00016.9%9.3%37.8%
75,00013.0%7.8%27.5%Early best
80,00015.8%11.5%27.5%
90,00014.9%8.9%31.7%
100,00018.7%10.9%40.3%
110,00034.6%18.2%79.6%Instability spike
120,00019.3%15.6%29.6%
130,00022.0%17.8%33.5%
140,00021.1%18.8%27.5%
150,00013.9%8.3%29.4%
160,00022.5%19.3%31.2%
170,00014.0%9.1%27.7%
180,00015.2%10.7%27.7%
190,00017.3%11.3%33.6%
195,00012.3%6.8%27.7%Best single-speaker
200,00013.2%6.5%31.7%
205,00013.2%6.6%31.5%
210,00015.1%9.7%29.9%
215,00012.0%7.0%25.8%
220,00014.7%9.2%29.6%
225,00012.9%7.6%27.5%
230,00011.8%5.4%29.6%Best raw single-speaker
235,00012.0%6.3%27.5%Last checkpoint (single-speaker)
235,0005.1%Final: 5 voices, 18 sentences, optimized generation
Training Configuration
ModelF5TTS_v1_Base (335M, 22-layer DiT)
Dataset48,401 clips, 5 speakers, 24kHz, ~112h
Batch size4,000 frames/GPU
Grad accumulation4
Effective batch16,000 frames
Learning rate7.5e-5
Warmup2,000 steps
Epochs100
TokenizerCustom (extended vocab, 2,550 tokens)
Precisionbf16
HardwareRunPod RTX 5000 Ada (32GB)
Speed~2.15 updates/s, ~18 min/epoch
Total updates~235,400

Generation Parameters (Showcase)

ODE methodmidpoint
NFE steps64
CFG strength2.0
Sway sampling coef-1.0
Pad trickenabled
Seed selectionBest of up to 20 seeds per sample, selected by lowest Whisper WER