En talesynthesizer tager
tekst som dets primære input. Denne tekst kan være i forskellige formater:
* almindelig tekst: Det mest almindelige format, der kun indeholder tegn og tegnsætning.
* Formateret tekst: Inkluderer formateringselementer som fed, kursiv og linjepauser.
* fonetiske transkriptioner: Brug af fonetiske symboler til at repræsentere lyden af teksten.
* prosodisk information: Yderligere oplysninger om rytmen, intonation og vægt af teksten.
Ud over tekst kan nogle talesynthesizere acceptere yderligere input:
* Stemmeparametre: Tillader brugerne at tilpasse den syntetiserede stemme, såsom køn, alder, accent og følelsesmæssig tone.
* lydsignaler: Til applikationer som realtids stemmekonvertering, hvor synthesizeren ændrer et eksisterende lydsignal.
Den måde, synthesizeren behandler disse input, kan variere meget på, lige fra enkle regelbaserede systemer til komplekse dybe læringsmodeller. Kerneprincippet forbliver imidlertid det samme: konvertering af tekst til talesignaler.