
OpenAI tocmai a lansat noi modele AI pentru transcriere și generare vocală. Modelul text-to-speech „gpt-4o-mini-tts” nu doar că sună mai realist, dar poate fi manipulat prin instrucțiuni simple – „vorbește ca un savant nebun” sau „folosește o voce calmă”.
Noile modele de speech-to-text, „gpt-4o-transcribe” și „gpt-4o-mini-transcribe”, înlocuiesc modelul Whisper, care avea tendința de a inventa cuvinte și pasaje întregi, conform Techcrunch, informează stiripesurse.
Harris de la OpenAI susține că aceste modele sunt „mult îmbunătățite” și nu mai halucinează atât de mult.
Totuși, dacă vorbiți în limbi precum Tamil sau Telugu, ghinion – modelul greșește aproximativ 3 din 10 cuvinte în aceste limbi.
Spre deosebire de Whisper, OpenAI nu planifică să facă noile modele disponibile în open source. Motivul invocat: sunt „prea mari” pentru a rula local.
Astfel, dezvoltatorii vor trebui să folosească exclusiv API-ul companiei pentru a accesa aceste tehnologii.
This post was last modified on 22/03/2025 16:09 16:09