OpenAI lansează modele AI de transcriere și generare vocală mult mai bune

OpenAI tocmai a lansat noi modele AI pentru transcriere și generare vocală. Modelul text-to-speech „gpt-4o-mini-tts” nu doar că sună mai realist, dar poate fi manipulat prin instrucțiuni simple – „vorbește ca un savant nebun” sau „folosește o voce calmă”.

Noile modele de speech-to-text, „gpt-4o-transcribe” și „gpt-4o-mini-transcribe”, înlocuiesc modelul Whisper, care avea tendința de a inventa cuvinte și pasaje întregi, conform Techcrunch, informează stiripesurse.

Citește și: Rata șomajului din Germania rămâne la un nivel ridicat, în timp ce problemele industriei din cea mai mare economie a Europei continuă

Harris de la OpenAI susține că aceste modele sunt „mult îmbunătățite” și nu mai halucinează atât de mult.

Totuși, dacă vorbiți în limbi precum Tamil sau Telugu, ghinion – modelul greșește aproximativ 3 din 10 cuvinte în aceste limbi.

Spre deosebire de Whisper, OpenAI nu planifică să facă noile modele disponibile în open source. Motivul invocat: sunt „prea mari” pentru a rula local.

Citește și: Kremlinul nu cedează niciun centimetru: Anexarea teritoriilor ucrainene ocupate de către Rusia este “nenegociabilă”

Astfel, dezvoltatorii vor trebui să folosească exclusiv API-ul companiei pentru a accesa aceste tehnologii.

This post was last modified on 22/03/2025 16:09 16:09

Tags: OpenAItranscriere

Diverse