Harvard și Google colaborează pentru a crea un set de date de un milion de cărți din domeniul public, destinat antrenării modelelor AI, scrie TechCrunch.
Cărțile, care provin din proiectul de scanare Google Books, acoperă o varietate de genuri, limbi și autori clasici precum Dickens, Dante și Shakespeare, ale căror opere nu mai sunt protejate de drepturi de autor, potrivit stiripesurse.
Citește și: Trei sferturi din suprafaţa Pământului a devenit ‘permanent mai aridă’
Setul de date face parte din inițiativa Harvard Institutional Data Initiative (IDI), lansată oficial joi, și beneficiază de susținere financiară din partea Microsoft și OpenAI.
Greg Leppert, directorul executiv al IDI, spune că obiectivul este de a „nivela terenul de joc”, oferind acces la un volum imens de date cercetătorilor și startup-urilor din domeniul AI care doresc să-și antreneze modelele lingvistice.
Momentan, nu se știe când și cum va fi disponibil acest set de date, dar implicarea Google promite o distribuire amplă a acestei resurse valoroase.
Citește și: Jean-Claude Juncker: Donald Trump ar trebui să fie tratat cu respect
Proiectul reprezintă, de altfel, un pas important în democratizarea accesului la datele necesare pentru dezvoltarea inteligenței artificiale, având potențialul de a accelera progresul în cercetare și inovare în domeniu.











