Cum este antrenat Chat GPT?

cum-este-instruit-chat-gpt-768x435-718x.jpg

Dacă sunteți familiarizat cu ChatGPT, este posibil să fi auzit că este antrenat pe un corpus vast de date. Dar ce înseamnă exact acest lucru? În acest articol, ne vom adânci în detalii ale modului în care este antrenat ChatGPT."

ChatGPT este un model de limbaj pre-antrenat care a fost ajustat prin combinarea tehnicilor de învățare supervizată și prin recompensă. Procesul de antrenare al ChatGPT a implicat introducerea unei cantități mari de date textuale în model și ajustarea parametrilor săi astfel încât să poată genera text similar cu cel din corpusul de antrenare.

Această abordare de învățare nesupervizată a fost utilizată pentru acest proces, ceea ce înseamnă că modelul nu a primit feedback explicit cu privire la faptul că textul generat era corect sau incorect. În schimb, modelul își ajustează parametrii pe baza probabilității ca textul generat să fie similar textului din corpusul de antrenament.

GPT-3, modelul părinte al ChatGPT-3, este unul dintre cele mai mari modele de limbaj create vreodată, cu 175 de miliarde de parametri și un context de 2048 de token-uri. Este antrenat pe sute de miliarde de cuvinte din Common Crawl, WebText2, Books1/2, Wikipedia în engleză și exemple de cod în CSS, JSX, Python și alte limbaje de programare.

Metoda de antrenament utilizată pentru GPT-3 este preantrenament generativ, ceea ce înseamnă că este antrenat să prezică următorul token sau cuvânt din propoziția de intrare.

Cea mai bună alternativă la Chat GPT

Învățarea supervizată

Modelul ChatGPT a fost ajustat prin intermediul unui proces de învățare supervizată de către formatori umani. Acești formatori au participat la conversații, preluând atât rolul utilizatorului, cât și al asistentului AI.

Li s-au oferit sugestii din partea modelului să îi ghideze în compunerea răspunsurilor lor, care au fost apoi combinate cu setul de date InstructGPT convertit în format de dialog.

Învățarea prin consolidare

Modelul a fost îmbunătățit prin învățarea cu recompense utilizând Proximal Policy Optimization (PPO). Trainerii umani au evaluat răspunsurile generate de model dintr-o conversație anterioară și au folosit acele evaluări pentru a dezvolta modele de recompensă. Modelul a fost apoi reglat în funcție de aceste modele de recompensă.

Procesul de ajustare a fost efectuat de mai multe ori pentru a obține o performanță mai bună. Algoritmii PPO sunt mai eficienți din punct de vedere al costurilor comparativ cu alți algoritmi și au performanță mai rapidă, ceea ce îi face ideali pentru acest proces.

OpenAI continuă să colecteze informații de la utilizatorii care interacționează cu ChatGPT, care pot fi ulterior utilizate pentru a îmbunătăți și rafina modelul în continuare.

Utilizatorii au opțiunea să voteze răspunsurile ChatGPT de UP sau DOWN și au, de asemenea, oportunitatea de a oferi feedback suplimentar. Aceste date sunt utilizate pentru a îmbunătăți performanțele modelului și pentru a-l face mai bun la generarea de text asemănător cu cel uman.

Datele folosite pentru antrenarea modelului

ChatGPT-3 este un model lingvistic optimizat din seria GPT-3.5, care a fost antrenat folosind o infrastructură de supercomputing Azure AI. Acesta a fost antrenat pe o cantitate masivă de text strâns de pe internet, care include cărți, forumuri de discuții, articole, site-uri web, lucrări academice, cod și alte surse.

Corpusul de date text utilizat pentru instruirea ChatGPT-3 a fost de peste 45 terabytes, ceea ce este extrem de mare și contribuie la capacitatea modelului de a genera texte similare cu cele produse de un jurnalist sau autor.

Articole relevante

Mai multe informatii >>