Studiul Apple evidențiază limitările raționamentului matematic în LLM-uri
Cercetătorii Apple au scos la iveală vulnerabilitățile modelelor de limbaj mari (LLM), cum ar fi ChatGPT și LLaMA, în ceea ce privește raționamentul matematic. Studiul subliniază că, în ciuda progreselor în procesarea limbajului natural, aceste modele nu efectuează un raționament autentic, ci se bazează pe reproducerea tiparelor învățate din datele de antrenament.
GSM-Symbolic: Un benchmark pentru testarea raționamentului matematic
Pentru a evalua capacitatea de raționament matematic a LLM-urilor, Apple a creat GSM-Symbolic, un benchmark care generează variații simbolice ale întrebărilor matematice. Acesta permite o evaluare mai detaliată a modului în care modelele răspund la întrebări similare, dar ușor modificate.
Rezultatele testelor au arătat că performanțele LLM-urilor variază semnificativ la schimbări minore ale valorilor numerice sau ale formulării întrebărilor. Această fragilitate sugerează că modelele nu efectuează raționament logic autentic, ci se bazează pe recunoașterea de tipare. Pe măsură ce complexitatea întrebărilor crește, acuratețea răspunsurilor scade, în unele cazuri cu până la 65%.
Limitele raționamentului și erorile de complexitate
Un aspect important al studiului este că modelele întâmpină dificultăți atunci când întrebările includ propoziții irelevante pentru soluția matematică. Acest lucru indică o problemă fundamentală în modul în care LLM-urile interpretează informațiile și separă datele relevante de cele irelevante. De exemplu, întrebări simple, precum adunarea merelor, pot deveni problematice atunci când se adaugă detalii irelevante despre obiecte, cum ar fi culorile merelor.
Implicații și context
Studiul Apple sugerează că limitările actuale ale LLM-urilor derivă din faptul că acestea se bazează pe machine learning pentru a reproduce tipare din datele de antrenament și nu pe un raționament autentic. Aceasta le face vulnerabile la erori când sunt confruntate cu întrebări ușor diferite de cele din seturile de date de antrenament.
În contextul competiției dintre giganții tech, cum ar fi Google și OpenAI, acest studiu poate semnala intenția Apple de a lansa propria soluție AI, Apple Intelligence, punând accent pe corectarea acestor limitări.
✍️ Autor: Bejenaru Alexandru Ionut – [email protected]
🔗 Link intern: https://diagnozabam.ro/sfaturi

