Studiul Apple evidențiază limitările raționamentului matematic în LLM-uri

Studiul Apple evidențiază limitările raționamentului matematic în LLM-uri - Limitarile rationamentului matematic in LLM uri studiu Apple foto Freepik e1728909307526 780x470 1

Cercetătorii Apple au scos la iveală vulnerabilitățile modelelor de limbaj mari (LLM), cum ar fi ChatGPT și LLaMA, în ceea ce privește raționamentul matematic. Studiul subliniază că, în ciuda progreselor în procesarea limbajului natural, aceste modele nu efectuează un raționament autentic, ci se bazează pe reproducerea tiparelor învățate din datele de antrenament.

GSM-Symbolic: Un benchmark pentru testarea raționamentului matematic

Pentru a evalua capacitatea de raționament matematic a LLM-urilor, Apple a creat GSM-Symbolic, un benchmark care generează variații simbolice ale întrebărilor matematice. Acesta permite o evaluare mai detaliată a modului în care modelele răspund la întrebări similare, dar ușor modificate.

Rezultatele testelor au arătat că performanțele LLM-urilor variază semnificativ la schimbări minore ale valorilor numerice sau ale formulării întrebărilor. Această fragilitate sugerează că modelele nu efectuează raționament logic autentic, ci se bazează pe recunoașterea de tipare. Pe măsură ce complexitatea întrebărilor crește, acuratețea răspunsurilor scade, în unele cazuri cu până la 65%.

Limitele raționamentului și erorile de complexitate

Un aspect important al studiului este că modelele întâmpină dificultăți atunci când întrebările includ propoziții irelevante pentru soluția matematică. Acest lucru indică o problemă fundamentală în modul în care LLM-urile interpretează informațiile și separă datele relevante de cele irelevante. De exemplu, întrebări simple, precum adunarea merelor, pot deveni problematice atunci când se adaugă detalii irelevante despre obiecte, cum ar fi culorile merelor.

Implicații și context

Studiul Apple sugerează că limitările actuale ale LLM-urilor derivă din faptul că acestea se bazează pe machine learning pentru a reproduce tipare din datele de antrenament și nu pe un raționament autentic. Aceasta le face vulnerabile la erori când sunt confruntate cu întrebări ușor diferite de cele din seturile de date de antrenament.

În contextul competiției dintre giganții tech, cum ar fi Google și OpenAI, acest studiu poate semnala intenția Apple de a lansa propria soluție AI, Apple Intelligence, punând accent pe corectarea acestor limitări.

Sursa

✍️ Autor: Bejenaru Alexandru Ionut – [email protected]

🔗 Link intern: https://diagnozabam.ro/sfaturi

🤝 Sustine DiagnozaBAM

Continutul este gratuit. Donatia este complet voluntara.

Doneaza pe Ko-fi

Revizuit la data de 02.04.2025