
螞蟻與清華開(kāi)源強(qiáng)化學(xué)習(xí)框架AReaL-boba,數(shù)學(xué)推理能力達(dá)SOTA水平
3月31日,螞蟻集團(tuán)與清華大學(xué)聯(lián)合推出開(kāi)源強(qiáng)化學(xué)習(xí)訓(xùn)練框架AReaL-boba,研發(fā)團(tuán)隊(duì)采用該框架訓(xùn)練出數(shù)學(xué)推理能力達(dá)到業(yè)內(nèi)領(lǐng)先水平(State-of-the-Art,SOTA)的7B推理模型,并以極低成本實(shí)現(xiàn)了32B推理大模型的高效復(fù)現(xiàn)。...