大型語(yǔ)言模型——那些能對(duì)我們的提示給出類(lèi)人回答的智能聊天機(jī)器人——會(huì)影響我們的觀點(diǎn)嗎?

IEEE智能系統(tǒng)》雜志中描述的一項(xiàng)實(shí)驗(yàn)表明,答案是肯定的。這項(xiàng)研究的影響對(duì)教師批改論文、員工評(píng)估以及許多其他可能影響我們生活的情況都有深遠(yuǎn)意義。

研究?jī)?nèi)容

該研究的設(shè)計(jì)重點(diǎn)關(guān)注兩個(gè)著名的大型語(yǔ)言模型(LLM)提出的不同觀點(diǎn)。每個(gè)大型語(yǔ)言模型都被要求對(duì)兩篇不同的專(zhuān)利摘要按照1到10分的標(biāo)準(zhǔn)進(jìn)行評(píng)估,重點(diǎn)關(guān)注可行性和顛覆性等特性。

研究作者將專(zhuān)利摘要以及大型語(yǔ)言模型給出的分?jǐn)?shù)提供給不同組的研究生。每組學(xué)生只看到一個(gè)評(píng)分——要么是較高的評(píng)分,要么是較低的評(píng)分。在不知道其他組所看到內(nèi)容的情況下,這些學(xué)生隨后被要求自己對(duì)專(zhuān)利摘要進(jìn)行評(píng)分。

看到大型語(yǔ)言模型給出較高評(píng)分(如“9”分)的組給出的評(píng)估分?jǐn)?shù)比看到較低評(píng)分(如“4”分)的組要高。然而,他們并非只是照搬分?jǐn)?shù)。相反,看到“9”分的組給出的平均評(píng)分約為7.5分,而看到“4”分的組給出的平均評(píng)分略高于5分。這表明,盡管大型語(yǔ)言模型的評(píng)分對(duì)他們產(chǎn)生了影響,但參與者仍然做出了自己的判斷。

IEEE高級(jí)會(huì)員Ayesha Iqbal表示:“實(shí)驗(yàn)結(jié)果表明,人工智能工具能夠影響決策任務(wù),比如教師給學(xué)生的研究論文評(píng)分,或者企業(yè)評(píng)估員工、產(chǎn)品、軟件以及其他知識(shí)成果時(shí)。如果不同的人工智能工具給出不同的評(píng)級(jí),而人們又依賴(lài)這些評(píng)級(jí),那么人們對(duì)同一個(gè)事物就可能給出不同的評(píng)價(jià)。這就引出了一個(gè)重要問(wèn)題:我們是否想要偏向于人工智能的推薦呢?

我們應(yīng)該何時(shí)使用人工智能來(lái)輔助形成判斷?

專(zhuān)業(yè)人士使用大型語(yǔ)言模型(LLM)來(lái)協(xié)助完成諸如給論文評(píng)分或評(píng)估項(xiàng)目等任務(wù)的初稿是相當(dāng)常見(jiàn)的做法。專(zhuān)業(yè)人士可能不會(huì)將大型語(yǔ)言模型的輸出作為最終成果,但它們提供了一個(gè)有用且省時(shí)的起點(diǎn)。鑒于該研究中所描述的錨定效應(yīng),這是個(gè)好主意嗎?

研究表明,與人類(lèi)一樣,大型語(yǔ)言模型會(huì)給出支持或反對(duì)某些觀點(diǎn)的理由。依賴(lài)大型語(yǔ)言模型可能類(lèi)似于與同伴合作。同時(shí),大型語(yǔ)言模型往往具有一些特性,這些特性可能會(huì)使它們或多或少地有用。一些大型語(yǔ)言模型往往更樂(lè)觀,給出的答案更長(zhǎng);其他的可能更悲觀,給出的答案更短。

該研究的作者指出,教育工作者在做諸如批改論文之類(lèi)的事情時(shí)可能僅使用一個(gè)大型語(yǔ)言模型以保持一致性,但在處理更復(fù)雜的任務(wù)(如評(píng)估商業(yè)項(xiàng)目)時(shí)可能會(huì)使用多個(gè)大型語(yǔ)言模型。

“在我們的個(gè)人和職業(yè)生活中,為人工智能的使用設(shè)定界限和限制是很重要的,”Iqbal說(shuō),“我們需要確定人工智能技術(shù)在何時(shí)何地是合適且有益的,并識(shí)別出需要人類(lèi)判斷和干預(yù)的情況。通過(guò)對(duì)技術(shù)使用和決策過(guò)程保持控制,可以避免對(duì)人工智能的過(guò)度依賴(lài)?!?/p>

分享到

zhupb

相關(guān)推薦