為什麼ChatGPT和Gemini 如此擅長捏造事實

“Hallucinations 幻覺” - 生成式AI中的一個充滿爭議的術語

像OpenAI的ChatGPT這樣的AI聊天機器人依賴於一種稱為“大型語言模型”（LLM）的AI來生成它們的回應。LLM是一個經過數百萬文本資源訓練的電腦程序，能夠讀取和生成“自然語言”文本——即人類自然書寫或談話的語言。不幸的是，它們也可能犯錯。

在學術文獻中，AI研究人員經常將這些錯誤稱為“幻覺”。但隨著這個話題成為主流，這個標籤變得有爭議，因為一些人認為它賦予AI模型人類化特徵（暗示它們具有類似人的特點）或給予它們代理性（暗示它們可以自主做出選擇），在不應該暗示這些情況的地方。商業LLM的創造者也可能使用幻覺作為藉口來責怪AI模型的錯誤輸出，而不是對輸出本身負責。

儘管如此，生成性AI是如此新穎，我們需要借用現有概念的隱喻來向更廣泛的公眾解釋這些高度技術性的概念。在這方面，我們認為“編造”一詞，雖然同樣不完美，但比“幻覺”更好的隱喻。在人類心理學中，當某人的記憶出現空白，大腦會說服力地填補其餘部分，而不是有意欺騙他人時，會發生“編造”。ChatGPT並_不_像人腦那樣運作，但“編造”一詞可以說是一個更好的隱喻，因為這里有一個創造性的填空原則在起作用，正如我們下面將探討的。

當AI機器人生成可能誤導、提供錯誤信息或誹謗的虛假信息時，這是一個大問題。最近，《華盛頓郵報》報導了一位法律教授發現ChatGPT將他列在了一個性騷擾他人的法律學者名單上。但這從未發生過——ChatGPT捏造了這一點。同一天，Ars 報導了一位澳大利亞市長據稱發現ChatGPT聲稱他因賄賂被定罪並入獄，完全是捏造的。

ChatGPT推出後不久，人們開始宣稱搜索引擎的終結。與此同時，許多關於ChatGPT的“編造”案例開始在社交媒體上流傳。AI機器人發明了不存在的書籍和研究，教授未曾撰寫的出版物，假的學術論文，錯誤的法律引用，不存在的Linux系統功能，虛構的零售吉祥物，以及毫無意義的技術細節。

然而，儘管ChatGPT傾向於隨意捏造事實，但與直覺相反，它對抗“編造”的抵抗力正是我們今天討論它的原因。一些專家指出，與普通的GPT-3（它的前身模型）相比，ChatGPT在技術上是一種改進，因為它能拒絕回答某些問題或讓你知道它的回答可能不準確。

“Chat的成功的一個主要因素是，它設法足夠抑制編造，使得對於許多常見問題來說這一點不被察覺，”Riley Goodside說，他是一位大型語言模型專家，現任Scale AI的首席提示工程師。“與其前身相比，ChatGPT明顯不太容易捏造事實。”

如果作為一個頭腦風暴工具，ChatGPT的邏輯跳躍和“編造”可能導致創造性突破。但當作為一個事實參考時，ChatGPT可能會造成真正的傷害，而OpenAI知道這一點。

模型推出不久後，OpenAI首席執行官Sam Altman 在Twitter上寫道，“ChatGPT非常有限，但在某些事情上足夠好，以至於創造了一種誤導性的偉大印象。現在依賴它做任何重要的事情都是一個錯誤。它是進展的預覽；我們在穩健性和真實性上還有很多工作要做。”在後來的tweet中，他寫道，“它確實知道很多事情，但危險在於它自信且經常錯誤。”