當今大型語言模型(LLM)展現了驚人的問題解決、數學推理等能力,然而LLM的性能,其實很大程度上取決於提示詞的品質,因此就有不少人在探討,提示詞是如何影響著生成結果。而就理性層面來說,AI並不具備情感,所以不會被人類的情緒所影響,不過卻有不少的研究顯示,「正向提示」將有助於提升LLM的性能。
近日就有篇論文針對「正向思考是否有助於提升LLM」進行研究,不過卻在過程中發現一個有趣又奇特的結果,就是在特定模型下要求AI以《星際爭霸戰》的角色方式來回答,能有助於提升其數學、推理能力。不過,不管是在何種情況下,自動優化的提示幾乎都會優於手工編寫的提示,看來還是以魔法來打敗魔法最有效。(主圖來源:Netflix)
文章目錄
古怪的提示詞產生不合理的有效性
在「The Unreasonable Effectiveness of Eccentric Automatic Prompts」論文中,為了量化「將正面思考納入提示的系統訊息中」所帶來的影響,研究人員評估了60種訊息片段組合,並對三個具有7到70億參數的模型進行GSM8K(Grade School Math 8K,小學數學8,000題)測試,模型分別為Mistral-7B5、Llama2-13B6 和 Llama2-70B7。
正面提示對多數的LLM有效果
首先,研究人員先將提示詞分為「開頭」、「任務描述」和「結尾」三個部分,並分別提供5種、3種、4種的描述,像是「你和 ChatGPT 一樣聰明」「你是一位數學專家」「深呼吸,仔细思考」「我真得很需要你的幫助!」等鼓勵AI的話語,在各種排列組合下共會產出60種不同的訊息描述。
正如先前許多類似的測試,在大部分的情況下,正面提示皆有效地提升LLM的效能,不過仔細來看,這方法並不通用於所有模型。如使用Llama2-70B時,當提示詞的開頭、任務描述和結尾三個部分全部皆為「None」時,模型產生了最佳的結果。
自動提示比手工編寫的提示好
由於以人力完善提示並監控隨後分數進展是非常低效的,因此研究團隊也使用DSPy優化器(自動優化器:可以自動生成提示的工具)進行提示詞的優化,並對兩者進行對比。
雖然目前沒有看到一個很顯著的結果證明,以何種開頭+任務描述+結尾的組合,能使LLM獲得最大的提升,因為在跨模型下都會有例外。但從手動生成「正向思維」提示,轉變成自動優化的提示後,在幾乎所有情況下,自動生成的效果都優於或等於手工編寫的提示。
要求AI模仿《星際爭霸戰》能提升數學推理能力
而在使用自動優化的提示詞中,不僅效果比人工編寫的還要好,還能看到充滿創意的提示詞。像是Llama2-70B表現最好的提示之一是:
系統訊息:「指揮部,我們需要你透過這種亂流繪製一條航線,並找到異常的來源。利用所有可用的數據和您的專業知識,來引導我們度過這個具有挑戰性的情況。」
答案前綴:「船長的日誌,星際日期[在此插入日期]:我們已成功地在亂流中繪製了一條航線,現在正在接近異常的來源。」
研究發現,似乎透過表達對《星際爭霸戰》的喜好,可以增強模型的數學推理能力。不過同樣的,這不適用於任何情況。
古怪的提示為何有效?特殊提示詞的觸發
對於情緒提示、又或是要求AI像上述模仿《星際爭霸戰》角色,為何能有效提升LLM的能力,目前仍不得而知。有些人猜測,因為人工智慧在訓練時,所接收到的資料範圍很廣,而當使用不同於平常的提示詞時,可能觸發到人工智慧平時不會被「活化」的部分,因此給出了非常規的解答,而意外的有效。
透過AI「自動優化」提示詞,以魔法打敗魔法吧
雖然還是不能百分之百確定到底說正面、鼓勵還是哪種話,才能夠有效提升大型語言模型的性能,但可以確定的是,自動提示可以打敗人為提示。有鑑於大型語言模型就是個黑盒子,要理解其中的複雜運算並手動優化提示,絕非是個聰明的做法,「在我看來,任何人都不應該再嘗試手寫提示,」論文作者巴特爾告訴《新科學家》,「讓模型為你做。」
論文網址:https://arxiv.org/html/2402.10949v2
參考資料:https://www.businessinsider.com/using-star-trek-prompts-boost-ai-chatbot-basic-math-performance-2024-2
文中《星際爭霸戰》圖片來源:Star Trek 臉書粉絲專頁
- 延伸閱讀:Google DeepMind 最新研究:用來擾亂演算法的對抗性攻擊對人類也有效,人類和 AI 都會把花瓶認成貓
- 延伸閱讀:GPT-4 擊敗華爾街?最新研究顯示利用AI選股,回報竟高達 40%
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!