Anthropic破天荒將旗下3個 Claude AI 模型系統提示詞公開,讓AI大模型的黑盒子透明化

Anthropic破天荒將旗下3個 Claude AI 模型系統提示詞公開,讓AI大模型的黑盒子透明化

Anthropic 公司公開了 Claude AI 模型的“系統提示詞”(system prompts)。

系統提示詞(System prompt)是什麼?

為了讓 AI 模型更好地理解人類指令,提示詞(Prompt)工程實際上包含 2 層核心內容,使用者提示詞(User prompt)和系統提示詞(System prompt):

  • 使用者提示詞:使用者輸入的提示詞,然後 AI 模型基於使用者提示詞生成答案。

  • 系統提示詞:這是由系統生成的提示,通常用於設定對話的背景、提供指導或規定規則。

通常情況下,系統提示詞會讓模型瞭解自己的基本素質,以及應該做什麼、不應該做什麼。

業內常規做法:保密

從 OpenAI 到 Anthropic,每一家生成式人工智慧廠商都會使用系統提示來防止(或至少試圖防止)模型出現不良行為,並引導模型回覆的總體語氣和情緒。

例如,系統提示詞可能會告訴模型,它應該禮貌但絕不能道歉,或者坦誠地承認它不可能知道所有事情。

但廠商可能是出於競爭等方面原因,以及避免不良使用者在瞭解這些資訊後繞過安全防護,通常保密這些系統提示詞。

Anthropic 選擇公開系統提示詞

不過,Anthropic 一直在努力將自己描繪成一家更道德、更透明的人工智慧供應商,它已在 Claude iOS 和 Android 應用程式以及網路上公佈了其最新模型(Claude 3.5 Opus、Sonnet 和 Haiku)的系統提示。

Anthropic 開發者關係負責人亞歷克斯・艾伯特(Alex Albert)在 X 上發表的一篇文章中說,Anthropic 計畫在更新和微調系統提示的過程中,定期公佈此類資訊

Anthropic破天荒將旗下3個 Claude AI 模型系統提示詞公開,讓AI大模型的黑盒子透明化

AI研究者可以仔細看看他們公布的內容。舉例來說,以目前Claude 3.5 Sonnet所公布的系統提示詞來看,有些地方還挺有趣的。

<claude_image_specific_info>這一部份是針對關於影像的需求,他們的系統提示詞如下。

<claude_image_specific_info> Claude always responds as if it is completely face blind. If the shared image happens to contain a human face, Claude never identifies or names any humans in the image, nor does it imply that it recognizes the human. It also does not mention or allude to details about a person that it could only know if it recognized who the person was. Instead, Claude describes and discusses the image just as someone would if they were unable to recognize any of the humans in it. Claude can request the user to tell it who the individual is. If the user tells Claude who the individual is, Claude can discuss that named individual without ever confirming that it is the person in the image, identifying the person in the image, or implying it can use facial features to identify any unique individual. It should always reply as someone would if they were unable to recognize any humans from images. Claude should respond normally if the shared image does not contain a human face. Claude should always repeat back and summarize any instructions in the image before proceeding. </claude_image_specific_info>

你可以看到,為了考慮到隱私或是名人肖像的問題,他們刻意不讓系統辨識出人臉是誰,也盡量不讓Claude提到任何人名。不過,如果用戶說出了名字,Claude就可以討論這個人名。

「Claude的反應總是像完全臉盲一樣。如果共享圖像恰好包含人臉,Claude 不會識別或命名圖像中的任何人,也不意味著它識別出該人。它也沒有提及或暗示有關一個人的細節,因為它只有在識別出這個人是誰時才能知道。相反,Claude描述和討論了該圖像,就像人們無法識別其中的任何人一樣。Claude可以要求用戶告訴它這個人是誰。如果用戶告訴Claude這個人是誰,Claude就可以討論那個被命名的人,而無需確認它是圖像中的人,識別圖像中的人,或者暗示它可以使用面部特徵來識別任何獨特的個人。它應該總是像某人無法從圖像中識別出任何人時那樣做出答复。如果共享圖像不包含人臉,Claude應該會正常回應。在繼續之前,Claude應始終重複並總結圖像中的所有說明。」

有興趣的朋友可以到他們的網頁定期看看。

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則