當AI技術越來越成熟,寫程式碼也沒有難度,很多公司是否都開始考慮聘請一位AI虛擬工程師了呢?新創公司「Cognition」就看準這個機會,打造了名叫「Devin」的AI工程師,可以幫公司寫軟體、架站,還能幫忙除BUG。
Devin 的創造者之一,拿過多面國際資訊奧林匹亞競賽(International Olympiad in Informatics,IOI)金牌得主 Steven Hao ,讓 Devin 使用他的社群帳號,加入了客戶(工作協作服務Slack)的工作群組。
下面的截圖中的 akshat 就是 AI 基礎設施創業公司 Modal Labs 的 CTO Akshat Bubna。為解決一個技術問題,Devin 可以與Akshat Bubna交流,並根據回覆調整了程式碼方案。對話之專業,圍觀者看了直呼這個世界太瘋狂。
對話的開始,AI 程式設計師 Devin 正在詢問有關 Modal Lab 平台的金鑰的生命週期問題,特別是金鑰更新後傳播到正在運行的應用程式所需的時間。
Devin 表示自己已經查閱了文件,包括金鑰和環境變數指南、CLI 命令參考、API 參考以及容器生命週期鉤子和參數,但依舊沒有找到關於金鑰傳播時間的明確資訊。
Devin 詢問了更新的金鑰通常需要多長時間才能被運行中的應用程式使用,因為這對於他們的營運至關重要,瞭解這一點將有助於管理他們的部署流程。
人類 CTO 解釋說,當金鑰更新時,他們不會使已經運行的 Modal 容器失效,但是新啟動的容器將會讀取更新後的值。
Devin 對此表示感謝,並決定暫時採用手動方法來管理 Modal 中的金鑰,即在需要時呼叫 modal deploy 命令來觸發相關應用程式容器的重啟。
看完整個過程後,同樣是 AI 創業者的 Raunak Chowdhuri 評價:「發現問題、建立工單、調整程式碼,最好的人類開發者就是這麼工作的。」
Devin 更多實測結果
拿到 Devin 早期測試資格的人和公司並不多,不過還是陸陸續續有人曬出實測結果。
熱衷 AI 的沃頓商學院教授 Ethan Molick 試過後,認為其新穎的即時互動方式是最值得關注的。
您可以隨時與它「交談」,就像與人交談一樣,它會在後台不斷地執行和偵錯您的想法。
在測試中,Ethan Mollick 要求 Devin 開發一個解釋「創業公司融資中的股權稀釋」的網站。
不過他透露,AI 還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。
要想把一個重大項目交給人工智慧來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。
另一位曬出測試過程的創業者 Mckay Wrigley 更激動一些。
在他曬出的 27 分鐘測試中,只發了一個 GitHub 連接,讓 Devin 部署來自開放原始碼專案的程式碼。
Devin 自主把任務拆解成一系列子步驟,並一步步開始執行。
執行過程中,Devin 在安裝 Supabase 資料庫時遇到了障礙,自己打開了對應的 Github 倉庫開始查閱文件……
從後續終端反饋中可以看出,Devin 查到了運行 Supabase 所需的各種連接埠和密匙都應該填什麼。
(裝過的都知道,確實挺麻煩……)
與此同時,Devin 還在根據實際情況不斷修改自己的後續計畫。
一段時間過後,一個本地的聊天機器人程式就跑起來了。
測試一段時間後 Mckay Wrigley 認為,Devin 已經可以算 Agent 的 ChatGPT 時刻。
復現 Devin 計畫 ing
Devin 這邊大夥還在接連測試,另一邊開源「復現」方案也在進行中……
這不,GitHub 三萬 Star 項目 MetaGPT 就上新了「開源版 Devin」。
名為資料直譯器(Data Interpreter):
同 Devin 一樣,Data Interpreter 也能實現自主程式,能迭代式觀察資料,預測分析病情進展、機器運行狀態;還能建構機器學習模型、進行數學推理、自動回覆電子郵件、仿寫網站……
比如從 NVIDIA 股價資料中分析收盤價格趨勢:
分析資料預測葡萄酒品質:
除此以外,阿里 Qwen 成員 Binyan Hui 等人開啟了 OpenDevin 項目,剛剛起步已獲得 1.2k Star。
Binyan Hui 發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間內就完成了前端原型。
同時項目團隊也在招新成員:
另外,還一個名為 Maisa AI 的團隊推出了 Maisa KPU(Knowledge Processing Unit),被網友認為與 Devin 有一些競爭。
目前 Maisa KPU 處於測試階段,它可以解決複雜問題和推理,團隊發佈的基準測試結果如下:
根據 demo 展示,KPU 可以成為「智慧客服」,在客戶沒有正確寫好訂單號的情況下,幫助客戶解決訂單未送達的問題:
Devin 基準測試技術報告發佈
最近,Devin 創始團隊 Cognition 還發佈關於 SWE-bench 測試的技術報告。
除了之前已公佈的測試結果之外,團隊還透露了一些新消息。
比如,Cognition 的目標之一是讓 Devin 這個專門從事軟體開發的 AI 智慧體能夠成功地為大型、複雜的程式碼庫貢獻程式碼。
選擇在 SWE-bench 上端到端運行智慧體,也是考慮了它更接近現實世界的軟體開發。
此外,研發團隊還透露,為了防止 Devin 在測試中作弊,比如尋找外部的 pull requests 資訊,測試已做相關設定,確保 Devin 無法訪問相關資訊,並且在此過程中也已人工手動檢查了 Devin 運行情況。
最後團隊強調 Devin 仍處於起步階段,還有很大改進空間:
更多細節感興趣的讀者們可查看報告詳情。
Devin 發佈不到一週,網友們的討論已十分熱烈。
比如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。
以後 Stack Overflow 上都是各種 Devin 在提問,人,就只能被擠出去(Stack Overflow危!!!):
有網友回應:它們可以互相回答問題。
還有網友發現 Devin 背後團隊 Cognition 正在招全職軟體工程師,於是緩緩打出一個問號:Devin 不是應該填補這些職位空缺來為他們省錢嗎?
最後,你會用 Devin 來做些什麼嗎?
- 延伸閱讀:NetApp 藉由智慧型資料基礎架構加速 AI 創新
- 延伸閱讀:高通推出 Snapdragon 8s Gen 3 晶片,讓生成式 AI走進中高階手機、小米將首發
- 延伸閱讀:COMPUTEX 2024 Keynote 重磅登場!AMD、高通、Intel 等科技巨擘共同演繹 AI 與未來科技
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!