被字節跳動提告索賠800萬人民幣的實習生，還沒開審卻先拿下NeurIPS 2024最佳論文

先前我們報導過，字節跳動向北京市海淀區人民法院提起訴訟，控告一名前實習生田姓博士生篡改程式碼並攻擊公司內部模型訓練系統。不過，這起案件審判還沒開始，這位攻擊字節跳動訓練叢集的實習生田柯宇，現在傳出獲得了NeurIPS 2024的最佳論文獎。

更巧的是，這篇獲獎論文，恰恰就是他在字節跳動商業化技術部門實習期間與團隊合作發表的。

甚至，這篇論文還是NeurIPS 2024第六高分的論文（7，8，8，8）。

事情在網上曝出的時候，網友們都震驚了：太有戲劇性了，這是什麼短劇的大反轉劇情！

根據網友的說法，田柯宇的這篇論文也是今年中國國內第二篇NeurIPS Best Paper，含金量很高。在此之前，他就已經有多篇論文中稿頂會。

比如被引次數最多的“Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling”，就是ICLR 2023的Spotlight。此外還有，NeurIPS 2021和2020的Poster，ECCV 2020的Poster。

字節跳動商業化技術團隊早在去年就把視覺自回歸模型作為重要的研究方向，團隊規劃了VAR為高優項目，投入研究小組和大量資源。

除了VAR，團隊還發表了LlamaGen等相關技術論文，新的研究成果也將在近期陸續放出。

事件始末：惡意注入程式碼，投毒模型訓練

回看整件事情，可謂反轉又反轉。

兩個月前，圈內人都被這樣一條消息驚掉下巴：「字節跳動大型語言模型訓練被北大實習生攻擊，損失巨大」。

網友們扒出來，事情起因是這位北大高材生在字節跳動實習期間對團隊感到不滿，一氣之下選擇了「投毒」。

具體來說，他利用了Huggingface的load ckpt函數漏洞，craft了一個看似正常的ckpt檔案，但其實是加了payload進去，然後就可以遠端執行程式碼，修改參數了。

這種攻擊方式，可以通過修改或注入惡意程式碼，使模型在載入時被篡改模型權重、修改訓練參數或擷取模型資料。

根據大V“Jack Cui”猜測，這位實習生所用的大概就是這個方法，注入程式碼動態修改別人的optimer，修改參數梯度的方向，以及在各種地方隨機sleep了一小段時間。

修改梯度方向，意味著模型反向傳播過程中計算出的梯度被篡改，就導致模型一直朝錯誤的方向最佳化；而sleep操作，也會明顯降低模型訓練的速度。

甚至有人提到，該實習生可能修改了自己的預訓練模型，因為模型參數是用ckpt檔案保存的，其他人訓練時會載入這個注入惡意程式碼的ckpt檔案，因此也會導致模型訓練出問題。

就在全網歎為觀止之時，田本人卻出來「闢謠」稱這事和自己沒關係——他發完論文後已經從字節跳動離職了，此時有另一個人鑽了漏洞修改模型程式碼，然後趁他離職把鍋扣在他頭上。

結果一個多月後，此事再一次迎來反轉。

有媒體報導稱，法院已經正式受理字節跳動對前實習生田某某的起訴。

法院判令田某某賠償侵權損失800萬元及合理支出2萬元，同時要求其公開賠禮道歉。

字節跳動官方也澄清說，涉事實習生破壞的是團隊研究計畫，並不影響商業化正式計畫，也不涉及字節跳動大型語言模型等其他業務。

最終，這位實習生被字節跳動辭退，交由校方處理。

北大深度學習高材生

資料顯示，田柯宇本科畢業於北航軟體學院，研究生就讀於北大，師從王立威教授，研究興趣為深度學習的最佳化與演算法。

自2021年起，開始在字節跳動實習研究，具體包括超參數最佳化、強化學習演算法、自監督的新型演算法。

這項研究中，他們提出了一種全新範式——視覺自回歸建模（Visual Autoregressive Modeling，VAR）。

論文地址：https://arxiv.org/abs/2404.02905

與傳統的光柵掃描“下一個token預測”方法有所不同，它重新定義了圖像上的自回歸學習，採用粗到細的“下一個尺度預測”或“下一個解析度預測”。

這種簡單直觀的方法使得自回歸（AR）Transformer能夠快速學習視覺分佈，並且具有較好的泛化能力：VAR首次使得類似GPT的AR模型在圖像生成中超越了擴散Transformer。

當前，自回歸模型（AR）主要用於語言模型從左到右、逐字順序生成文字token。同時，也用於圖像生成中，即以光柵掃描的順序從左到右，從上到下順序生成圖像token。

不過，這些AR模型的scaling law未得到充分的探索，而且性能遠遠落後於擴散模型，如下圖3所示。

與語言模型所取得成就相比，電腦視覺中的自回歸模型的強大能力卻被“禁錮”了起來。

而自回歸建模需要定義資料的順序，北大字節跳動團隊研究中重新考慮了如何“排序”圖像：人類通常以分層方式感知或建立圖像，首先捕獲全域結構，然後捕獲局部細節。

這種多尺度、由從粗到細的本質，為圖像提供了一種“秩序”。

同樣，受到廣泛使用的多尺度設計的啟發，研究人員將圖像的自回歸學習定義為圖2(c)中的“下一個尺度預測”，不同於傳統圖2(b)中的“下一個token的預測”。

VAR方法首先將圖像編碼為多尺度的token對應，然後，自回歸過程從1×1token對應開始，並逐步擴展解析度。

在每一步中，Transformer會基於之前所有的token對應去預測下一個更高解析度的token對應。

由此，研究人員將此稱為視覺自回歸建模（VAR）。

VAR包括兩個獨立的訓練階段：在圖像上訓練多尺度VQVAE，在token上訓練VAR Transformer。

第一階段，多尺度VQ自動編碼器將圖像編碼為K個token對應R=(r_1，r_2，…，r_K)，並通過復合損失函數進行訓練。

第二階段，通過下一尺度預測對VAR Transformer進行訓練：它以低解析度token對應 ([s]，r_1，r_2，…，r_K−1)作為輸入，預測更高解析度的token對應 (r_1，r_2，r_3，…，r_K)。訓練過程中，使用注意力掩碼確保每個r_k僅能關注 r_≤k。訓練目標採用標準的交叉熵損失函數，用於最佳化預測精度。