國內百位AI大牛論文嚴重抄襲，學術造假爲何屢禁不止？

歡迎關注“新浪科技”的微信訂閱號：techsina

文/林志佳

來源：鈦媒體（ID:taimeiti)

一起近百位國內AI大牛參與的論文被爆出抄襲，讓中國人工智能（AI）學術圈頓時處於風口浪尖。

鈦媒體App 4月14日消息，谷歌大腦（Google Brain）團隊著名科學家Nicholas Carlini 近日發表的一篇博客中指控：由北京智源人工智能研究院團隊牽頭，刊登在論文預印網站Arxiv的一篇中國學術綜述論文《關於“大模型”的路線圖》（“A Roadmap for Big Model”）一文涉嫌嚴重抄襲。

Nicholas Carlini在博客文章《機器學習研究中的一個抄襲案例》中則詳細列舉了上述中國團隊論文存在大段抄襲其他論文的嫌疑，證據是大規模的文本重疊，疑似被剽竊的論文也包括他更早發佈的《去重訓練數據使語言模型更好》（Deduplicating Training Data Makes Language Models Better），部分內容一模一樣。諷刺的是，後者這篇被抄襲的論文，研究的主題正是數據去重和查重。

據悉，指控抄襲的這篇國內學術論文發表於今年3月26日，由國內外多家高校和企業共同完成，長達200多頁，本論文有多達100名作者，分別來自於清華大學、北京大學、中國人民大學、上海交通大學、哈爾濱工業大學、哥倫比亞大學、蒙特利爾大學等國內外高校，以及字節跳動、華爲、京東、騰訊等企業以及中科院、微軟亞洲研究院和北京智源AI研究院等機構。

針對此事，鈦媒體App獲悉，該論文組織方“北京智源人工智能研究院”（以下簡稱“智源研究院”）於4月13日晚發表了一份1000字左右的《關於“A Roadmap for Big Model”綜述報告問題的致歉信》。

智源研究院在致歉信中稱，經過逐項覈查與差重，確認共計五篇文章章節、613詞的內容與其他論文重複，應屬抄襲。團隊決定立即從報告中刪除相應內容，報告修訂版今天將提交arXiv進行更新。目前已通知所有文章的作者對所有內容進行全面審查，後續經嚴格審覈後再發布新版本。

“智源作爲該報告的組織者，理應對各篇文章的所有內容進行嚴格審覈，出現這樣的問題難辭其咎。對此我們深感自責，特別感謝學術界和媒體的朋友們幫助我們發現問題。我們將深刻吸取教訓，整改科研管理和論文發表流程，希望各界朋友監督我們工作。”智源研究院方面表示。

智源研究院方面表示，下一步，團隊將以此爲戒，即日啓動邀請第三方專家對報告進行獨立審查，根據正式調查結果對相關責任人作出問責處理。並進一步完善制度管理，通過更加嚴格的審覈機制和更加明確的懲戒措施，對研究院內部以及支持的科研人員加強學風教育，防範同類事件的再次發生。

16篇文章部分存在抄襲，

中國大模型論文引起學術爭議

據智源研究院介紹，被指控的學術綜述論文《關於“大模型”的路線圖》報告是一篇大模型領域的綜述，希望儘可能涵蓋國內外該領域的所有重要文獻，由智源研究院牽頭，負責框架設計和稿件彙總，並邀請國內外100位科研人員分別撰寫了16篇獨立的專題文章，每篇文章分別邀請了一組作者撰寫並單獨署名，共257頁。報告發布後，根據反饋持續進行修改完善，到4月2日在arXiv網站上已經更新到第三版。

本論文由悟道大模型研究項目負責人、清華大學計算機系教授、智源研究院學術副院長唐傑牽頭，從大模型基礎資源、大模型構建、大模型關鍵技術與大模型應用探索4個層面出發，詳細對15個具體領域的16個相關主題進行全面介紹和探討。

據悉，論文研究主體“大模型”，爲目前世界AI研究領域最熱門的話題之一。AI 技術發展到今天，GPT和BERT等參數量巨大的模型被人們開發出來，他們在計算機視覺和自然語言處理等領域取得了前所未有的成就。同時，因爲大模型參數量巨大，最近學術界開始將它們當作一類特別的 AI 模型進行研究。

早在2021年6月1日的北京智源大會上，唐傑發佈了“悟道 2.0”人工智能巨模型。它以1.75萬億參數量，打破了此前谷歌Switch Transformer預訓練模型創造的1.6萬億參數記錄，成爲了全球最大的預訓練模型，也是中國第一個超大規模預訓練模型，取得了多項國際領先的AI技術突破和多個世界第一。

唐傑在會上稱，“悟道”由智源研究院牽頭，匯聚清華、北大、人大、中科院等高校院所以及諸多企業的100餘位AI領域專家。

今年3月31日，北京智源社區撰文介紹了最新的《關於“大模型”的路線圖》論文：

“隨着以深度學習爲代表的AI技術的快速發展，智能模型的訓練應用模式逐漸由‘大煉模型’向‘煉大模型’轉變。大模型研究在近年來發展迅速，模型的參數量以驚人的速度擴展。北京智源人工智能研究院最近發佈的《關於“大模型”的路線圖》由悟道大模型研究項目負責人，智源學術副院長，清華大學計算機系教授唐傑牽頭，從大模型基礎資源、大模型構建、大模型關鍵技術與大模型應用探索4個層面出發，對15個具體領域的16個相關主題進行全面介紹和探討。非常值得關注。”

不過，谷歌大腦團隊著名科學家Nicholas Carlini卻在博客指出，上述論文有大量段落涉嫌抄襲，被抄襲的可能至少包括他自己發表的論文在內十餘篇文章。

鈦媒體查閱arXiv發現，Nicholas Carlini的論文上傳時間爲去年七月份，而智源研究院領銜的論文則上傳時間在今年3月。

根據智源研究院致歉信中的表述，經查重確認，本論文第2篇文章的第3.1節179個詞，第8篇文章的第3.1節74個詞、第12篇文章的第2.3節55個詞、第14篇文章的第2節159個詞、第16篇文章的第1節146個詞與其他論文重複，應屬抄襲。

Nicholas Carlini表示，很可能只有少數作者參與了這種抄襲，一小部分作者的不當行爲不應該被用來指責大多數行爲良好的作者。

事實上，這篇抄襲的論文之所以得到關注，除了他是中國 AI 學術論文之外，更重要的是，大模型論文作者署名甚至多達100人，其中不乏國內AI業界和學界的知名學者，供職機構更是把中國知名高校和互聯網巨頭幾乎一網打盡。

這其中包括清華大學計算機系教授、人工智能研究院基礎研究中心主任朱軍，他曾獲得科學探索獎、CCF自然科學一等獎、《麻省理工科技評論》“35歲以下科技創新35人”等重要獎項；以及中國人民大學高瓴人工智能學院執行院長，信息學院院長，大數據管理與分析方法研究北京市重點實驗室主任文繼榮教授等。當然還有牽頭的通訊作者、國際計算機學會會士、清華大學計算機系教授唐傑。

目前，這篇被質疑的論文已經被Arxiv網站上備註了該文和Nicholas Carlini的論文有“文本重疊”（text overlap）。

中國正重拳打擊論文抄襲等學術不端行爲

這一論文抄襲事件，可能會給中國 AI 學術研究熱潮造成一定打擊。

去年6月，清華大學人工智能研究院等機構聯合發佈的《人工智能全球2000位最具影響力學者報告》指出，近年來中國的研究熱度已經趕超美國。

根據美國斯坦福大學發佈《2021年人工智能指數報告》中指出，在期刊論文總數超過美國的若干年後，中國 AI 期刊論文被引量超過美國，拿下了世界第一。而論文引用量在學術研究界是衡量一篇科研文獻被其他機構學者認可的數據，上述報告顯示，2020年中國研究機構比美國少發了近1400篇會議論文，但被引量相差了一萬多次。

滑鐵盧大學教授Gautam Kamath表示，對於上述這篇有如此多作者的文章，他很驚訝沒有一個作者注意到相似之處並且去改正它。

實際上，自2018年起，由於國外期刊頻繁撤回國內學者論文，中國開始加大對論文抄襲、學術不端、存在造假、不當署名等行爲的嚴厲查處力度。

2018年5月，中央印發《關於進一步加強科研誠信建設的若干意見》，併發出通知，要求各地區各部門結合實際認真貫徹落實。

其中重點提到：從事科研活動和參與科技管理服務的各類人員要堅守底線、嚴格自律。科研人員要恪守科學道德準則，遵守科研活動規範，踐行科研誠信要求，不得抄襲、剽竊他人科研成果或者僞造、篡改研究數據、研究結論；不得購買、代寫、代投論文，虛構同行評議專家及評議意見；不得違反論文署名規範，擅自標註或虛假標註獲得科技計劃（專項、基金等）等資助；不得弄虛作假，騙取科技計劃（專項、基金等）項目、科研經費以及獎勵、榮譽等；不得有其他違背科研誠信要求的行爲。

若干意見中強調，科技部要建立學術期刊預警機制，支持相關機構發佈國內和國際學術期刊預警名單，並實行動態跟蹤、及時調整。將罔顧學術質量、管理混亂、商業利益至上，造成惡劣影響的學術期刊，列入黑名單。

2020年9月22日，教育部、國家發展改革委、財政部發布了《關於加快新時代研究生教育改革發展的意見》，針對學位“注水”問題指出培養單位要抓住課程學習、實習實踐、學位論文開題、中期考覈、論文評閱和答辯、學位評定等關鍵環節，細化強化導師、學位論文答辯委員會和學位評定委員會權責。

“對學術不端、學位注水的問題，我們堅持零容忍，發現一起、查處一起，露頭就打，堅決確保學位授予的含金量……”教育部方面人士表示。

據科技部公佈的教育、醫療機構醫學科研誠信案件調查處理結果，自2021年下半年以來，約520起醫療科研學術不端案件遭通報，案件涉240餘個教育、醫療機構，超600名醫務人員遭懲處。

儘管中國不斷嚴厲查處相關事件，但中國學者的論文造假、抄襲等學術不端行爲依然屢禁不止。

根據今年1月27日，科技部指出，最新一批有46起涉嫌論文抄襲、學術不端、存在造假、不當署名等行爲。其中，青島大學被通報共18起，佔據此次調查處理結果的近1/3。

更早之前，在2020年新冠疫情期間，國際同行評議的期刊發表的121篇中國作者的相關科研論文中，重複使用了一些相同的圖片樣本，而且每一篇論文都至少有一幅圖像與另一篇論文相同。這些論文由大約50個城市的醫院和醫學院的研究人員發表。

期刊出版社、中介公司、“論文工廠”、以及作者之間形成了一個錯綜複雜的利益鏈（來源：知識分子公衆號）

多位學術界業內人士告訴鈦媒體App，論文抄襲、學術造假等學術不端事件頻出的背後原因，主要是中國教育乃至於整個學術圈的評價體系，擁有隱祕而成熟的利益鏈，形成了灰色地帶“論文工廠”。其中有人生產和販賣假論文，也有院士、教授、醫生、教師、研究人員爲了尋求職業晉升與經濟回報，不知不覺中推動了這個行業的發展壯大。

因此，中國需要更多的關注和干預措施。

2020年2月，科技部印發《關於破除科技評價中 “唯論文” 不良導向的若干措施（試行）》通知，強調重視分類考覈評價、注重評估成果的經濟社會價值和影響力等。

2020年7月29日，國家科技部與國家自然科學基金委員會發布的《關於進一步壓實國家科技計劃（專項、基金等）任務承擔單位科研作風學風和科研誠信主體責任的通知》中，明確應科學、理性看待學術論文，注重論文質量和水平，不將論文發表數量、影響因子等與獎勵獎金掛鉤，不使用國家科技計劃（專項、基金等）專項資金獎勵論文發表。

不過，“論文造假” 倒逼科研評價體系改革，但到底什麼是更好的評價體系，如何將更公平的評估落到實處，可能還需要一個逐步探索的過程。