原標題:國產超大規模AI預訓練模型發佈,可實現“用圖生文”等任務

六出奇光動地來,西方海國見旌旗。

水心惟有終無底,火內曾無徹上灰。

地軸迂迴周八極,天球低陷不磨回。

明朝滄海成桑田,吾欲吹噓弄大灰。

以上詩句題爲《詠智利日全食》,來自人工智能模型“文匯”的手筆。

人工智能模型“文匯”是北京智源人工智能研究院近日發佈的一款面向認知的超大規模新型預訓練模型。它旨在探索解決當前大規模自監督預訓練模型不具有認知能力的問題,參數規模達113億,僅次於OpenAI1月初發布的DALL·E模型的120億參數量,是目前中國規模最大的預訓練模型。

超大規模預訓練模型是當前人工智能領域研究的熱點。

自2020年5月,OpenAI發佈迄今爲止全球規模最大的預訓練模型GPT-3以來,OpenAI、谷歌等科技公司都在持續推動大規模預訓練模型的進一步發展。2021年1月5日,OpenAI在官方博客發佈了人工智能神經網絡“DALL·E”,可以通過自然語言文本直接生成對應圖像。

據介紹,“文匯”模型能夠學習不同模態(文本和視覺領域爲主)之間的概念,可以實現“用圖生文”等任務,具有一定的認知能力。

北京智源人工智能研究院成立於2018年11月,是在科技部和北京市委市政府的指導和支持下,由北京市科委和海淀區政府推動成立的新型研發機構。

“文匯”由智源研究院發起的“悟道”攻關團隊完成,團隊由智源研究院、阿里巴巴、清華大學、中國人民大學、中國科學院、搜狗、智譜.AI、循環智能等單位的科研骨幹組成。

智源研究院院長、北京大學信息技術學院黃鐵軍表示,“文匯”模型針對性地設計了多任務預訓練的方法,可以同時學習文→文、圖→文以及圖文→文等多項任務,實現對多個不同模態的概念理解。

“文匯”模型能夠完成多種圖文生成任務。例如,根據下面這張圖片,模型可給出描述如下描述:

旗袍是一種古典的風格,它不僅能夠彰顯出女性優雅氣質,而且還具有很好的修飾身形。這款旗袍採用了經典的圓領設計,穿着舒適自在,同時又能夠展現出女性柔美的頸部線條,讓你更加的迷人。精緻的繡花工藝,使得整件衣服看起來更加的精緻,也更加的凸顯出女性的魅力。

“文匯”模型還能夠生成基於人設的文本:

據悉,“文匯”模型的研究團隊在模型中提出了針對多模態認知生成的大規模預訓練的架構M6:MultiModality-to-MultiModality Multi-task Mega-Transformer。模型整體架構基於Transformer,其中圖像進行切塊並對塊採用ResNet-50提取特徵。這些特徵以及對應的position embedding讓圖像和文本能組合在一起送入模型。

智源研究院透露,目前,“文匯”已支持基於認知推理的多種自然語言及跨模態應用任務,部分應用即將與搜狗、阿里巴巴、學堂在線、智譜.AI、循環智能等機構合作上線。具體功能包括基於上傳圖片的開放域問答、用語言操作數據可視化、基於預訓練語言模型的詩詞創作應用和可控人設的開放域問答等。

(本文來自****,更多原創資訊請下載“****”APP)

相關文章