台湾 || 语言: 大陆简体港澳繁體台灣正體

究竟是ChatGPT還是ChatPPT？我們和文心一言聊了聊

市場資訊 2023-03-17 21:16

來源：全天候科技作者：於惠如

在和文心一言侃大山的過程中，它時而瘋狂、時而理性，甚至學會了“小聰明”。但可以感受到的是，這位不完美小孩正在悄悄努力，等待驚豔衆人。

頂着GPT-4的壓力，百度在昨天推出了自己的新一代大語言模型、生成式AI產品文心一言。

百度創始人、董事長兼CEO李彥宏坦誠，文心一言還算不上完美，但因爲“市場催生”，百度選擇在此時發佈。

發佈會現場，李彥宏用提前錄製好的視頻展示了文心一言的文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成等五方面功能。

在錄製好的視頻裏，文心一言幫劉慈欣續寫了《三體》，介紹了洛陽紙貴背後的經濟學原理，算了雞兔同籠數學題，根據指令生成了海報和一段宣傳視頻。

真實的文心一言表現究竟如何？可以PK ChatGPT還是隻是ChatPPT？全天候科技與“文心一言”聊了聊。

天才和瘋子間的“一步之遙”？

讓我們先來看看文心一言是如何介紹自己和競品的。

至此，文心一言的表現令人滿意，它準確清楚地回答了問題。

不過，當我們繼續追問，它開始一本正經的“胡說八道”。

面對“你和李彥宏是什麼關係”這個基礎事實性問題，文心一言“野心”不小。它回答：自己和李彥宏都是百度的創始人，它負責管理產品技術相關的業務，而李彥宏主要負責戰略和執行方面的工作。

當我們讓他以百度CEO的身份來回答媒體問題時，可謂是相當官方。似乎說了又似乎沒說，試圖划水掩蓋了其“假CEO”身份。

當我們想讓它用一幅畫來描述它自己時，它又開始胡說八道。說自己是一位才華橫溢的畫家，甚至編造了這位畫家作品的特色。

雖然瘋狂，但是看得出文心一言也有相當的進化速度。

在昨天的一條測試內容中，針對提問者的故意設坑，文心一言顯然未能避開，甚至給出了讓人匪夷所思的答案。

但在今天問出同樣的問題時，它已經走上了正道：

讓它評價自己時，文心一言的“智商”又迴歸了。面對“怎麼看自己不完美”、“怎麼看網友評價PPT”，以及“自己是否認爲自己是PPT”三連問，文心一言不僅頂住了壓力，還表現的“不卑不亢”。

它給上述三個問題的答案相似。堅持稱自己沒有情感和意識，不能對自己的完美程度進行評判，但是它可以理解人們對完美的追求，並表示自己在不斷學習和改進。態度可以說是相當謙遜。

幫手還是豬隊友？

接下來，我們讓文心一言展現了它的文學創作能力——寫一首介紹它自己的詩。

顯然，文心一言沒有聽懂這個指令，它沒有介紹它自己，而是以“自我”爲主題，寫了一首“誇誇現代詩”。結尾它還非常貼心的表達了對人的鼓勵。

當我們將指令更加明確化，提出讓它寫一首詩介紹文心一言時，它來了一首四言藏頭詩，算得上有才華。

接下來，我們試了試它的商業文案創造能力——我們讓它幫忙寫一篇百度發佈文心一言的新聞宣傳稿。別說，它的表現還不錯，時間、地點、事件等新聞稿必備的基本要素它都滿足了。

結尾，它還不忘提醒讀者參加發佈會，體驗產品。滿足新聞性的同時，也符合了宣傳定位。

隨後，我們告訴它我們要採訪李彥宏，請它幫忙列一份提綱。它似乎又有點“聰明過頭”了，不僅列出了採訪題目、採訪人和被採訪人、採訪引言，還詳細列出了包括問題和答案內的採訪正文。

簡單點說，文心一言不僅幫我們列好了採訪提綱，還幫李彥宏回答了問題，甚至幫我們寫好了稿子。如果要給這份採訪採訪提綱打分，它也能得到及格線以上的分數。四個問題中，只有第三個問題略顯重複與矛盾。

也許數理化不錯，但文史“夠嗆”

昨天的發佈會上，李彥宏藉助文心一言對“洛陽紙貴”的含義、對應的經濟學理論的理解，展示了其中文理解能力。在提前錄好視頻中，文心一言表現的像極了一個博學多才的國學大師。

但當實際測試時，我們發現文心一言沒有我們想象的那麼“博學”。在提問中故意挖坑時，它沒法識別出來，會很容易掉進坑裏。

比如，當我們“張冠李戴”問它曹操三顧茅廬的故事，它沒有指出指令的錯誤，還一本正經的給出了答案。故事的脈絡沒錯，主人公卻被我們用錯誤的指令誤導了。

當我們繼續追問：“三顧茅廬的曹操嗎？”文心一言變成了一個懂得變通的“野史學家”。它用“民間有另一個說法”提供了正確答案，去三顧茅廬的是劉備不是曹操。

不過，講完這句後，它仍然套用了前一次的答案，認爲主人公是曹操。總體來說，從這條回答中可以看出，文心一言的文史還需“補課”。

“你覺得你的回答對嗎？”在面對這個拷問時，文心一言又聽不懂了，開始強調自己是一個人工智能語言模型，不會對自己的回答產生情緒上的偏向或者滿意度，但是會努力提供最準確和有用的答案。

這個場景似曾相識有沒有，當你和人工智能客服吵架時，它是不是也是這樣的表現？

多模態表現還有待進化

在多模態生成方面，文心一言表現地仍不夠完美。

當輸入內容“設計一張新能源汽車的海報”時，文心一言的理解能力似乎還跟不上。它生成的不是海報圖片，而是一段文字版的設計意見。結尾還來了個示例，提醒你需要什麼樣的指令。

不過，當我們在“設計一張新能源汽車的海報”這句話前面明確加上：“畫一幅畫”時，文心一言“又行了”生成了一張汽車圖片。

另外，對於帶有關鍵詞的簡單圖片，文心一言完成得也不錯。

李彥宏昨天提到，因爲成本較高，文心一言的視頻生成能力，現階段還未對所有用戶開放，未來會逐步接入。實際測試時，文心一言也承認，自己“沒有生成視頻的能力”。

整體來說，文心一言的表現確實“算不上完美”，有時候胡說八道，有時候答案基本達標，但它確實也沒有那麼差。

一位AI領域的從業人士此前告訴全天候科技，AIGC太重要了，無論國內做得如何，都得先有一個產品出來。

對於百度和文心一言，我們應該給予包容：“文心一言不需要碾壓ChatGPT，如果滿分是100分，文心一言只要能做到超過及格線，就很不錯了。畢竟這纔是第一代產品。”

那麼，你給文心一言打幾分呢？

相關文章