「沒有對手?我有話說!」Gate廣場挑戰賽——秀操作贏$2,000,百萬流量加持!
你是下一個明星交易員嗎?
想讓自己的名字閃耀廣場熱搜?想吸引數萬追隨者?百萬流量已就位,就等你來承接!
🎉 雙重豪禮,贏家通喫!
1️⃣ 曬單排行榜獎勵
收益率排名前10的用戶,瓜分 $1,500合約體驗券!巔峯對決等你來戰!
2️⃣ 曬單幸運獎
隨機抽取10位用戶,每人贈送 $50跟單包賠券!即使不是大神,也有機會躺贏!
🎮 參與方式超簡單!
✅ 在 Gate廣場 曬出你的交易戰績,並成爲帶單員!
✨ 發帖要求:
內容必須原創,並帶上 #CopyTrading# 或 #跟单# 標籤
附上 收益率截圖 或 交易卡片,並分享你的 獨家交易心得
嚴禁AI生成虛假交易,一經發現取消資格
觀點犀利、邏輯清晰,乾貨越多越吸粉!
⏰ 活動截止:8月15日 10:00(UTC+8)
【立即發帖】 展現你的王者操作,承接百萬流量,成爲下一個交易傳奇!
💬 還在等什麼?Gate廣場,等你來戰! 💪
劍橋華人團隊開源PandaGPT:首個橫掃「六模態」的大型基礎模型
來源:新智元
當下的大型語言模型,如ChatGPT只能接收文本作為輸入,即便升級版的GPT-4也只是增加了圖像輸入的功能,無法處理其他模態的數據,如視頻、音頻等。
最近,來自劍橋大學、奈良先端科學技術大學院大學和騰訊的研究人員共同提出並開源了通用指令遵循模型PandaGPT模型,也是首個實現了跨六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)執行指令遵循數據的基礎模型。
代碼鏈接:
在沒有明確多模態監督的情況下,PandaGPT就展現出了強大的多模態能力,可以執行複雜的理解/推理任務,如詳細的圖像描述生成、編寫視頻啟發的故事、回答有關音頻的問題,或是多輪對話等。
示例
基於圖片的問答:
多模態PandaGPT
和困在計算機內的AI模型相比,人類具有多種感官來了解世界,可以看一幅畫,可以聽到自然界的各種聲音;機器如果也能輸入多模態的信息,就可以更全面地解決各種問題。
目前多模態的研究大多數局限於單模態,或是文本與其他模態的組合,缺乏感知和理解多模態輸入的整體性和互補性。
為了讓PandaGPT具有多模態輸入能力,研究人員結合了ImageBind的多模態編碼器和大型語言模型Vicuna,二者在視覺和音頻基礎的指令遵循任務中都取得了非常強大的性能。
同時,為了使二個模型的特徵空間一致,研究人員使用開源的16萬個圖像-語言指令遵循數據來訓練PandaGPT,其中每個訓練實例包括一個圖像和一組多輪對話數據,對話中包含每輪人類的指令和系統的回复。
為了減少可訓練參數的數量,研究人員只訓練用來連接Vicuna的ImageBind表徵,以及Vicuna的注意力模塊上的額外LoRA權重。
值得注意的是,當前版本的PandaGPT只用對齊的圖像-文本數據進行訓練,但通過利用凍結的ImageBind編碼器中繼承的六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)的綁定屬性,PandaGPT展示出了湧現,即零樣本跨模態的能力。
限制
儘管PandaGPT在處理多模態及模態組合方面有驚人的能力,但還有幾種方法可以用來進一步改進PandaGPT:
PandaGPT的訓練過程可以通過引入更多對齊數據來豐富,比如其他與文本匹配的模態(音頻-文本)
研究人員對文本以外的模態內容只使用一個嵌入向量來表徵,還需要對細粒度的特徵提取畸形更多研究,如跨模態的注意力機制可能會對性能提升有好處
PandaGPT目前只是將多模態信息作為輸入,未來可能會在生成端引入更豐富的多媒體內容,比如在音頻中生成圖像和文字回复。
還需要有新的基準來評估多模態輸入的組合能力
PandaGPT也可以表現出現有語言模型的幾個常見缺陷,包括幻覺、毒性和刻板印象。
研究人員也指出,PandaGPT目前還只是一個研究原型,不能直接用於現實世界的應用。
參考資料: