騰訊和清華、香港科大推出圖生視頻大模型Follow-Your-Click

本文共1244字

2024/03/16 12:21:33

聯合報記者黃國樑／即時報導

《證券時報》官網創業板資訊網站《券商中國》報導，3月15日，騰訊和清華大學、香港科技大學聯合推出全新圖生視頻大模型「Follow-Your-Click」，基於輸入模型的圖片，只需點擊對應區域，加上少量提示詞，就可以讓圖片中原本靜態的區域動起來，一鍵轉換成影片。

報導稱，在目前的圖生影片大模型中，一般的生成方法不僅需要使用者在提示詞中描述運動區域，還需要提供運動指令的詳細描述，過程較為複雜。另外，從產生的效果來看，現有影像產生視訊技術在移動影像的指定部分上缺乏控制，產生的影片往往需要移動整個場景，而不是影像上的某一個區域，精準度和靈活性上有所欠缺。

為了解決這些問題，騰訊混元大模型團隊、清華和港科大的聯合項目組提出了更實用和可控的圖像到視頻生成模型Follow-Your-Click，帶來更加便捷的交互，也讓圖片「一鍵點，萬物動」成為現實。

不過，券商中國並未再深入報導更多細節。實際探訪其網站，Follow-Your-Click似只能將圖片轉換成2、3秒鐘的影像，譬如將一隻小狗的圖片加上一個提示詞Raise head，就能生成這隻小狗重複將頭抬起再垂下的重複動作影片。網頁上也註明這一技術的限制，這一技術路徑仍在生成大型複雜的人類動作上，有所限制，這可能是與動作與複雜性以及相關的訓練樣本仍十分稀缺有關。

報導說，騰訊混元大模型團隊，正在持續研究探索多模態技術，擁有業界領先的影片產生能力。此前，騰訊混元大模型作為技術合作夥伴，支持《人民日報》打造原創視頻《江山如此多嬌》，生成中國大美河山的精美視頻片段，展示出了較強的內容理解、邏輯推理和畫面生成能力。

2月15日，OpenAI在全球AI生成影片領域丟出一枚爆炸性訊息。當日，該公司發布了一款名為Sora的「文字生成影片」模型，並向部分研究人員和創作者開放Sora的存取權。Sora除了可以根據文字描述生成視頻外，還可以根據現有的圖片生成視頻，目前可生成的視頻長度在1分鐘左右。

緊跟著Sora，2月26日，GoogleDeep Mind團隊發布了110億參數的AI基礎世界模型Genie。僅用一張圖片，便可產生一個互動式世界，生成的世界「動作可控」，用戶可以其中逐幀行動。谷歌表示，Genie開啟了「圖/文生成互動世界」的時代，也將成為實現通用AI Agent的催化劑。

平安證券表示，OpenAI、Google相繼發布多模態大模型Sora、Genie，AGI浪潮或將加速到來。

報導說，2月28日，阿里巴巴智慧計算研究所發表了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO只需一張人物肖像照片和音頻，就可以讓照片中的人物按照音頻內容「張嘴」唱歌、說話，且口型基本一致，面部表情和頭部姿態非常自然。

報導指出，EMO為多模態領域的視頻AI帶來新玩法。不同於文生視頻模型Sora，EMO主攻圖+音頻生成視頻的方向：輸入單張照片+任意語速的人聲音頻，EMO即可自動產生具有豐富面部表情和頭部姿勢的聲音肖像影片。