上海AI實驗室、中央廣播電視總臺聯合發布央視聽媒體大模型

7月20日，由中央廣播電視總臺、上海市人民政府聯合主辦的第二屆全球媒體創新論壇在上海召開，230余位來自國際組織、中外主流媒體機構、中外智庫、跨國企業等各領域代表，通過線上線下方式參與論壇及相關活動。本屆論壇上，上海人工智能實驗室（上海AI實驗室）、中央廣播電視總臺聯合發布“央視聽媒體大模型”（CMG Media GPT，以下簡稱“央視聽大模型”）。雙方此前聯合多家單位成立大模型語料數據聯盟；攜手推動視聽媒體編創范式變革，以科技創新加速賦能視聽產業應用。

上海AI實驗室繼兩周前聯合商湯科技等發布全新升級的“書生通用大模型體系”后，又將大模型的應用探索拓展到視聽媒體領域。本次聯合中央廣播電視總臺發布的央視聽大模型為首個專注于視聽媒體內容生產的AI大模型，集合了中央廣播電視總臺的海量視聽數據與上海AI實驗室的原創先進算法、大模型訓練基礎設施優勢。基于上海AI實驗室的書生通用大模型體系，央視聽大模型將拓展視聽媒體的創意空間、提高創作效率并帶來交互方式的變革。

“當我們談論大模型時，不應只關注對話聊天功能，更應看到它在提高生產效率方面的作用。”上海AI實驗室主任助理喬宇表示，上海AI實驗室將與學術界、產業界緊密合作，共同推動大模型落地應用，使之成為推動生產力變革的技術基礎設施和社會發展的重要基石。

中央廣播電視總臺超高清視音頻制播呈現國家重點實驗室負責人表示：“總臺積極推進‘思想+藝術+技術’的融合創新，本次聯合上海AI實驗室發布‘央視聽媒體大模型’，就是要使用總臺視音頻媒體大數據在實驗室原創的通用大模型上進行訓練，探索在確保媒體真實性和安全性的基礎上，運用生成式人工智能，提升視聽媒體制作的質量和效率。”

【媒體編創：在“聊天”中工作】

以大模型的多模態理解、交互和生成能力為基礎，媒體工作者將來有望在“聊天”中完成工作。

目前，央視聽大模型具備了強大的視頻理解能力和視聽媒體問答能力，AI相當于擁有了感知真實世界的“眼睛”和“耳朵”。同時，央視聽大模型可根據提供的視頻創作文字——從主持詞到新聞稿件，甚至詩歌。媒體編輯可在大模型的協助下，一鍵為視頻生成風格各異的解說詞，當前生成內容已覆蓋美食、文化和科技等多個領域。

央視聽大模型可通過逐步呈現的視覺元素，理解并分析視頻。用戶通過與AI聊天對話的形式，深挖視頻蘊含信息，進一步完善輸出的內容。當它“看”到央視節目《中國詩詞大會》中“看圖猜詩詞”環節視頻，便可理解視頻內容并生成出李白的《望廬山瀑布》。

央視聽大模型“看”懂視頻中的畫面聯想、并匹配古詩

央視聽大模型同樣了解新近的科技進展。當“看”到我國空間站模型的相關視頻，即能生成視頻鏡頭腳本及旁白。

央視聽大模型可協助為視頻配上文字稿

央視聽媒體大模型豐富生動的表達，還得益于背后的書生·浦語大模型強大的語言能力和寬廣的知識體系以及書生·多模態大模型強大的開放世界理解和內容生成能力。除了為媒體編創賦能，上海AI實驗室還通過全鏈條開源（https://github.com/InternLM/InternLM）推動書生·浦語在更廣泛的場景落地應用。

央視聽大模型還為用戶提供了強大的交互式圖像、視頻編輯與創作能力，使得新的內容生產方式變成可能。用戶僅需使用簡單的光標和文字指令，即可快速修改或編輯圖像，實現“指哪改哪，畫隨口出”。

在下圖的示意中，使用光標點擊選中右邊的鸚鵡，在對話框輸入“小倉鼠”，輕點鼠標即可將鸚鵡替換成小倉鼠的圖像。

輕點鼠標即可對圖像/視頻進行編輯修改

上海AI實驗室科研團隊介紹，央視聽大模型具備的視覺理解能力，源于跨模態互動技術的最新突破——大模型將圖像/視頻視為另一種“語言”，并將視覺與語言對齊，從而降低人工智能視覺任務的門檻。基于對多模態數據的建模，央視聽大模型可感知圖像的風格與紋理筆觸，通過將用戶輸入的文本指令與圖像對齊，實現按照用戶需求生成畫面及風格一致的其他內容。

借助強大的對話能力和易用的互動模式，央視聽大模型將推動人機互動達到新高度。

【內容創作：一鍵生成節目內容、數字人主播】

具備超強理解能力的同時，央視聽大模型還擁有通用的生成能力，即通過文本直接生成視頻，視頻質量可達到高清視頻標準（2K和24FPS）。在生成內容的可控性、流暢性以及生成細節等方面達到國際領先水平。值得關注的是，央視聽大模型支持故事一致性和鏡頭連貫性生成，在生成有故事情節長視頻的同時，還保證故事轉場的流暢性。未來，該項技術有望廣泛應用于動畫及電視等視頻內容的制作中。

用央視聽大模型生成流暢、高清、帶有故事情節的視頻

除了視頻內容，央視聽大模型還具備快速生成“數字人主播”的能力。使用較短的真人采集視頻即可生成對應的數字人。AI生成的數字人主播以“真人”形象呈現，不僅能根據既定文案和背景場景快速生成播報視頻，還可自動學習真人的語言及動作習慣，做到形象更逼真，表情更自然。

支持快速生成形象逼真、表情自然的數字人主播

通過央視聽大模型的生成技術，不僅可實現主播“分身”，更能簡化視頻播報的創作過程。用戶在視頻創作素材庫選擇視頻模板，輸入文案，便可一鍵生成知識分享、品牌宣傳、短視頻帶貨、培訓宣講、熱點資訊等各類數字人視頻。大模型中還提供AI文案編寫功能，用戶輸入粗略想法即可快速生成播報文案，并合成數字人視頻。

目前，“數字人直播”支持中英文等多語種播報，同時兼容國內多地區方言播報，隨著語言版本的不斷擴充，用戶可以輕松創作更多跨語種的國際化內容。

此外，基于全球首個城市級NeRF實景三維大模型書生·天際，央視聽大模型還提供了場景渲染的能力，可進行高精度實景三維建模，建模范圍具有無限可擴展性；同時提供對城市場景的編輯能力，包括移除、新建、旋轉城市建筑，對場景進行光照、季節等風格變換。該技術有望廣泛應用于影視制作，降低建模及渲染成本，提高制作效率。

comm@pjlab.org.cn

上海市徐匯區云錦路701號西岸國際人工智能中心37-38層

滬ICP備2021009351號-1

新聞動態

上海AI實驗室、中央廣播電視總臺聯合發布央視聽媒體大模型

網站地圖