中國國內首個音樂版"ChatGPT"來了！Sora同款架構，唱作技巧全面發展

2024040411:23

AI音樂大模型最近有多火，不用多介紹了吧？（doge）

不過，海外版應用別的先不說，奇奇怪怪的中文AI發音就能把人難受死……

好在卷應用嘛，國産大模型廠商沒在怕的，這不，國産版音樂“ChatGPT”這就來了~

話不多說，先聽效果：

這情感表現力，是有那麽點競爭短視頻神曲的潛質了。

如此作品，背後作者正是剛剛開放邀測的國産AI音樂生成大模型「天工SkyMusic」。

4月2日，昆侖萬維官宣，「天工SkyMusic」基于昆侖萬維「天工3.0」超級大模型打造，即日起面向社會開啓免費邀測。

本輪測試已開放1000個免費名額，面向行業媒體、專家，以及感興趣的音樂從業者開放。

據官方消息稱，昆侖萬維「天工SkyMusic」首日預約申請已有幾十萬。

「天工SkyMusic」也是目前國內唯一公開可用的AI音樂生成大模型。

昆侖萬維工程師透露，「天工SkyMusic」是昆侖萬維情感AGI研究方向上的重要成果：

智力固然重要，但情感是我們能夠被稱之爲人的關鍵。
我們發現相比文本和圖片，音頻內容是理解人類情感最好的方式，而音樂又是人類情感表達最充沛、最不受地域和文化限制的內容載體。

采用自研類Sora模型架構

來看具體技術細節。

「天工SkyMusic」采用音樂音頻領域類Sora模型架構：

Large-scale Transformer 負責譜曲，來學習 Music Patches 的上下文依賴關系，同時完成音樂可控性；

Diffusion Transformer 負責演唱，通過LDM讓Music Patches被還原成高質量音頻，使得「天工SkyMusic」能夠支持生成80秒44100Hz 采樣率雙聲道立體聲歌曲。

這套模型架構在處理視頻、音頻和音樂領域效果極佳。昆侖萬維團隊還計劃在後續逐步叠代和添加新的能力，讓模型具備多模態的情感理解與表達能力。

「天工SkyMusic」具有以下五大特點：

    高質量AI音樂

「天工SkyMusic」能夠生成80秒44100Hz采樣率雙聲道立體聲AI歌曲，並可根據用戶輸入的歌詞風格生成對應歌曲風格。

    人聲以假亂真

人聲合成是AI音樂生成中最重要、最能體現生成效果和品質的維度。「天工SkyMusic」的AI人聲合成能夠達到業內頂尖的SOTA水平，尤其是中文發音清晰、無異響，演唱效果顯著好于國外産品。

    歌詞段落控制

「天工SkyMusic」能夠通過歌詞來控制歌曲，讓生成的歌曲可以明確分辨出不同歌詞段落的情緒變化，體現出主歌和副歌、前奏和主歌的段落差異。

    多種音樂風格

「天工SkyMusic」支持說唱、民謠、放克、古風、電子等多種音樂風格，用戶在創作音樂時，可以通過參考音頻制定想要的音樂風格。

比如說唱風格，效果如下：

come on man,量子位,15秒

    音樂智能表達：歌唱技巧學習

「天工SkyMusic」同時能夠學習如顫音、歌劇、吟唱、男女對唱，自動和聲等多種歌唱技巧，讓用戶創作的歌曲得到更恰當的情感表達。

Call of Silence,量子位,23秒

基于「天工3.0」大模型打造

在「天工SkyMusic」背後，有一點值得關注的是，昆侖萬維同時劇透了自家MoE大模型「天工3.0」的最新信息：

4月17日，「天工3.0」將正式開啓公測，並同步開源。

「天工3.0」是4000億級參數MoE混合專家模型，是全球模型參數最大、性能最強的MoE模型之一。

官方表示，相較于上一代「天工2.0」MoE大模型，「天工3.0」在模型語義理解、邏輯推理、以及通用性、泛化性、不確定性知識、學習能力等領域都擁有顯著的性能提升，其模型技術知識能力提升超過20%，數學/推理/代碼/文創能力提升超過30%。

同時，「天工3.0」新增了搜索增強、研究模式、調用代碼及繪制圖表、多次調用聯網搜索等能力，並針對性地訓練了模型的Agent能力，使得「天工3.0」能夠獨立完成規劃、調用、組合外部工具及信息，以精准高效地完成産業分析、産品對比等各類複雜需求。

「天工3.0」也是全球首個多模態“超級模型”（Super Model），集成了AI搜索、AI寫作、AI長文本閱讀、AI對話、AI語音合成、AI圖片生成、AI漫畫創作、AI圖片識別、AI音樂生成、AI代碼寫作、AI表格生成等多項能力，堪稱大模型時代的“超級應用”。

更多劇透，我們分成四個方面來看：

邏輯推理能力更強

邏輯推理能力的提升對于大模型解決複雜問題至關重要，「天工3.0」的數學與推理能力均提升超過30%，強大的邏輯推理能力使其能夠在實際應用中更加准確和高效地處理信息。

例如，在「天工3.0」AI搜索的研究模式中，模型能夠圍繞用戶的某個簡單指令進行相關問題的延伸，並實時判斷該段落信息是否需要聯網搜索，能夠實現如對某個行業進行細致的拆解分析，總結相關事件、拆解産業鏈地圖等複雜功能，並以結構化或思維導圖的形式進行最終展示，讓模型更“聰明”。

語義理解能力更強

「天工3.0」能夠更好地理解和處理用戶自然語言Query中的複雜語義信息，包括隱喻、多義詞等。

例如，在「天工3.0」AI搜索的增強搜索中，模型能夠針對用戶的複雜Query進行拆解、細化、並進行追問、信息理解與補全，使其在自然語義理解方面性能更強，面對不確定性知識時表現更好，能夠更精准、高效地滿足用戶需求。

專項Agent訓練，應對複雜需求能力更強

大模型時代，AI Agent（智能體）已經成爲大模型技術的主流落地方向。

「天工3.0」針對模型獨立規劃、調用、組合外部工具及信息的能力進行了專項訓練，使其能夠獨立生成並調用代碼，完成包括産業研究、産品橫評、信息分析、圖片生成、圖表繪制等多種複雜用戶需求，並成爲具備多個領域專業知識和能力的全能專家，以強大的語義理解及邏輯推理能力對用戶需求進行深度理解，並把任務拆解成細分環節，發到不同的最優模型去處理，最大程度提升模型性能。

同時，針對B端用戶，「天工3.0」也在知識庫能力、任意工具調用能力、複雜角色指令追尋能力等領域進行了全面升級，企業用戶可以通過上傳知識文檔構建專屬知識庫及Agent，並實現自動調用制定工具、完成複雜指令遵循Agent構建等實用能力。

內容創作能力全面升級

內容創作能力一直是「天工」系列大模型的強項，在上一代「天工2.0」大模型的基礎上，「天工3.0」更是進行了全面的內容創作能力升級，其不僅能實現AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強大的內容創作能力，更是通過專項Agent訓練實現了在對話中結合文本需求實時生成圖片、結合文本需求實時內容分析及圖表構建等能力，成爲真正能搜、能寫、能讀、能聊、能聽、能說、能畫、能看、能唱的超級模型。

昆侖萬維董事長兼CEO方漢對此表示，“超級模型”是大模型時代發展的必然，未來，行業內將出現不止一個“超級模型”，昆侖萬維也將持續朝著這一方向不斷努力，持續爲用戶提供更智能、更高效、更可靠的人工智能服務。

All in AGI與AIGC

自2023年確定“All in AGI 和 AIGC”戰略後，在AIGC應用領域，昆侖萬維已圍繞自研「天工」系列大模型，推出了一系列前沿AI産品：

2023年8月，昆侖萬維推出國內第一款AI搜索産品天工AI搜索。

9月，昆侖萬維推出多模態大模型Skywork-MM，在多模態大語言模型測評MME中綜合得分排名第一。

10月，昆侖萬維開源百億級大語言模型天工Skywork-13B系列。

12月，昆侖萬維發布國內領先的AI Agent開發平台天工SkyAgents。

2024年2月，天工基座大模型更是迎來了推出以來的最大版本更新天工2.0，成爲國內首個搭載MoE架構並面向全體C端用戶免費開放的千億級參數大語言模型AI應用。

再加上最新亮相的天工SkyMusic，基于天工系列大模型，昆侖萬維已構建起AI大模型、AI搜索、AI音樂、AI 社交、AI動漫、AI遊戲等AI業務矩陣，是國內模型技術與工程能力最強、布局最全面的人工智能企業之一。

這樣的成績單之下，此番「天工3.0」究竟會帶來怎樣的體驗，值得期待。--- [允中發自 : 凹非寺*量子位 : 公衆號 QbitAI/來源: 量子位]

我要留言

中國國內首個音樂版"ChatGPT"來了！Sora同款架構，唱作技巧全面發展

華爾街見聞早餐FM-Radio | 2024年4月4日

剛剛，Sora官方發布首支MV

華爾街見聞早餐FM-Radio | 2024年4月4日

剛剛，Sora官方發布首支MV