01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

對話科大訊飛:不賺錢是 ChatGPT 的問題,不是大模型商業化的問題-(2)

2023102518:11

問:內部做大模型的團隊有多大體量,優勢在哪裡?

劉聰:原來我們的團隊涉及很多方向,研究院有 1000 多人,其中包括算法、平台、工程和其他資源相關的人員,各自為戰的同時協同性非常好。當初我們的團隊只有大約 200 人,從認知拓展到多模態,再到一些行業應用,我們的範圍正在不斷擴大。

這個東西不是短期內就能形成的,它需要長達十幾年的傳承。我們需要仔細摸索出什麼樣的形式和技能,才能領先於其他人進行研究。語音識別技術每年我們都自我革新,雖然現在這個系統已經很好了,但我們必須不斷更新,從 DNN 到 RNN,再到 STM,以及後面的 CNN。因為如果我們不進行自我革新,我們就會落後於其他人。

為什麼選擇與華為「深度合作」

問:關於今天出的小的輿論熱點,就是訊飛的AI學習機在內容審核上出現一些不當的內容,我們看到公司非常快速地反應,進行了下架的處理。然後我想問一下訊飛在接下來有沒有一些更好的防範的機制?怎麼樣去做更好的一個審核。

劉慶峰:我們一直高度關注教育中的信息安全問題。這次的事件確實是個意外,但我們已經內部處理了。這個問題是在 16 號被一個家長發現的,他們是我們的合作夥伴,我們有明確的協議要求他們保障內容安全。我們剛剛將其試用,並在各個方面進行審核。這個問題只是範圍中的一個,我們發現後立即下架,並對合作夥伴進行了處罰。我們內部也進行了相應的處分,並迅速將用於大模型上的內容審核機制應用到學習機上,以進行更嚴格的審核。

在過去的幾年中,我們的學習機已經成為業界知名度最高的產品。我們曾多次受到美國的極限施壓,但我們始終與國家同步發展,我們是中國自己研發的硬科技學習機。我們希望幫助每個孩子根據自身的特點進行更好的教育,促進心智發展和身心健康,實現全面發展。

這就是我們的主線。雖然在過程中出現了意外,但是我們的合作夥伴提供了太多的內容,審核過程還沒有結束,相關人員匆忙讓大家試用了,導致了問題的發生。但現在我們已經完全解決了這個問題。

問:接下來想問一下國際化,今天徐直軍替訊飛打了一個廣告,說華為在全世界用訊飛的服務解釋幾十種語言,接下來您對於國際化的考慮是什麼?

劉慶峰:我們擁有領先的硬件品牌和技術,希望將其應用到國際市場上。在最近的日本大阪世博會需要在公立學校中教授英語寫作和口語,全球招標中是科大訊飛作為唯一的供應商被選中。

在汽車行業中,各個汽車廠商都在進行智能助手和多語種技術方面的研發。我們是全球最優秀的公司之一,因此除了國內廠商之外,奔馳、寶馬、法拉利等國際知名汽車品牌也開始與我們合作。我們相信通過強大的技術能力,可以推動行業的發展。

另外一個重要的方面是開放合作和共贏的態度。我們的重點是亞洲和與中國友好的歐洲國家和地區,逐步推進合作關係。



10.24 發布會上,科大訊飛與華為宣布合作

問:之前訊飛披露和華為昇騰的 910B可以對標英偉達,請問一下公司就是在芯片合作上,在推理芯片和訓練芯片哪部分的就是合作多一點?

劉慶峰:當然是推理芯片相對簡單,國內也有些號稱自己的芯片自己做的東西能夠做大模型,實際上主要是推理。最難的是訓練,你如果不能我剛才說的 1000 張卡三個月,訓練一個 1000 多億的模型,就做不了。

華為除了他自己的一部分應用之外,最新的芯片都是率先給訊飛,下一步我們要做對標 GPT 的是訓練,訓練能做推理就是非常簡單的事情。

問:現在使用國產算力平台,是不是意味着我們會花費可能比國外的競爭對手更加長的時間,另外訊飛目前是完全基於華為的算力平台,還是說有一些其他的算力在裡面?

劉慶峰:使用國產專利平台,類似於早期的國產操作系統,通過不斷打磨,從不好用到好用,最終實現了整個生態的繁榮。如果沒有廠商提供堅定的底座,這個國家將無法自立自強。華為在底座能力上更加堅定,而我們則投入在應用和算法層面,這是我們共同看好的。

在新硬件上驗證算法需要更多時間,但這個過程是值得的。我們的產品有的是華為的,可以公開給其他廠商使用,有的我們共有知識產權,有的是訊飛自己的,作為戰略夥伴,我們在華為平台上進行訓練,這樣是沒有任何問題的。

問:與華為的合作,背後您覺得最難的一關是什麼?

劉慶峰:我們在做這件事情時,最大的壓力來自於自己的心態。如果我們用英偉達的平台,可能只需要一個月就能完成,但如果用華為,可能需要三個月才能完成。

市場上在打仗,如果我們現在不使用國產品牌,使用已經成型的英偉達平台,今天的星火效果可能會更好,但我們必須走這一步。能夠走到這一步,我們感到非常自豪,不僅為華為感到自豪,也為我們的團隊感到自豪。

在快速奔跑的過程中,別人用的是最豪華的武器,而我們在一邊打仗,一邊磨練武器,一邊向前進步。在這個過程中,我們需要付出更多的投入,既要掙錢,又要大規模投入,既有軟件,又有硬件。所以,我們必須真正相信通過人工智能,我們能夠走出來,能夠走到業界的頂端。否則,誰都不會在這個過程中做這麼多的額外付出。

*百模大戰進入下半場

問:今年大家都在講大模型,但現在整個行業面臨的一個困境是大模型叫好不叫座,包括OpenAI自己也發現運營成本是非常高的。我想問在國內大模型已經開閘的情況下,您怎麼看未來商業化的路徑,尤其是在中國,大家的付費意願可能甚至低於美國。

劉慶峰:你說的叫好不好不叫座的產品類似於 ChatGPT,像訊飛新聞這樣的純 APP 更多是為了讓大家了解技術的原理,並應用在一些相對淺顯但有意義的場景中。所以我們需要在不同領域深入應用這些技術,滿足各行各業的剛性需求。

如果一個 AI 模型對每個人都是一樣的,那麼頂尖高手們可能會覺得它不再適用。但是,如果模型能夠學習並與用戶相互啟發,提高效率,並且能夠根據個人特點輸出令人滿意的內容,那麼它將成為每個人離不開的助手。

互聯網並不需要每個人都寫出全新的、沒有人類知識的內容,而是需要有個性化的 AI 人設。因此,下一步我們要持續關注兩個關鍵點:主動問答和 AI 人設。

問:市場上之前對大模型的商業化有一個擔憂,就是每個行業都有很強的定製化的需求,會讓成本過高,然後賺的錢很少。這次我看到科大訊飛發布了iFlyCode代碼平台,這個在 B 端方面的代碼平台會是科大訊飛未來商業化的主力嗎?

劉慶峰:這是一個非常重要的方向,但是它的定製成本過高,導致商業價值無法閉環。關鍵是確定您的產品是否真正解決了剛性需求,而不是可有可無的東西。

我們必須仔細分析場景,證明應用的效果並將其工具化,如將定製工具、企業知識庫學習和行業知識學習場景定製化,使企業內部能夠快速使用。

因此,我們需要大幅降低定製成本,同時在典型場景上做得更好,以使在需要定製的各個領域的比例越來越低。它肯定是一個通用能力,龍頭企業、單個企業用好以後把場景再全面推廣。這需要一個過程。

問:剛剛您提到了很多關於大模型商業化的一些思路,我還是想請您來判斷一下大模型它的商業回報的周期大概是怎樣的,大概我們可以在什麼時候可以看到對業績的一個提振作用?

劉慶峰:首先,我們內部的大模型項目已經開始取得了顯著的成效。例如,我們的智能硬件銷量總體增長了 70% 以上,學習機實現了 200% 的增長。這主要得益於大模型的引入,它為我們帶來了更強大的功能需求,例如辦公本現在不僅可以錄音,還可以實現同步全程錄音並轉換為文字進行分享。此外,辦公本結束後還可以輔助寫稿,在這些方面的能力不斷提升。我認為在醫療和教育領域,大模型項目為訊飛內部提供了強大的賦能。

至於商業收益方面,我認為明年將會顯現出明顯的效果。然而,我們還有很多工作要做,不能說已經達到了一個穩定狀態,只需要通過完善細節和逐步訓練。我們必須緊迫地推進一系列想法的落實,這些想法在算法上已經得到驗證,只是需要時間去實施。

因此,明年我們仍然會加大投入。新增的收入毛利將會明顯增加,但我們會將全部新增的毛利投入到新的一年中。我認為,在當前階段,明年至少不需要投入產出,而是應該加快收入毛利的增長,提高行業市場份額和影響力。

同時,我們要堅定地將多餘的資金投入到我們認為必須做的事情上,以加快速度。這是我們當前的戰略選擇。對於綜合商業方面,我認可 Gartner 和高盛的分析。因此,我相信在科大訊飛,明年至 2025 年將會是一個良性的狀態,收入毛利快速增長後能夠覆蓋新增投入的狀態。



10.24 活動現場,科大訊飛稱星火大模型 3.0 全面對標 GPT 3.5

問:您認為百模大戰現在發展到了一個什麼階段?幾家頭部企業的打法有沒有出現差異化?現在的競爭焦點是什麼?

劉聰:當然,這個問題本身肯定是動態的。我認為在這個過程中,可以分為三個階段。第一個階段是在 2 月份,當時大家還在摸索,國家和企業都對這件事感到有些迷茫,因為差距還很大。第二個階段可能在 5、6 月份左右,我們對技術線路的驗證路線非常清晰,因此我們能夠立 flag。

現在可能是第三個有代表性的階段。最近陸續有一些發布,現在處於大浪淘沙的階段,最終會剩下一些頭部公司。我認為到年底會產生分化,分化的邊界大概是 3.5,這是一個關鍵的節點。

每家公司對於人工智能的定義可能不盡相同。就我們自己而言,我們以功能全面為基準來定義人工智能。例如,像百度將其定義為理解、生成記憶以及邏輯推理等。不同公司對於人工智能的定義各有差異。個人而言,我無法詳細說明其他公司的想法,只能從我們的角度出發思考為什麼我們最初定義了這七個維度。當然,這七個維度將來可能會有衍生,就像今天我們在這七個維度的基礎上討論個性化,個性化能為我們的這個底座模型注入靈魂。

類似於從被動接受提問到主動交互的轉變,可以使得人工智能更像一個顧問。技能不僅僅是回答問題,同時也可以根據情況主動交互。

那麼為什麼說我們相對於其他公司的定義更詳細?這是因為我們從一開始就要明確目標,是要追求通用人工智能,還是只做其中的一部分?對於訊飛來說,作為一家專注於人工智能的公司,通用人工智能是我們的夢想,我們最初的目標就是追求通用人工智能。我們還強調我們不僅僅是中文,未來還將拓展到其他語言,你連英文能力都不具備,包括未來拓展到其他多一種,那叫什麼通用?

接下來,我認為對於中國的人工智能,尤其是我們的企業來說,應用落地和生態繁榮是非常關鍵的。但如果沒有應用,特別是對於訊飛這樣的公司來說,我們並不是互聯網巨頭,也沒有那麼多資金可以燒掉,我們必須通過應用落地來實現產品的價值。

產品價值是非常重要的一方面,但另一方面,我們也需要逐步實現商業閉環。所以我認為這是我們需要關注的第三個方面。此外,生態系統也非常重要,因為過去我們可能會發現,雖然某個語音識別系統的效果可能很好,但在大家都達到差不多水平之後,你在惡劣環境中的可替代性就會變得很高。說實話,這對於大型模型來說並不完全適用。

大型模型的發展一方面受到底座的限制,但更重要的是能否在底座的基礎上實現個性化。使用某個特定底座開發的應用程序會更加得心應手,而更換底座可能會導致一些基礎功能的喪失。例如,對於代碼編寫來說,10 個點的差異可能會對寫作習慣和效率產生完全不同的影響。

因此,目前的發展趨勢肯定是分化的,而且我相信從現在到明年上半年,這種分化會變得越來越明顯。因為除了硬件設備之外,對於這些算法的理解也變得越來越關鍵。在如此龐大的模型和機器上,如果你的算法不夠確切,稍有差錯就可能導致三個月的時間浪費。

因此,第二個問題是關於通用底座和整體算力的問題,特別是國產算力。對於訊飛來說,這是一個門檻,而且我認為這也是一個未來的趨勢。此外,我們還要密切關注應用閉環和生態閉環的快速產生價值的情況。這些是我們未來需要持續關注的幾個方面。

-[文:極客公園GeekPark*作者:宛辰、鄭玥*編輯:鄭玄/鈦媒體]