王小川旗下大模型正式發布:70億參數量,北大清華已用 | 把脈AI大模型
來源:界面新聞2023-06-15 15:51

6月15日,搜狗創始人王小川的新公司百川智能推出了70億參數量的中英文預訓練大模型——baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發布。

在構建預訓練語料庫方面,百川智能稱其大模型以高質量中文語料為基礎,同時融合了優質的英文數據。在數據質量方面,通過質量模型對數據進行打分,對原始數據集進行篇章級和句子級的篩選;在內容多樣性方面,利用自研超大規模局部敏感哈希聚類系統和語義聚類系統,對數據進行了多層次多粒度的聚類,最終構建了包含1.2萬億token的兼顧質量和多樣性的預訓練數據。該公司強調,相較于其他同參數規模的開源中文預訓練模型,baichuan-7B數據量提高了超過50%。

據百川智能介紹,其在萬億優質中英文數據的基礎上,為了更好地提升訓練效率,baichuan-7B深度整合了模型算子來加快計算流程,并針對任務負載和集群配置,自適應優化了模型并行策略以及重計算策略。通過高效的訓練過程調度通信,baichuan-7B實現了計算與通信的高效重疊,進而達到了超線性的訓練加速,在千卡集群上訓練吞吐達到180+Tflops的水平。

通常已有的開源模型窗口長度在2K以內,對于一些長文本建模任務,如需要引入外部知識做搜索增強的場景,更長的處理長度有助于模型在訓練與推理階段捕獲更多的上下文信息,2K的處理長度存在比較大的制約。而百川智能稱baichuan-7B基于高效的attention算子優化實現了萬級別超長動態窗口的擴張能力,本次開源的預訓練模型開放了4K上下文窗口,使模型應用場景更加廣泛。

此外,baichuan-7B還對模型訓練流程進行了深度優化,采用了更科學且穩定的訓練流程和超參數選擇,使得baichuan-7B模型的收斂速度大大提升。

據了解,北京大學和清華大學兩所頂尖大學已使用baichuan-7B模型推進相關研究工作,并計劃在未來與百川智能深入合作,共同推動baichuan-7B模型的應用和發展。

今年4月10日,王小川宣布入場大模型創業,和前搜狗COO茹立云聯合創立人工智能公司百川智能,旨在開發中國版的OpenAI基礎大模型及顛覆性上層應用。據悉公司早前已獲得5000萬美元啟動資金,來自王小川與其業內好友的個人支持。

責任編輯: 陳勇洲
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
網友評論
登錄后可以發言
發送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換
    一个人免费视频在线观看高清直播