7月6日,2023世界人工智能大會(WAIC)開幕,百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心主任王海峰解讀文心大模型3.5版核心技術(shù),發(fā)布飛槳生態(tài)最新進(jìn)展,闡述人工智能產(chǎn)業(yè)模式。
飛槳已凝聚750萬名開發(fā)者,文心3.5效果提升50%,推理速度提升30倍
當(dāng)前,以大語言模型為代表的人工智能技術(shù)在全球掀起科技和產(chǎn)業(yè)創(chuàng)新浪潮。IT技術(shù)棧發(fā)生根本性改變,從芯片、操作系統(tǒng)和應(yīng)用三層架構(gòu),轉(zhuǎn)變?yōu)樾酒?、框架、模型、?yīng)用四層架構(gòu)。深度學(xué)習(xí)框架和大模型構(gòu)成了產(chǎn)業(yè)智能化基座。
據(jù)了解,百度在人工智能四層技術(shù)棧均有布局和自研技術(shù),尤其在位于四層架構(gòu)核心的框架層和模型層。百度方面表示,文心大模型的最新成果,也得益于飛槳深度學(xué)習(xí)平臺和文心的聯(lián)合優(yōu)化。王海峰現(xiàn)場透露,截至目前飛槳已凝聚750萬名開發(fā)者,這也是百度2023年以來首次對外披露飛槳生態(tài)最新數(shù)據(jù)。
百度稱,文心大模型現(xiàn)已升級到3.5版本。王海峰表示,3.5版的文心大模型效果、功能、性能全面提升,實(shí)現(xiàn)了基礎(chǔ)模型升級、精調(diào)技術(shù)創(chuàng)新、知識點(diǎn)增強(qiáng)、邏輯推理增強(qiáng)等,模型效果提升50%,訓(xùn)練速度提升2倍,推理速度提升30倍。
今年3月,百度發(fā)布了大語言模型文心一言。文心一言是知識增強(qiáng)的大語言模型,首先從數(shù)萬億數(shù)據(jù)和數(shù)千億知識中融合學(xué)習(xí)得到預(yù)訓(xùn)練大模型,在此基礎(chǔ)上采用有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)和提示等技術(shù),并具備知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)等技術(shù)。
王海峰解讀了文心大模型3.5的核心技術(shù)創(chuàng)新,在基礎(chǔ)模型訓(xùn)練上,采用了飛槳最先進(jìn)的自適應(yīng)混合并行訓(xùn)練技術(shù)及混合精度計(jì)算策略,并采用多種策略優(yōu)化數(shù)據(jù)源及數(shù)據(jù)分布,加快了模型迭代速度,提升了模型效果和安全性。同時,有多類型多階段有監(jiān)督精調(diào)、多層次多粒度獎勵模型、多損失函數(shù)混合優(yōu)化策略、雙飛輪結(jié)合的模型優(yōu)化等技術(shù)加持,進(jìn)一步提升模型效果及場景適配能力。
在知識增強(qiáng)和檢索增強(qiáng)基礎(chǔ)上,文心大模型3.5提出了“知識點(diǎn)增強(qiáng)技術(shù)”,對用戶輸入的查詢、問題等進(jìn)行分析理解,解析出生成答案所需要的相關(guān)知識點(diǎn),之后運(yùn)用知識圖譜和搜索引擎為這些知識點(diǎn)找到相應(yīng)答案,最后再用這些知識點(diǎn)構(gòu)造輸入給大模型的提示,為大模型注入更具體、更詳細(xì)、更專業(yè)的知識點(diǎn),提升大模型對世界知識的掌握和運(yùn)用。
在推理方面,通過大規(guī)模邏輯數(shù)據(jù)構(gòu)建、邏輯知識建模、多粒度語義知識組合以及符號神經(jīng)網(wǎng)絡(luò)技術(shù),提升文心大模型3.5在邏輯推理、數(shù)學(xué)計(jì)算及代碼生成等任務(wù)上的表現(xiàn)。
百度介紹,文心大模型3.5新增了插件機(jī)制,文心一言已經(jīng)于6月17日對外發(fā)布官方插件百度搜索和ChatFile。百度搜索是默認(rèn)的內(nèi)置插件,使得文心一言具備生成實(shí)時準(zhǔn)確信息的能力。ChatFile是長文本摘要和問答插件,支持超長文本輸入。
王海峰表示,文心一言將發(fā)布更多百度官方和第三方插件,同時也將逐步開放插件生態(tài)。
現(xiàn)場王海峰展現(xiàn)了文心一言在辦公、會議、編碼等場景的應(yīng)用。王海峰稱,凡是要跟語言文字或程序代碼打交道的應(yīng)用場景,都可能有文心一言的用武之地。
據(jù)介紹,在文心一言這類大模型產(chǎn)業(yè)落地的進(jìn)程中,可以采用“集約化生產(chǎn),平臺化應(yīng)用”的模式,即具有算法、算力和數(shù)據(jù)綜合優(yōu)勢的企業(yè)將模型生產(chǎn)的復(fù)雜過程封裝起來,通過低門檻、高效率的生產(chǎn)平臺,為千行百業(yè)提供大模型服務(wù)。