依托于豆包基座大模型和豆包大模型語音組的語音理解能力,同時(shí)具備了從外部獲取知識的能力。

字節(jié)跳動推出大模型同傳智能體,“接近人類同聲傳譯水平”

2024-07-30 09:13:35發(fā)布     來源:多知網(wǎng)    作者:哆啦  

  多知7月30日消息,近日,字節(jié)跳動 ByteDance Research 團(tuán)隊(duì)的研究人員推出了端到端同聲傳譯智能體:CLASI(Cross Language Agent - Simultaneous Interpretation) ,效果已接近專業(yè)人工水平的同聲傳譯。

  此前,市面上傳統(tǒng)的同聲傳譯軟件通常采用級聯(lián)模型(cascaded model)的方法,即先進(jìn)行自動語音識別(Automatic Speech Recognition, ASR),然后再進(jìn)行機(jī)器翻譯(Machine Translation, MT)。這種方法存在一個(gè)顯著的問題——錯(cuò)誤傳播。ASR 過程中的錯(cuò)誤會直接影響到后續(xù)的翻譯質(zhì)量,導(dǎo)致嚴(yán)重的誤差累積。此外,傳統(tǒng)的同聲傳譯系統(tǒng)由于受限于低延時(shí)的要求,通常只使用了性能較差的小模型,這在應(yīng)對復(fù)雜多變的實(shí)際應(yīng)用場景時(shí)存在瓶頸。

  而CLASI 采用了端到端的架構(gòu),規(guī)避了級聯(lián)模型中錯(cuò)誤傳播的問題,依托于豆包基座大模型和豆包大模型語音組的語音理解能力,同時(shí)具備了從外部獲取知識的能力。從字節(jié)方面釋出的幾則視頻中可以看到,無論是繞口令、文言文,還是充滿即興和靈感的隨意聊天,模型都能流暢自然地給出準(zhǔn)確的翻譯結(jié)果。

  系統(tǒng)架構(gòu)上,CLASI 采用了基于 LLM 智能體的架構(gòu),將同聲傳譯定義為一系列簡單且協(xié)調(diào)的操作,包括讀入音頻流,檢索(可選),讀取記憶體,更新記憶體,輸出等。整個(gè)流程由大語言模型自主控制,從而在實(shí)時(shí)性和翻譯質(zhì)量之間達(dá)到了高效的平衡。該系統(tǒng)能夠根據(jù)實(shí)際需求靈活調(diào)整各個(gè)環(huán)節(jié)的處理策略,確保在高效傳遞信息的同時(shí),保持翻譯內(nèi)容的準(zhǔn)確性和連貫性。CLASI 底層模型是一個(gè) Encoder-conditioned LLM,在海量的無監(jiān)督和有監(jiān)督數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。

截屏2024-07-30 09.14.49.png