字節(jié)跳動(dòng)推出大模型同傳智能體，“接近人類同聲傳譯水平”

2024-07-30 09:13:35發(fā)布來源：多知網(wǎng) 作者：哆啦

　　多知7月30日消息，近日，字節(jié)跳動(dòng) ByteDance Research 團(tuán)隊(duì)的研究人員推出了端到端同聲傳譯智能體：CLASI(Cross Language Agent - Simultaneous Interpretation) ，效果已接近專業(yè)人工水平的同聲傳譯。

　　此前，市面上傳統(tǒng)的同聲傳譯軟件通常采用級(jí)聯(lián)模型(cascaded model)的方法，即先進(jìn)行自動(dòng)語音識(shí)別(Automatic Speech Recognition, ASR)，然后再進(jìn)行機(jī)器翻譯(Machine Translation, MT)。這種方法存在一個(gè)顯著的問題——錯(cuò)誤傳播。ASR 過程中的錯(cuò)誤會(huì)直接影響到后續(xù)的翻譯質(zhì)量，導(dǎo)致嚴(yán)重的誤差累積。此外，傳統(tǒng)的同聲傳譯系統(tǒng)由于受限于低延時(shí)的要求，通常只使用了性能較差的小模型，這在應(yīng)對(duì)復(fù)雜多變的實(shí)際應(yīng)用場(chǎng)景時(shí)存在瓶頸。

　　而CLASI 采用了端到端的架構(gòu)，規(guī)避了級(jí)聯(lián)模型中錯(cuò)誤傳播的問題，依托于豆包基座大模型和豆包大模型語音組的語音理解能力，同時(shí)具備了從外部獲取知識(shí)的能力。從字節(jié)方面釋出的幾則視頻中可以看到，無論是繞口令、文言文，還是充滿即興和靈感的隨意聊天，模型都能流暢自然地給出準(zhǔn)確的翻譯結(jié)果。

　　系統(tǒng)架構(gòu)上，CLASI 采用了基于 LLM 智能體的架構(gòu)，將同聲傳譯定義為一系列簡單且協(xié)調(diào)的操作，包括讀入音頻流，檢索(可選)，讀取記憶體，更新記憶體，輸出等。整個(gè)流程由大語言模型自主控制，從而在實(shí)時(shí)性和翻譯質(zhì)量之間達(dá)到了高效的平衡。該系統(tǒng)能夠根據(jù)實(shí)際需求靈活調(diào)整各個(gè)環(huán)節(jié)的處理策略，確保在高效傳遞信息的同時(shí)，保持翻譯內(nèi)容的準(zhǔn)確性和連貫性。CLASI 底層模型是一個(gè) Encoder-conditioned LLM，在海量的無監(jiān)督和有監(jiān)督數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。

截屏2024-07-30 09.14.49.png

商學(xué)院

Open Talk

字節(jié)跳動(dòng)推出大模型同傳智能體，“接近人類同聲傳譯水平”

相關(guān)閱讀