日均tokens使用量超過(guò)4萬(wàn)億。
多知12月19日消息,字節(jié)跳動(dòng)18日在“火山引擎Force大會(huì)”上,帶來(lái)豆包大模型家族全新升級(jí)。
會(huì)上透露 ,豆包大模型12月日均tokens使用量超過(guò)4萬(wàn)億,較5月發(fā)布時(shí)期增長(zhǎng)超過(guò)33倍。
tokens調(diào)用規(guī)模化增長(zhǎng),且在不同場(chǎng)景中都有應(yīng)用。比如信息處理場(chǎng)景,最近3個(gè)月豆包大模型調(diào)用量增長(zhǎng)了39倍,幫助企業(yè)更好的分析和處理內(nèi)外部數(shù)據(jù);在客服與銷(xiāo)售場(chǎng)景,調(diào)用量增長(zhǎng)16倍,幫助企業(yè)更好的服務(wù)客戶,擴(kuò)大銷(xiāo)售;在硬件終端場(chǎng)景,增長(zhǎng)13倍,AI工具增長(zhǎng)9倍。
本次大會(huì)上,火山引擎正式發(fā)布了豆包·視覺(jué)理解模型,用戶可以同時(shí)輸入文本和圖像相關(guān)的問(wèn)題,模型能夠綜合理解并給出準(zhǔn)確的回答。
根據(jù)介紹,豆包·視覺(jué)理解模型能力包括:
更強(qiáng)的內(nèi)容識(shí)別能力:不僅可以識(shí)別出圖像中的物體類(lèi)別、形狀等基本要素,還能理解物體之間的關(guān)系、空間布局以及場(chǎng)景的整體含義。
更強(qiáng)的理解和推理能力:不僅能更好地識(shí)別內(nèi)容,還能根據(jù)所識(shí)別的文字和圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算。
更細(xì)膩的視覺(jué)描述能力:可以基于圖像信息,更細(xì)膩地描述圖像呈現(xiàn)的內(nèi)容,還能進(jìn)行多種文體的創(chuàng)作。
基于以上能力,豆包·視覺(jué)理解模型在教育、旅游、電商等場(chǎng)景有著廣泛的應(yīng)用。如在教育場(chǎng)景中,為學(xué)生優(yōu)化作文、科普知識(shí)、兒童陪伴等;在旅游場(chǎng)景中,幫助游客看外文菜單、講解照片中建筑的背景知識(shí)……
火山引擎還宣布,豆包視覺(jué)理解模型每千tokens輸入價(jià)格定為3厘(即0.003元),相當(dāng)于一塊錢(qián)可以處理284張720P的圖片,讓視覺(jué)理解類(lèi)大模型價(jià)格步入“厘時(shí)代”。
在本次大會(huì)中,火山引擎除了推出視覺(jué)理解模型之外,還發(fā)布、升級(jí)了多個(gè)其他模型。
豆包通用模型pro完成新版本迭代:綜合任務(wù)處理能力較5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代碼上提升58%,在數(shù)學(xué)上提升43%,在專(zhuān)業(yè)知識(shí)領(lǐng)域能力提升54%。
豆包·音樂(lè)模型4.0發(fā)布:從 “高光片段” 走向 “完整歌曲”,支持包括前奏、主歌、副歌、間奏、過(guò)渡段的3分鐘全曲創(chuàng)作;歌詞局部修改,仍能適配原有旋律;全曲風(fēng)格、情感和音樂(lè)邏輯保持一致,曲風(fēng)連貫。
豆包·文生圖模型2.1發(fā)布:支持“一鍵P圖”,可以高精度指令理解,對(duì)中英文、專(zhuān)有名詞“來(lái)者不拒”;高質(zhì)量編輯效果,聚焦目標(biāo),不“誤傷”原圖;可實(shí)現(xiàn)多元風(fēng)格,美觀自然。支持“一鍵海報(bào)”,中文精準(zhǔn)生成;圖文精妙融合,字體與圖片內(nèi)容融合;快速海報(bào)生成,模型最快6秒出圖。
veOmniverse+豆包·3D生成模型發(fā)布:veOmniverse支持高保真視覺(jué)渲染、大規(guī)模渲染算力池、物理&傳感精確模擬、即開(kāi)即用的3D編輯器。豆包·3D生成模型,支持文生3D、圖生3D及多模態(tài)生成,1min生成高保真、高質(zhì)量3D資產(chǎn),復(fù)雜物品、物品組合大規(guī)模場(chǎng)景生成,支持多模態(tài)3D資產(chǎn)編輯。
豆包·視頻生成模型將在2025年1月正式對(duì)外開(kāi)放服務(wù),用戶可在火山引擎官網(wǎng)預(yù)約正式服務(wù)。