日均tokens使用量超過4萬億。

豆包大模型家族全新升級,視覺理解模型可解題、優(yōu)化作文

2024-12-19 08:37:11發(fā)布     來源:多知    作者:王上  

  多知12月19日消息,字節(jié)跳動18日在“火山引擎Force大會”上,帶來豆包大模型家族全新升級。

  會上透露 ,豆包大模型12月日均tokens使用量超過4萬億,較5月發(fā)布時期增長超過33倍。

WechatIMG51.jpg

  tokens調(diào)用規(guī)模化增長,且在不同場景中都有應(yīng)用。比如信息處理場景,最近3個月豆包大模型調(diào)用量增長了39倍,幫助企業(yè)更好的分析和處理內(nèi)外部數(shù)據(jù);在客服與銷售場景,調(diào)用量增長16倍,幫助企業(yè)更好的服務(wù)客戶,擴大銷售;在硬件終端場景,增長13倍,AI工具增長9倍。

  本次大會上,火山引擎正式發(fā)布了豆包·視覺理解模型,用戶可以同時輸入文本和圖像相關(guān)的問題,模型能夠綜合理解并給出準(zhǔn)確的回答。

  根據(jù)介紹,豆包·視覺理解模型能力包括:

  更強的內(nèi)容識別能力:不僅可以識別出圖像中的物體類別、形狀等基本要素,還能理解物體之間的關(guān)系、空間布局以及場景的整體含義。

  更強的理解和推理能力:不僅能更好地識別內(nèi)容,還能根據(jù)所識別的文字和圖像信息進行復(fù)雜的邏輯計算。

  更細膩的視覺描述能力:可以基于圖像信息,更細膩地描述圖像呈現(xiàn)的內(nèi)容,還能進行多種文體的創(chuàng)作。

  基于以上能力,豆包·視覺理解模型在教育、旅游、電商等場景有著廣泛的應(yīng)用。如在教育場景中,為學(xué)生優(yōu)化作文、科普知識、兒童陪伴等;在旅游場景中,幫助游客看外文菜單、講解照片中建筑的背景知識……

  火山引擎還宣布,豆包視覺理解模型每千tokens輸入價格定為3厘(即0.003元),相當(dāng)于一塊錢可以處理284張720P的圖片,讓視覺理解類大模型價格步入“厘時代”。

  在本次大會中,火山引擎除了推出視覺理解模型之外,還發(fā)布、升級了多個其他模型。

  豆包通用模型pro完成新版本迭代:綜合任務(wù)處理能力較5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代碼上提升58%,在數(shù)學(xué)上提升43%,在專業(yè)知識領(lǐng)域能力提升54%。

  豆包·音樂模型4.0發(fā)布:從 “高光片段” 走向 “完整歌曲”,支持包括前奏、主歌、副歌、間奏、過渡段的3分鐘全曲創(chuàng)作;歌詞局部修改,仍能適配原有旋律;全曲風(fēng)格、情感和音樂邏輯保持一致,曲風(fēng)連貫。

  豆包·文生圖模型2.1發(fā)布:支持“一鍵P圖”,可以高精度指令理解,對中英文、專有名詞“來者不拒”;高質(zhì)量編輯效果,聚焦目標(biāo),不“誤傷”原圖;可實現(xiàn)多元風(fēng)格,美觀自然。支持“一鍵海報”,中文精準(zhǔn)生成;圖文精妙融合,字體與圖片內(nèi)容融合;快速海報生成,模型最快6秒出圖。

  veOmniverse+豆包·3D生成模型發(fā)布:veOmniverse支持高保真視覺渲染、大規(guī)模渲染算力池、物理&傳感精確模擬、即開即用的3D編輯器。豆包·3D生成模型,支持文生3D、圖生3D及多模態(tài)生成,1min生成高保真、高質(zhì)量3D資產(chǎn),復(fù)雜物品、物品組合大規(guī)模場景生成,支持多模態(tài)3D資產(chǎn)編輯。

  豆包·視頻生成模型將在2025年1月正式對外開放服務(wù),用戶可在火山引擎官網(wǎng)預(yù)約正式服務(wù)。