豆包大模型家族全新升級，視覺理解模型可解題、優(yōu)化作文

2024-12-19 08:37:11發(fā)布來源：多知作者：王上

　　多知12月19日消息，字節(jié)跳動18日在“火山引擎Force大會”上，帶來豆包大模型家族全新升級。

　　會上透露，豆包大模型12月日均tokens使用量超過4萬億，較5月發(fā)布時期增長超過33倍。

　　tokens調(diào)用規(guī)模化增長，且在不同場景中都有應(yīng)用。比如信息處理場景，最近3個月豆包大模型調(diào)用量增長了39倍，幫助企業(yè)更好的分析和處理內(nèi)外部數(shù)據(jù);在客服與銷售場景，調(diào)用量增長16倍，幫助企業(yè)更好的服務(wù)客戶，擴大銷售；在硬件終端場景，增長13倍，AI工具增長9倍。

　　本次大會上，火山引擎正式發(fā)布了豆包·視覺理解模型，用戶可以同時輸入文本和圖像相關(guān)的問題，模型能夠綜合理解并給出準(zhǔn)確的回答。

　　根據(jù)介紹，豆包·視覺理解模型能力包括：

　　更強的內(nèi)容識別能力：不僅可以識別出圖像中的物體類別、形狀等基本要素，還能理解物體之間的關(guān)系、空間布局以及場景的整體含義。

　　更強的理解和推理能力：不僅能更好地識別內(nèi)容，還能根據(jù)所識別的文字和圖像信息進行復(fù)雜的邏輯計算。

　　更細膩的視覺描述能力：可以基于圖像信息，更細膩地描述圖像呈現(xiàn)的內(nèi)容，還能進行多種文體的創(chuàng)作。

　　基于以上能力，豆包·視覺理解模型在教育、旅游、電商等場景有著廣泛的應(yīng)用。如在教育場景中，為學(xué)生優(yōu)化作文、科普知識、兒童陪伴等；在旅游場景中，幫助游客看外文菜單、講解照片中建筑的背景知識……

　　火山引擎還宣布，豆包視覺理解模型每千tokens輸入價格定為3厘(即0.003元)，相當(dāng)于一塊錢可以處理284張720P的圖片，讓視覺理解類大模型價格步入“厘時代”。

　　在本次大會中，火山引擎除了推出視覺理解模型之外，還發(fā)布、升級了多個其他模型。

　　豆包通用模型pro完成新版本迭代：綜合任務(wù)處理能力較5月份提升32%，在推理上提升13%，在指令遵循上提升9%，在代碼上提升58%，在數(shù)學(xué)上提升43%，在專業(yè)知識領(lǐng)域能力提升54%。

　　豆包·音樂模型4.0發(fā)布：從 “高光片段” 走向 “完整歌曲”，支持包括前奏、主歌、副歌、間奏、過渡段的3分鐘全曲創(chuàng)作;歌詞局部修改，仍能適配原有旋律;全曲風(fēng)格、情感和音樂邏輯保持一致，曲風(fēng)連貫。

　　豆包·文生圖模型2.1發(fā)布：支持“一鍵P圖”，可以高精度指令理解，對中英文、專有名詞“來者不拒”;高質(zhì)量編輯效果，聚焦目標(biāo)，不“誤傷”原圖；可實現(xiàn)多元風(fēng)格，美觀自然。支持“一鍵海報”，中文精準(zhǔn)生成；圖文精妙融合，字體與圖片內(nèi)容融合；快速海報生成，模型最快6秒出圖。

　　veOmniverse+豆包·3D生成模型發(fā)布：veOmniverse支持高保真視覺渲染、大規(guī)模渲染算力池、物理&傳感精確模擬、即開即用的3D編輯器。豆包·3D生成模型，支持文生3D、圖生3D及多模態(tài)生成，1min生成高保真、高質(zhì)量3D資產(chǎn)，復(fù)雜物品、物品組合大規(guī)模場景生成，支持多模態(tài)3D資產(chǎn)編輯。

　　豆包·視頻生成模型將在2025年1月正式對外開放服務(wù)，用戶可在火山引擎官網(wǎng)預(yù)約正式服務(wù)。

商學(xué)院

Open Talk

豆包大模型家族全新升級，視覺理解模型可解題、優(yōu)化作文

相關(guān)閱讀

商學(xué)院

Open Talk

豆包大模型家族全新升級，視覺理解模型可解題、優(yōu)化作文

相關(guān)閱讀

豆包大模型家族全新升級，視覺理解模型可解題、優(yōu)化作文