今日,火山引擎發(fā)布豆包語音識別模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合專家大語言模型架構構建。
據(jù)介紹,2.0版本模型推理能力提升,可以通過深度理解上下文完成精準識別,上下文整體關鍵詞召回率提升20%。
同時支持多模態(tài)視覺識別,不僅“聽懂字”還能“看懂圖”,通過單圖和多圖等視覺信息輸入讓文字識別更精準。
此外,2.0版本還支持日語、韓語、德語、法語等 13 種海外語種的精準識別。
并且重點針對專有名詞、人名、地名、品牌名稱及易混淆多音字等復雜場景進行了升級。
以歷史人物生平討論場景為例,當用戶提及蘇轍貶謫地“筠(yún)州”時,如果模型缺乏推理能力會易將其誤識別為同音的“云州”“鄆州”等。
而豆包語音識別模型2.0可依托“當前討論蘇軾、蘇轍”這一背景,即便上下文從沒出現(xiàn)過“筠州”,也能通過邏輯推理鎖定用戶所指的特定地名,最終實現(xiàn)對多音字地名的精準識別。
目前,豆包語音識別模型2.0已上線火山方舟體驗中心并對外提供API服務。