
近日,证据SuperCLUE 发布的最新一轮汉文大模子针织性幻觉测评遵循,豆包大模子1.5 Pro(Doubao-1.5-pro-32k)以仅4%的幻觉率、96%的准确率名次总榜第一,超越 DeepSeek-R1、DeepSeek-V3、Gemini-2.5-pro、GPT-4o-latest 等中外主流模子。
在涵盖文本摘记、多文本问答、对话补全等关键任务的细分评测中,豆包大模子1.5 Pro也均位列世界第一,在阅读理罢免务中,其准确率则为国内最高,展现出在复杂话语意会与生成场景中的出色材干。
SuperCLUE 由沉寂第三方推出,是现时汉文谎言语模子评测的迫切基准体系。其中 SuperCLUE-Faith 聚焦汉文本色生成经由中的针织性与幻觉阻挡材干,从文本摘记、阅读意会、多文本问答以及对话补全等角度伸开测评,对象包括国表里认为16款具有代表性的模子,评估遵循具备较强公信力与行业参考价值。
当今,豆包大模子眷属已遮蔽全模态、全场景,包括谎言语模子、深度念念考模子、视觉意会模子、语音大模子,以及图像、视频等视觉大模子,企业不错通过字节跨越旗下云做事平台火山引擎使用豆包大模子API做事。其中, 豆包大模子1.5 Pro 基于 MoE 架构构建并聘任实践-推理一体化盘算念念路,在保证高性能的同期显赫镌汰推理资本。通过激活有限参数已毕对大限制场景的精确意会与生成,其详尽性能已越过多款超各人多预实践模子。
轨则2025年3月底,豆包大模子日均 tokens 调用量已越过12.7万亿,是2024年12月的3倍,是一年前刚刚发布时的106倍。IDC 阐显然示,2024年中国公有云大模子调用量激增,火山引擎以46.4%的市集份额位居中国市集第一。
据悉,火山引擎将于6月11日在北京举办FORCE原能源大会,将带来豆包大模子的最新升级阐明与材干进化。
