百川智能受邀出席英伟达GTC 2024并做主题演讲

近日,NVIDIA英伟达GTC 2024大会在美国圣何塞盛大举办。作为AI时代的年度开发者大会,GTC聚集了来自全球的开发者、研究人员、创作者、IT决策者、企业领袖和各行业专家。

本次大会上,来自百川的技术专家聂小楠与来自NVIDIA的技术专家陈庾共同发表了题目为《使用统一推理架构和FP8加速端到端大语言模型系统》的技术演讲。

大模型训练离不开算力、数据、人才三大要素。随着模型参数越来越大,上下文窗口越来越长,高昂的推理算力成本成为了阻碍大语言模型应用大规模落地的重要原因之一。这就对推理性能优化提出了更高要求。除了硬件算力的不断提升,推理架构和算法的优化对于提升推理效率至关重要。

基于此,百川智能采用了NVIDIA的软件生态系统,包括Triton Inference Server和TensorRT-LLM,以实现高效推理。并且采用了一系列优化技术来提升推理速度并降低资源消耗。

为了实现高效的推理效率,百川智能分析了常见大模型推理任务的性能瓶颈,内存墙是当下大模型推理的主要挑战。TensorRT-LLM的关键特性可以有效的打破内存墙,例如基于分页的KV缓存注意力机制、张量并行、基于FP8的量化、高性能融合算子等通用优化技术,结合百川智能团队在特定业务场景下的针对性优化,在降低成本的基础上也大大提高了推理速度。

此外,针对Baichuan2-7B/13B、Baichuan2-192K、Baichuan 3等不同参数量、上下文窗口长度的模型和工作负载,百川智能采取了不同的优化策略,如针对长序列的Prefill上下文切分、FlashDecoding和组查询注意力等技术、针对千亿模型的投机采样、流水线并行等技术进一步改善用户体验和降低成本。

通过结合先进的硬件技术和创新的软件架构,百川智能成功地提升了大语言模型推理的性能和效率,不仅满足了实时交互和长文本生成的需求,而且为未来更大规模模型的部署和应用奠定了坚实的基础。

未来AI大模型在训练任务和推理任务都将产生巨量的算力需求。随着AI应用的不断深化,推理需求也将从云端拓展至边缘/终端。百川智能技术团队也将持续与全球诸多芯片厂商紧密合作,共同进行推理架构及算法优化。

百川智能由前搜狗CEO王小川2023年4月10日创立,目前公司员工240余人,核心团队由来自搜狗、Google、腾讯、百度、华为、微软、字节等知名科技公司的AI顶尖人才组成。

王小川拥有丰富的企业管理和成功产品经验,作为搜狗创始人,先后主持开发了搜狗搜索、搜狗输入法、搜狗浏览器等产品。此外,拥有优秀的技术认知,始终处于技术的最前沿,管理公司期间依旧在持续提升学术研究能力,他在2021年获清华大学工程博士学位,再次创业也获得了包括清华大学计算机系教授,中国工程院院士,中国科学院院士等众多中国人工智能学术界领军人物的认可与支持。

[责任编辑：房家明]

百川智能受邀出席英伟达GTC 2024并做主题演讲

相关内容