“金融行业异构算力管理面临技术平权、租户隔离、算力释放、异构管理四个核心命题。基于此,金融体系对智算集群有三大诉求:一是对金融类创新业务的快速支持,二是在总行核心业务上保证算力有效运行,三是有效利用总行、分行的统一算力,省本增效。”5月24日,在新金融联盟主办的“智算赋能金融服务智能化”内部研讨会上,百度智能云混合云部总经理杜海在主题发言中表示。
国家金融监督管理总局科技监管司相关负责人,中国银行原行长李礼辉做主题交流。邮储银行总工程师徐朝辉、交通银行金融科技部总经理刘雷、国家开发银行信息科技部总经理宋磊也做了主题发言。
会议由新金融联盟秘书长吴雨珊主持,中国金融四十人论坛提供学术支持。23家银行、理财子和保险公司的专家参会。会议实录详见:金融行业数智转型,如何突破算力瓶颈?以下为杜海发言全文。
百度金融智算云:为大模型时代金融行业构建“核心引擎”
文| 杜海

百度智能云混合云部总经理 杜海
金融行业异构算力管理面临四个核心命题
当前,算力行业发展非常迅速。在政策层面,不管是从国际形势还是供应链安全上,国产芯片已经成为必答题,虽然还存在一些问题,但从标准统一到各方面,国产芯片已经成为一个不可替代的选项。
在模型层面,大模型从传统单一的Dense模型向混合专家架构演进,尤其是混合专家模型底层和工程能力的结合能力,成为了目前大模型智算集群提效的核心能力。这也为更高的算力标准、更高的显存容量以及更快、更大的通信能力提了更高要求。
在芯片层面,传统GPGPU芯片难以满足大模型性能需求,未来专用的AI加速卡逐渐成为趋势,从成本到效率上也会更高。
基于发展趋势,我们看到金融行业对异构算力管理有四个方面的问题。
第一,技术平权。金融集团公司如何实现宝贵的算力资源在总行、分行、子公司安全共享,实现技术平权和算力普惠化。
第二,租户隔离。如何确保多租户的任务,在训练推理过程中,数据安全与风险隔离。
第三,算力释放。算力使用并不等于芯片本身的规格算力,如何通过并行策略、训推加速,释放国产芯片性能。
第四,异构管理,需构建支持多架构国产芯片的异构算力纳管体系,确保供应链安全。
需平衡“有限算力”和“无限创新”的矛盾
基于这四点,我们把智算集群金融体系诉求分成了三个大板块。
第一,金融类的创新业务“快”速支持。其诉求是如何快速支撑创新型业务,常见于分行的创新业务体系。
第二,在总行核心业务上,如何保证算力有效运行。这里体现了一个字:“稳”。
第三,对集团周边所有的生态公司,如何有效利用分行、总行的统一算力,“省”本增效,算网融合统一管理。
对此,我们把整个集群分成三部分:CPU云、训推一体云、训练云。训推一体云满足总行和分行“快”和“稳”的特点,集团共享云满足“省”的降本增效要求。
在整个智算集群架构分布上,金融智算云分成四层:
最底层是国产的GPU芯片层,包含昆仑芯、