作者|長亮科技研發中心
文章導讀:
本文從銀行核心系統 AI 轉型的挑戰出發,分享了長亮科技基于銀行核心系統多年經驗積淀給出的破局思路,提出在“N+M”大模型協同策略支持下探索人機協作新范式的漸進式路徑,并展示了在 DeepSeek-R1 加持下,智能化需求分析場景中的技術實踐階段成果。未來,長亮科技將從深化智能體協作和拓寬多場景應用兩方面入手,打造銀行智能化核心系統研發新范式。
01
新核心挑戰
在金融業智能化變革的臨界點上,銀行核心系統正經歷從"功能引擎"向"認知中樞"的質變。尤其是近兩年,大模型技術的迅猛發展,不斷重塑行業對 AI 落地的想象空間,為銀行核心系統的智能化轉型帶來新的可能性。
然而,銀行核心系統作為銀行的 “大腦” 和 “心臟”,在準確性、高可用性以及合規性方面有著極為嚴苛的要求,使大模型技術在銀行核心系統中的應用面臨諸多挑戰。主要問題集中在:
1、通用知識專業性局限:通用大模型缺乏銀行核心系統領域的專業業務知識,面對核心系統復雜的專業場景需求時,效果通常不及預期。
2、大模型落地困境:大模型部署和運行所依賴的高算力資源,以及模型調優的專業度要求,增加了落地難度。
3、復雜系統的跨域協同挑戰:銀行IT架構復雜,核心系統往往需要跟上百個外圍系統交互,對大模型能力提出嚴峻挑戰。
針對這些問題,長亮科技提出以下破局思路:構建"N+M"大模型協同策略,通過N個通用大模型與M個場景小模型的有機組合,全面提升金融領域的大模型應用效果,拓寬大模型應用場景。
“N”:精選適配銀行核心場景的通用大模型
基于長亮科技深入的通用大模型能力評估和適用性研究,針對銀行核心系統 AI 賦能場景的具體需求,甄選通用大模型組合,實現價值快速落地。
“M”:構建專業場景小模型
聚焦銀行核心業務高價值高復雜的細分場景,深度融合長亮科技核心產品知識和行業最佳實踐,打造輕量級的場景小模型。

這種創新的“N+M”大模型協同策略,可以根據任務特性靈活適配,通過大模型、小模型甚至傳統 AI 技術的靈活組合,有效實現核心系統復雜場景的智能化作業,提高 Al Agent 輸出結果的準確性和可靠性,從而精準滿足銀行核心領域 AI 賦能的深度應用需求,加速價值落地。
02
新范式探索
基于“N+M”大模型協同策略的破局思路,長亮科技以打造銀行智能核心一體化方案為目標,制定了三階段研發規劃:

模型試水:驗證通用大模型,探索場景小模型
? 目標:探索通用大模型在不同場景下的能力邊界和適用性。
? 策略:選擇多個通用大模型快速驗證其原子能力,針對特定場景嘗試微調場景小模型進行增強,保留關鍵能力,降低部署門檻。
? 實踐:從領域知識問答、文檔修訂等場景入手,采用 Copilot 模式快速驗證知識檢索、結構化文本和代碼生成等原子能力,為構建領域專家智能體提供必要前提。
領域深耕:構建領域專家智能體,自主完成任務
? 目標:構建專家智能體,驗證模型分工組合策略。
? 策略:根據不同場景和大模型能力特性,設計模型分工策略,如 DeepSeek-R1+DeepSeek-V3 組合,分別負責推理規劃和執行。通過微調和知識蒸餾等技術,進一步提升場景小模型執行專項任務的能力。
? 實踐:重構需求、設計、開發、測試端到端工作流,打造 AutoBA、AutoDesign、AutoTest 等領域專家智能體,即能自主完成各領域工作任務,也能與專家人員協作完成垂直領域復雜任務。
生態構建:從 AI4SE 到 AI4Biz,打造銀行智能核心一體化方案
? 目標:構建多智能體協作生態,打造智能化核心系統。
? 策略:完善“N+M”大模型體系,構建全場景多智能體協作生態,打造銀行智能化核心系統研發新范式。
? 實踐:打通銀行核心系統研發全鏈路,優化人機協作模式,全面提升復雜任務執行效率和質量。
03
新技術實踐
長亮科技從銀行核心系統研發場景和部分業務場景入手,率先完成了第一階段通用大模型能力驗證的目標,目前已邁入第二階段,正聚焦銀行核心系統智能化研發提效,構建 AutoBA、AutoDesign、AutoTest 等多個領域專家智能體,這些智能體將覆蓋接口差異分析、需求問答、代碼解讀、測試案例等多個場景。
DeepSeek-R1 的出現,無疑為長亮科技的技術實踐進程按下了加速鍵。下文將以需求分析智能體AutoBA為例,向大家介紹長亮科技的技術實踐成果。
AutoBA 介紹
需求分析智能體AutoBA,與長亮科技需求分析平臺打通,實現智能感知任務場景、提取關聯資產、調用需求分析工具、多角色Agents協作和交互式人機協作反饋,旨在為核心系統需求分析全場景賦能。
AutoBA 工作任務示例
任務1:找到要改動的需求差異點(滿分10分,期望分數≥8分)
- 基礎評分:根據文檔改動點數量平均分配基礎分值
- 扣分項:錯誤識別(-2分/處),無效修改(-1分/處)
- 加分項:識別出標準答案范圍外的有效內容(+2分/處)
任務2:準確生成需求修改指令(滿分6分,期望分數≥5分)
- 生成準確的指令(1分)
- 準確找到目標文件(1分)
- 精確定位修改位置(1分)
- 做出了正確的操作(1分)
總體評價
- 整體準確率60%以上(1分)
- 指令完全正確(2分)
AutoBA 效果展示
1. AutoBA獨立完成需求差異分析
a. 任務規劃:AutoBA 制定了分析計劃,可跟蹤具體任務執行
b. 深度推理:通過檢索需求文檔,分析系統現狀分析,識別需求差異,并給出解決方案建議
c. 修改操作:生成修改指令,對識別到有需求差異的需求文檔進行針對性內容修改

2. 人機協作交互式反饋
a. 智能標注:基于對需求變更內容的理解,AutoBA 自動完成需求改寫,并在需求文檔中以色塊形式標注修改內容
b. 快速決策:提供"接受修改"和"拒絕修改"的按鈕,方便用戶快速決策

AutoBA 效果評測
長亮科技選取了 DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B和Qwen2.5-32B-Instruct 三個候選模型作為 AutoBA 的底層支撐,旨在更好的實現大模型在復雜需求分析場景的應用效果。

評測結果分析:
? 引入 DeepSeek-R1 后,智能體的深度思考能力和推理能力得到提升,使 AutoBA 在核心系統需求分析過程中,不僅能更清晰地展示分析的思考過程,還能提升分析質量,輔助BA更高效地完成需求分析工作。
? DeepSeek-R1 推理能力可通過知識蒸餾方式遷移至小尺寸模型上(如上表 DeepSeek-R1-Distill-Qwen-32B),證明了增強小尺寸模型推理能力、思考能力以滿足 AutoBA 場景需求的可行性。
04
新場景展望
未來,在大模型體系構建的過程中,長亮科技將持續聚焦銀行核心系統研發復雜場景,依據多智能體跨領域協作優化模型分工策略,重點增強各類協作場景小模型的能力,從而全面提升復雜任務執行效率和質量,進一步降低部署門檻。同時,長亮科技將結合多種人機協作模式建立持續學習機制,使場景應用中產生的新知識不斷反饋到模型訓練中,形成知識積累的良性循環。
在應用場景的拓展層面,長亮科技在繼續豐富軟件工程全場景智能體生態的同時,還將結合自身在核心系統業務建模、實施工藝等領域沉淀的專家經驗和數字資產,推動 “N+M大模型協同策略” 的技術和應用最佳實踐,從軟件工程領域向銀行核心系統更多業務場景遷移,最終打磨形成為銀行業數字化轉型賦能的 AI4Biz 一體化解決方案,助力銀行邁入更加智能、高效、靈活的新時代。
參考資料:
1.中國信息通信研究院人工智能研究所, & 華為云計算技術有限公司. (2024.9). 智能化軟件開發落地實踐指南.
http://www.caict.ac.cn/kxyj/qwfb/ztbg/202409/t20240919_493348.htm?S0OMlgNm0r2m=1740013164777
2. DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. URL
https://arxiv.org/pdf/2501.12948
3. Sail-sg. There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study. URL
https://github.com/sail-sg/oat-zero
4. Zichen Liu*, Changyu Chen*, Wenjun Li*, Tianyu Pang, Chao Du, Min Lin. There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study. URL
https://oatllm.notion.site/oat-zero#192dba9c0091817491e3fc3a217ee7ea
5. YueWang?,1,2 ,QiuzhiLiu?,1 ,JiahaoXu?,1 ,TianLiang?,1 ,XingyuChen?,1,3 ,ZhiweiHe?,1,3 , LinfengSong1 ,DianYu1 ,JuntaoLi2 ,ZhuoshengZhang3 ,RuiWang2 , ZhaopengTu?1 ,HaitaoMi1 ,andDongYu1. Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs. URL
https://arxiv.org/pdf/2501.18585
6. Niklas Muennighoff*134 Zitong Yang*1 Weijia Shi*2 Xiang Lisa Li*1 Li Fei-Fei1 Hannaneh Hajishirzi23 Luke Zettlemoyer2 Percy Liang1 Emmanuel Candès1 Tatsunori Hashimoto1. s1: Simple test-time scaling. URL
https://arxiv.org/pdf/2501.19393