核心技術需要在試錯中發展
1、「26事件」的啟示
四十年來,為了實現高速發展,在前進的道路上我們繞過了一些比較難攻的「山頭」,包括作為工業「心臟」的發動機、作為信息產業「心臟」的中央處理器(Central Processing Unit,簡稱CPU)、高端工控系統和高端儀器等。
現在這些未攻下的「山頭」在後方作亂,成為巨大隱患。這些「山頭」有一個共同的特點,就是攻下它需要很長時間,因為它們都是複雜系統。影響複雜系統品質的因素很多,需要在不斷試錯中發展,不可能一蹴而就。就像上樓,只能一步一步從樓梯爬上去,一步樓梯就是一次在應用中試錯。
國外產品是在幾十年應用中經歷了多輪試錯發展起來的,是沿著樓梯一步一步上的樓。
70年代末以來,我國為了快速發展,每次產業升級都找容易取得效果的產品做,只能用國外的部件「攢」系統,計算機、汽車、飛機莫不如此。對於自主研發的產品,「在相同條件下優先使用」相當於永遠不用,因為阻斷了自主研發產品在應用中試錯,在試錯中發展的螺旋上升的過程。
核心技術產品的難點不在科學原理,而在於工程細節的完善。以汽車發動機為例,發動機的科學原理教科書都寫得很清楚了,關鍵是造出來後如何在應用中試錯,在試錯中提高。造幾輛基於自主發動機的汽車在實驗室以及野外完成各種實驗並不難,難的是一定批量的長期的應用驗證。有的開到空氣稀薄的青藏高原去,有的在冬天開到低溫的漠河去,有的在夏天開到高溫高濕的海南島去,而且都要有一定批量和周期。一輛車不出問題不意味著批量不出問題,一年不出問題不意味著十年不出問題。要在應用中發現問題,並根據發現的問題進行持續改進。有時候需要多輪改進才能見效,因為複雜系統的細節太多,即使是發動機中控制噴油嘴的電路板和晶元也不簡單。就像木桶有一百塊短板,每次改掉二十塊也需要改五輪,木桶的水才能增加,產品的品質才能明顯提高。
試錯需要時間和耐心,時間是核心技術產品最有效的門檻。以抗輻照CPU為例。掌握抗輻照技術並研製出抗輻照CPU後,首先要在地面做多輪的輻照實驗,包括總劑量實驗、單粒子實驗、抗閂鎖實驗,做這些實驗需要通過粒子加速器加速包括電子、質子及重離子在內的各種粒子打在晶元上來評估CPU的抗輻照能力。做完地面實驗後第一次上天只能搭載而不是真正應用。搭載實驗通過後可以用在備份系統中上天。
備份系統使用沒問題後才能作為主份上天。上述每一步實驗的時間都需要以年為單位。龍芯從2006年開始研製抗輻照CPU,第一次上天是2015年,2017年才開始上小批量,前後共花了十多年時間。有哪個社會資本願意支持創業團隊堅持十幾年不盈利呢?但一旦跨入抗輻照晶元應用的門檻,別人想再進來也得很多年。因此,時間是核心技術產品最重要的門檻。任何一、兩年或兩、三年就能做出來的東西門檻都不高,門檻不高的產品利潤都不高。
有沒有辦法避免上述耗時的多輪試錯,不用爬樓梯,一步就上樓呢?70年代末以來,我們進行了各種嘗試。第一階段是造不如買、買不如租;第二階段是「市場換技術」,希望通過成立合資企業來掌握核心技術;第三階段是直接收購國外高科技企業。
事實證明,這些都不是根本的解決辦法。
背後的邏輯很簡單,那就是西方是不會真心幫助我們發展的。反之,他們會設置各種門檻阻止我們進入他們的「領地」。在應用中試錯是核心技術產業的發展固有的規律,我們可以通過加大投入和改進體制機制加速試錯過程,但不能取代試錯過程。只有堅持自力更生,長期堅持,我國核心技術產業才能「上樓」,才能不受制於人。
2、自主CPU在試錯中發展過程
以龍芯CPU為代表的自主CPU研發和應用取得很大進展。
一是CPU性能不斷提高,超過國際主流CPU的低端產品,正在向中高端逼近,預計2020年前後逼近國際主流CPU的性能「天花板」。
二是基於自主CPU形成了包括近千家企業的產業鏈,自主可控的信息產業體系正在形成。
三是在特殊行業、能源、交通等領域得到了大量應用,自主CPU能取得上述進展,主要是得到了應用和試錯的機會,在試錯中上了幾級「樓梯」。
龍芯上第一級「樓梯」是主要面向基於嵌入式操作系統的單一應用及基於Linux通用操作系統的簡單應用。自主CPU開始和操作系統結合,在結合過程中解決了成百上千的技術問題,包括CPU成熟度不夠,嵌入式操作系統VxWorks的各類板級支持包(Board Support Package,簡稱BSP)和圖形包缺乏,在Linux上沒有可用的Java虛擬機、瀏覽器、辦公軟體和資料庫等。
通過建立質量體系和服務體系,並取得產業鏈合作夥伴的支持,初步解決了上述問題,自主基礎軟硬體達到「基本可用」。2015年龍芯產業化主體龍芯中科公司通過市場銷售達到盈虧平衡,並在此基礎上實現利潤的快速增長。這個階段主要應用都是一個個「小煙囪」,每個應用的軟硬體都不一樣,需要專門技術服務,而且批量都不大。這類應用就像鹽鹼地,認真種可以不餓肚子,在IT產業被國外壟斷集團深度壟斷的情況下,龍芯只能種好「鹽鹼地」作為進一步發展的根據地。
在第一輪試錯中也發現了CPU性能不足(只有市場主流產品的十分之一)、部分軟體功能(如在線Flash視頻播放)缺乏、輸入/輸出設備適配不夠等問題。總體上看,第一級「樓梯」主要的瓶頸在於CPU、操作系統及其結合部。
龍芯上第二級「樓梯」是主要面向包括辦公和行業業務系統在內的複雜固定應用,每個應用場景有上千台計算機,涉及操作系統、資料庫、中間件、瀏覽器、辦公軟體、Flash視頻、地理信息系統等。
雖然複雜,但有邊界。在這個過程中,CPU升級到第二代,性能大幅提高到第一代產品的4-5倍;操作系統升級到64位,穩定性大幅提高;Java虛擬機、瀏覽器性能均提高到第一代產品的2-3倍;解決了制約桌面應用的網上Flash視頻播放等相關問題。
大量自主輸入/輸出設備如高拍儀、掃描儀、印表機、身份證讀卡器等企業主動加入自主產業鏈,輸入/輸出設備越來越豐富。CPU、操作系統、資料庫、整機、系統集成等廠商緊密配合,協同解決用戶試點過程中發現的問題,形成了「應用試點、發現問題、解決問題並完善平台、在試點中檢驗」的良性循環。應用方面達到了「可用」的水平,使用者對自主基礎軟硬體的抵觸情緒逐步消失。新發現的問題包括:對複雜的外網應用,缺少像微信和QQ這樣的即時通信軟體;對大型應用,擴展性不好的資料庫成為性能瓶頸;雲計算等新興IT架構的解決方案還需要加強研發等。總體上看,爬上第二級「樓梯」大幅緩解了基礎軟硬體的瓶頸,主要矛盾開始從CPU和操作系統的結合部轉向操作系統與應用的結合部。
龍芯爬上第三級「樓梯」將在最近,面向的應用具有全業務、全地域的特點。自主基礎軟硬體將在第三輪試錯後走向成熟,具備全面推廣的條件。
龍芯在爬第三級「樓梯」過程中還將從三個方面完善基礎軟硬體。
一是CPU通用處理性能再提高1-2倍,逼近國際主流CPU的「天花板」。通過優化處理器微結構提高流水線效率,並通過物理設計提高頻率,預計2020年龍芯CPU的性能可以逼近當時市場主流CPU的水平。
二是完善自主基礎軟硬體規範,實現系統架構穩定和技術平台收斂。在過去應用中,操作系統需要針對不同的主板和升級後的CPU進行磨合適配,而在Wintel(英特爾公司的X86處理器和微軟公司的Windows操作系統)體系中可以實現不同主板及CPU的操作系統二進位兼容。其背後是Wintel體系統一的系統架構,包括指令系統、地址空間布局、中斷系統、多核互聯架構、IO介面規範等,需要CPU、BIOS、橋片、操作系統配合完成。相比之下,ARM架構由於只規範了指令系統和片內匯流排,其生態系統是碎片化的。龍芯正完善基於龍芯CPU和橋片的統一系統架構,大幅度降低軟硬體適配工作量,並最終實現操作系統在不同主板和CPU的二進位兼容。
三是以用戶體驗為中心,對自主基礎軟硬體展開系統梳理和優化,打造集約型的系統,使用戶體驗有實質性的提高,達到「好用」水平。在此之後,自主基礎軟硬體的主要瓶頸將由CPU和操作系統的結合部轉移到操作系統和應用的結合部。
經過上述三輪試錯,以CPU和操作系統為代表的自主基礎軟硬體從不成熟到成熟,自主基礎軟硬體產業鏈從組合發散到組合收斂,基於自主基礎軟硬體的應用系統從基本可用、到可用、到好用,為構建獨立於Wintel體系和ARM+Android體系外的自主技術體系打下堅實的基礎。


※RISC-V證明自建獨立於Wintel、AA的技術體系並非死路一條
※魂芯單核性能達美國晶元四倍 無法自我造血是最大隱患
TAG:鐵流 |