當前位置:
首頁 > 知識 > Alibaba Cloud Linux 2 開源後又有什麼新動作?

Alibaba Cloud Linux 2 開源後又有什麼新動作?

Alibaba Cloud Linux 2 開源後又有什麼新動作?


本文將重點介紹 Alibaba Cloud Linux 2 的特性更新及開發過程中的決策過程與質量保證細節。

轉自: https://mp.weixin.qq.com/s/osNJqbbUNvyysHceEq-QgA

作者/來源: 阿里技術

2019 年 4 月,Alibaba Cloud Linux 2(Aliyun Linux 2)正式開源。時至今日,已經走過三個月的里程。在這段時間內,這個剛誕生不久的為阿里雲 ECS 環境定製優化的 Linux 操作系統發行版的裝機量穩步上升。

本文將重點介紹 Alibaba Cloud Linux 2 的特性更新及開發過程中的決策過程與質量保證細節。


1. 開源與背景

2019 年 4 月正式對外開源的 Alibaba Cloud Linux 2 是下一代 Alibaba Cloud Linux (官網產品名 Aliyun Linux)操作系統發行版,以 CentOS 7、社區長期支持版(LTS)內核、其他社區版用戶態軟體及阿里巴巴多個開源內部產品等多個來源為上游,為雲上應用程序環境提供 Linux 社區的最新增強功能,在提供雲上最佳用戶體驗的同時,也針對阿里雲基礎設施做了深度的優化和定製。

Alibaba Cloud Linux 2 開源的重要亮點是自帶的阿里雲 雲內核(Cloud Kernel),同時也是開放在 GitHub 上的 Alibaba Cloud Linux Kernel 項目 ,它是開發團隊全體成員傾力打造的一款內核產品,旨在將阿里巴巴操作系統團隊多年技術積累分享給社區,也歡迎志同道合的開發者一同參與內核開發協作,共同創造更加有益的價值。


開源歷史

Alibaba Cloud Linux 2 的開發團隊是阿里巴巴操作系統團隊,前身是淘寶內核組,團隊成員大多是活躍在內核社區的開發者,九年來積累了深厚的操作系統和內核開發底蘊。

Alibaba Cloud Linux 產品是阿里技術商業化和開源思想完美結合的範例。在阿里雲 ECS 產品中作為官方鏡像之一,Alibaba Cloud Linux 與 CentOS、Ubuntu 等社區發行版一同作為選項提供給客戶,並為 ECS 環境定製了多項特性和性能優化;不僅如此,Alibaba Cloud Linux 更天生帶著開源的基因。開放源碼是一種共享的黑客精神,從開放源碼運動誕生至今,無數優秀的開源產品給數以百萬計的軟硬體產品和雲產品提供了強大的基礎系統底座支撐。站在這些巨人的肩膀上,我們繼承開源的精神,創造了 Alibaba Cloud Linux 產品,現在,又推出了 Alibaba Cloud Linux 2 操作系統發行版,並以相同協議開源,將我們的工作成果回饋到社區。

  1. 2017 年,基於 CentOS 7.3 源碼重新製作的 Aliyun Linux 17.01 上線,定製提供了較新的 4.4 版本內核,並完成整個操作系統發行版開源;
  2. 2018 年 10 月, Alibaba Cloud Linux 2 項目需求評審啟動,11 月項目正式立項;
  3. 2019 年 3 月 1 日, Alibaba Cloud Linux 2 Beta 發布,邀請天使客戶參與公測;
  4. 2019 年 4 月 2 日, Alibaba Cloud Linux 2 GA 正式發布,在 ECS 公有雲產品官方鏡像列表上架;
  5. 同時, Alibaba Cloud Linux 2 發行版源碼在阿里 OPSX 軟體倉庫上架開源,內核源碼在 GitHub 開源。

2. 功能與優勢

2.1 初始版本功能

Alibaba Cloud Linux 2 最主要的功能更新是內核更新,基於內核社區長期支持(LTS)的 4.19 版本定製,在 CPU、內存、文件系統、IO、網路、CGroup 等子系統上增加了大量適用於雲場景的新特性、性能改進和重大缺陷修復,支持:

  • CPU:多項 CPU 安全修復,CPU 負載預測功能改進以增強調度均衡性;
  • 內存:TLB 相關優化, 回寫(writeback )相關優化,OOM-Killer 可靠性優化, 空閑頁面跟蹤(Idle Page Tracking)特性支持;
  • 文件系統:Ext4、XFS、Btrfs、NFS、Overlayfs 等重要文件系統的新特性支持及優化;
  • IO: 全新的非同步 I/O 優化,非同步 I/O 輪詢特性支持;
  • 網路:BBR,零拷貝 TCP API 支持,XDP 及 AF_XDP 機制支持;
  • CGroup: CGroup v2 支持,基於 CGroup v2 的 CGroup 回寫支持和 blkio 延遲支持。

此外,和內核相關的功能和改進還有:

  • 內核啟動參數和系統配置參數調優,提升啟動速度和錯誤恢復相關的能力;
  • 提供操作系統崩潰後的內核轉儲(Kdump)能力,用戶可以根據需要在線打開或者關閉該功能而無需重啟操作系統;
  • 提供內核 熱補丁升級(Live Patching)能力。

2.2 更新與發展

2.2.1 系統鏡像更新過去三個月,Alibaba Cloud Linux 2 發布了兩個鏡像更新。最新版本的系統的鏡像 ID 為 aliyun_2_1903_64_20G_alibase_20190619.vhd。

在最初發布的版本中,我們只允許用戶通過 ECS 控制台購買的方式創建新的虛擬機。從 20190517 版本開始,我們提供了可獨立下載的系統鏡像文件,用戶可以更方便地基於 Alibaba Cloud Linux 2 系統鏡像創建並使用自己的虛擬機。我們希望藉由此方式,讓用戶更積極地參與到 Alibaba Cloud Linux 2 的使用中。

當前的獨立系統鏡像文件為 qcow2 格式,運行時支持基於 QEMU/KVM 的虛擬化環境,在虛擬機中使用 virtio 驅動。獨立鏡像下載後初始化需要依賴 cloud-init 機制,詳情請參考獨立鏡像 說明文檔 。

2.2.2 軟體包更新除了鏡像迭代, Alibaba Cloud Linux 2 還持續保持系統 YUM 源的更新,用戶可以在操作系統內通過 yum update 命令維持軟體包的最新狀態。

內核方面的更新,我們持續基於社區 LTS 4.19 內核 rebase 代碼,加上自研功能和 Bug 修復。每三到四個星期,我們會快速迭代發布一個新的內核包。在迭代周期內,除了完成必要的穩定性測試,我們也會積極修復內核 BUG 並反饋到內核社區。在接下來的章節會詳述。

在操作系統發行版基礎系統(BaseOS)功能方面,除了常規同步上游社區的修復與更新,我們選擇性地更新了多個用戶態軟體包,以匹配最新的內核功能及其他日常使用需求,並且對這些包進行了必要的測試和獨立的維護。更新的軟體包包括但不限於:crash、e2fsprogs、xfsprogs、iproute 等。

此外,我們還與阿里巴巴內部其他團隊合作,持續將阿里巴巴的開源成果集成到 Alibaba Cloud Linux 2 中並輸出給用戶。目前集成並保持更新的阿里巴巴內部軟體有:

  • Alibaba Dragonwell:Ali-JDK 的開源版本,6月下旬剛剛發布 GA 版本,我們及時跟進集成並完成了軟體測試後,輸出到 Alibaba Cloud Linux 2;
  • PouchContainer:阿里巴巴開發的高效容器引擎;
  • Dragonfly client:開源的基於P2P鏡像及文件分發系統;
  • Tengine:在 Nginx 的基礎上,針對大訪問量網站的需求,添加了很多高級功能和特性的 Web 伺服器項目;
  • aliyun-cli:開源的用於管理阿里雲資源的工具;
  • ossfs:用於將阿里雲 OSS buckets 掛載到本地的工具;
  • eBCC:社區版 BCC 的功能擴展。

用戶可以在操作系統內通過 yum install 命令直接安裝對應的軟體包。

2.2.3 Cloud Kernel 社區貢獻Alibaba Cloud Linux 2 是一個建立在社區協作基礎上的開源操作系統發行版項目,同時也非常重視回饋社區。

Cloud Kernel 是 Alibaba Cloud Linux 2 最重要的開源內核,也是在 GitHub 上的開源項目。如前所述,我們保持三周到四周的迭代周期,在每個迭代都保持對外推送最新開發補丁。在迭代開發過程中,我們多次測得 4.19 版本 的 LTS 內核的 BUG,並及時向社區報告,或者通過定位將主線內核的修復移植回 LTS 內核,或者主動向社區提交補丁。

對於測試中發現的 LTS 內核 BUG,我們首先會根據已劃分的內核領域進行初步判斷,如果難以直接定位,則會進行 bisect 尋找最有可能出現問題的代碼。經過初步的分析之後,根據問題的難易程度,我們會選擇直接向社區提交修復補丁或者進行討論。

有一種常見的情況是,某個內核 BUG 在主線內核中已經修復,但是由於種種原因,該修復沒有出現在 4.19 LTS 內核中,這種情況下,我們會選擇先將主線內核修復的代碼 cherry-pick 到 Cloud Kernel 的開發分支中,並且向 4.19 LTS 內核的維護者、以及對應內核子系統的維護者發送一封 backport 請求的郵件,提示維護者及時將該修復移植回來。

截止 6 月 30 日,團隊在開發 Cloud Kernel 過程中,向內核社區提交並被接收的內核補丁有 19 個。此外,我們還積極向知名的社區測試套件 LTP、xfstests 等項目貢獻了多個修復補丁以及新測試用例。

除此之外,Cloud Kernel 還與 Intel 0-day 項目等開源項目達成合作,0-day 項目團隊主動向 Cloud Kernel 推送了多個修復建議及補丁,均已被接受合入開發分支。

2.2.4 內核重要功能更新由於 Aliyun Linux 2 的內核需要運行在通用的 ECS 系統上,或者用戶自定義的基於 QEMU/KVM 的虛擬機中,保持內核功能的通用性一直是我們在增加 Cloud Kernel 功能時的原則。在開發自研內核功能時,我們會對功能進行充分的評估,如果該功能的實現方式過於 Hack,或者引入該功能會造成內核維護成本急劇上升,我們會從架構的完整性考慮而酌情放棄該功能的開發。下面是兩個近期自研的內核功能的例子:

(a)cgroup writeback v1

在 4 月份 GA 版本發布中,我們提到了基於 cgroup-v2 的 cgroup writeback 功能是 LTS 4.19 內核的一項重要更新;發布後,我們收到多個客戶反饋,亟需此功能在 cgroup-v1 上的實現。在深入分析之後,我們意識到,cgroup writeback 功能天生適合 cgroup-v2 的平坦結構,卻也不是不可能在 cgroup-v1 上實現。關鍵點在於在使用 cgroup-v1 時,需要人為保證對應的 blkcg 和 memcg 兩個 cgroup 保持合理對應的映射關係。在梳理清楚 cgroup 映射關係限制條件後,我們完成了 cgroup writeback v1 在 Cloud Kernel 上的實現,並在 GitHub 上 發布 對應的更新;同時為了保證用戶對於使用時的映射關係約束有足夠的了解,我們在內核中默認將此功能保持關閉,並製作了 相關文檔 說明。

(b)TCP TIME-WAIT 狀態超時介面

這個功能允許用戶動態調整 TCP 連接的 TIME-WAIT 狀態超時時間,允許其被設置為小於默認的 60s 值,從而在大量短連接應用中,提高應用性能。這個功能實際上是早期版本的 Taobao Kernel 已經實現並對外提供的功能,在決定是否要將此功能在 Aliyun Linux 2 上重新移植一遍時,我們重新評估了該功能的風險。在翻閱了 RFC 793 標準中 「The TCP Quiet Time Concept」 相關的概念後,我們認為該功能不符合 TCP 「Quiet Time」的概念,在不知曉該風險的情況下使用可能會造成系統不穩定;但是由於該功能確實被客戶需要,且功能結構、代碼實現較為獨立,維護成本和風險可控。所以我們在內部實現時,顯性備註了介面使用風險後,將功能在 GitHub 上 發布 。


3. 研發過程中的質量保證

Alibaba Cloud Linux 2 使用了大量社區的功能,核心組件 Cloud Kernel 沒有使用 Red Hat 內核版本,而是使用了基於內核社區 4.19 LTS 版本。眾所周知,社區版的內核的穩定性一直為人所詬病,我們在採用此版本內核時,也有一樣的擔心。因此在研發過程中,我們對 Cloud Kernel 進行了積極的測試。

首先,得益於阿里巴巴操作系統團隊中有多個內核子系統維護者、內核測試套件的維護者或前維護者,我們對於開源社區主流的測試套件對內核子系統的覆蓋率及測試細節掌握較為全面。通過這些開源測試套件,我們發現了不少社區版內核的問題,並為社區貢獻了多個補丁。

其次,在研發過程中,我們遵循「自己吃自己的狗糧」的原則,要求研發同學自行完成單元測試用例開發,並且集成到內部測試平台中進行回歸測試。在測試平台的選擇上,基於研發開發測試代碼的便利性原則,我們選擇了成熟的測試框架 Beaker ,這是一個源自 Red Hat 的社區開源測試框架項目,可以很方便地集成測試代碼,並且輸出直觀的測試結果。我們將自己開發完成的測試代碼放到 Beaker 測試平台上,進行自動化的 每晚構建回歸測試(Nightly Regression Testing)。在每個迭代中,我們也發現了不少內核回歸缺陷,都及時向社區提交了補丁或者參與了修復討論,為穩定 4.19 LTS 內核做出了自己的貢獻。

此外,在阿里巴巴操作系統團隊內部有專業的質量保證團隊。質量保證團隊的測試平台集成了 40 多個測試套件,覆蓋了功能性測試、性能測試、冒煙及穩定性測試等各方面。在 Alibaba Cloud Linux 2 迭代周期進入交付測試階段,會由質量保證團隊負責相關測試,測試結果經過 Review 通過後,則可進行迭代發布。


4. Alibaba Cloud Linux 2 後續計劃

  • 持續開發新特性,也積極將開源社區的最新成果帶給 Alibaba Cloud Linux 2 用戶,並回饋開源社區;
  • 進一步完善相關文檔,包括初學者文檔,吸引更多用戶參與操作系統與內核開發;
  • 分享操作系統及內核相關的技術文章,籌建線上與線下活動,增強操作系統與內核領域的交流。

5. 結語

操作系統最近幾個月成為了熱門的話題,此時推出這樣一篇介紹 Alibaba Cloud Linux 2 發行版的技術文章還顯得比較應景。作為一個技術人,在日常的工作中,堅持技術的錘鍊,樂于思考與分享,對操作系統和內核領域不斷鑽研,才能立足於瞬息萬變的技術之潮中,並且遊刃有餘。


點擊「了解更多」可訪問文內鏈接

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Linux技術 的精彩文章:

系統管理員與網站可靠性工程師(SRE)對比:區別在那兒?
Adobe Lightroom 的三個開源替代品

TAG:Linux技術 |