韩国保姆2_少女伦理电影_HD中文字幕在线观看,玩偶姐姐在线观看高清,8090新视觉电影免费播放在线观看,98蜜桃

沃趣科技技術社區
行業前沿信息一網打盡
技術社區 > 原理剖析|基于以太網的超高速存儲技術實踐

原理剖析|基于以太網的超高速存儲技術實踐

2023年06月14日

前言



隨著互聯網的不斷發展,數據的規模爆發式增長,根據《2021-2025年中國大數據行業競爭分析及發展前景預測報告》研究表明,中國數據增量年均增速超過30%,2018年中國新增數據量為7.6ZB,成為世界第一數據生產國。預計2025年將達到48.6ZB。 


為了滿足日益增長的存儲需求,數據存儲技術從介質、架構、協議、模式方面都存在巨大轉變。由原本的機械硬盤存儲、易失型內存演變為了全閃存儲、非易失性內存。架構從集中式存儲演變為了軟件定義存儲、超融合架構。協議從AHCI、SCSI協議演變為了NVMe協議。 


NVMe和NVMe Over Fabric的出現,打破了傳統SCSI協議對性能的限制,多隊列模型能更好的發揮高性能存儲介質的性能。在如今的存儲網絡當中,NVMe及NVME Over Fabric已經成為高性能存儲架構的標桿。


RDMA

為了解決數據中心內爆炸式增長的數據存儲和讀取效率問題、應用業務對延遲的要求日益增高,對數據中心網絡的要求是:更低的時延、更高的帶寬。為了解決此問題,RDMA(Remote Direct Memory Access)技術應運而生。 
在傳統的TCP/IP中,從網卡收到數據包,到應用層接收,需要經過網卡ring buffer ——>內核空間——>用戶空間,帶來大量CPU、內存的開銷,且增加了時延。RDMA技術可以實現kernel bypass,在網卡當中就完成數據包的解析,直接將數據包傳輸至應用層,不需要額外的CPU開銷,降低了時延。

1.png


因為包的解析都下沉到了網卡中,所以RDMA特性需要網卡的支持。


目前RDMA主流實現方式有以下三種

  • Infiniband

  • RoCE(基于UDP)

  • iWRAP(基于TCP)

RDMA起初只是在InfiniBand上實現,由于Infiniband在設計之初從硬件層面保證了數據包不丟,所以RDMA重傳機制設計的非常簡單:go-back-N重傳。簡單來說就是當有一個數據包丟失時,后續所有的數據包都需要重傳。 


相對來說,在TCP協議上則只需要將丟失的包重傳即可,所以在RDMA網絡當中丟包,對傳輸性能有非常大的影響。 


Infiniband天然就保證了不丟包,iWRAP以及RoCE是基于以太網實現的,而以太網是一個盡力而為的網絡,iWRAP使用了TCP協議保證無丟包,相對來說時延會略高。而RoCE(v2)則使用了UDP,延遲會比較低,但是對于網絡有更高的要求,需要底層網絡來保證無損


2.jpeg

在Mellanox官網的測試結果當中,RoCE的時延基本只有iWRAP的1/5。


RoCE的實現

無損網絡

在上文的介紹中,明確了RDMA如果產生丟包,對性能會有很大的影響。那么如何做到以太網中沒有丟包?


第一個能想到的就是將所有交換機當中的buffer都加大。假如buffer夠大,碰到速率不匹配時,會將包先放在緩存中。 


但是包放在緩存中會導致時延上升,緩存過大會導致時延很高,本身使用RDMA主要就是為了保證低時延,只能采用小buffer。在這種前提下,能夠實現無損網絡的方式為PFC以及ECN


  • PFC 
    PFC全稱Priority-based Flow Control。顧名思議,它是Flow Control的升級版本。Flow Control是基于端口做的檢測,當網絡出現擁塞時,會將整個端口的流量都停止掉,也就是說可能會由于一些不重要的數據流,影響到非常重要的數據流。這顯然不是我們想看到的結果。 


    PFC會將網絡流量分為8個優先級,可以針對不同的優先級設置流控的策略。在隊列中的buffer消耗達到水位線時,會通過發送Pause幀通知上游設備暫停發包,防止緩存溢出丟包。如下圖,隊列7的buffer使用達到水位線,則本端交換機會向上游交換機發送Pause幀,同時不影響其它隊列的正常發送。

3.png


  • ECN
    ECN:Explicit Congestion Notification,為顯示擁塞通知。ECN是報文在網絡設備傳輸過程中,發生擁塞并觸發ECN水線時,會使用IP報文頭的ECN字段標記數據包,表明該報文遇到網絡擁塞。當接收端接收到帶ECN的報文時,則會馬上向源端發送一個CNP報文。CNP消息里包含了導致擁塞的Flow信息。源端服務器收到后,通過降低相應流發送速率,緩解網絡設備擁塞,從而避免發生丟包。


    CNP報文在傳輸回源端時,也有可能發生擁塞,導致源端收到的不及時。所以可以讓CNP報文走單獨的PFC隊列,保證優先轉發

    ECN不是必須配置的(但是建議配置),ECN能夠進一步減緩擁塞。從充分發揮網絡高性能轉發的角度,我們需要通過調整ECN和PFC的buffer水線,讓ECN快于PFC觸發,即網絡還是持續全速進行數據轉發,讓服務器主動降低發包速率。如果還不能解決問題,再通過PFC讓上游交換機暫停報文發送,雖然整網吞吐性能降低,但是不會產生丟包。


  • 交換機 
    想實現無損網絡就得讓網絡設備支持PFC/ECN功能。當然,并不是所有的交換機都支持這些功能。目前各大產商都有支持此功能(DCB)的交換機。


無損網絡配置完成后,可以制造一些擁塞場景進行測試,比如使用RDMA二打一流量進行測試,假如性能損失嚴重,則說明無損網絡配置存在問題。部分交換機也可以在命令行提供丟包信息查看。


NVMe-oF

NVMe是一個邏輯設備接口規范,與SCSI和SATA協議相比,NVMe標準將訪問時間縮短了幾個數量級。


NVMe Over Fabric(簡稱NVMe-oF)基于NVMe技術發展而來。NVMe適用于服務器內部或直接連接存儲設備。NVMe-oF使用基于消息的模型通過網絡在主機和目標存儲設備之間發送請求和響應,簡單來說,NVMe-oF可以將存儲設備通過網絡傳輸到另一個節點。


相比之前存在的iSCSI、FC存儲協議,NVMe-oF在性能、時延、并行度、可擴展性上都存在巨大優勢 。 


NVMe-oF可以在TCP/RDMA上實現,基于RDMA的實現中,由于RDMA低延遲、低抖動和低CPU使用率的特性,性能和時延表現都會會優于基于TCP的實現。綜上所述,NVMe over RDMA總體會更好一些。


落地實現及實際性能

了解了RoCE的實現方式以及NVMe-oF這款基于RDMA的應用后,就可以開始進行測試了! 


首先構建一個簡單的環境測試一下基于RoCE環境的NVMe-oF的性能,搭建了一個環境如下圖所示。兩臺服務器各使用一張支持RDMA的100GB網卡,連接至支持DCB功能的交換機,存儲節點插10塊P4610 NVMe SSD(確保存儲節點性能足夠優秀)。

4.png

對環境進行簡單的配置以支持RDMA


  1. 在服務器上開啟ECN功能、PFC隊列。并設置流量的TOS值(TOS值是IP報頭的一個字段,為了區分流量是進入哪個PFC隊列)。基于當前環境,只需要一個隊列。

  2. 在交換機上配置ECN功能、PFC功能。參數需要與服務器側適配。對于水位線配置可先采取各產商建議值。

配置完無損網絡后,需要配置NVMe-oF協議,將存儲節點的盤輸送到計算節點上,配置完成后,使用FIO工具,對輸送上來的塊設備性能進行測試。 


基于此環境,性能如下

5.png


由于是100GB的網卡,吞吐理論最佳在12GB左右,可以看到順序讀寫的吞吐已經接近極限值。隨機讀寫也達到了100w左右,并且延遲也處于較低的水平。 


由于性能基本已經達到網卡的極限,現在采用scale-out方式再新增幾個節點。 


將架構改成2臺應用節點,3臺存儲節點,為每臺節點插上兩塊100GB RDMA網卡。 


同時優化PFC配置,讓ECN回復的CNP報文單獨走到一個隊列,并使用嚴格優先級保證最優先轉發。


基于此環境,測試性能結果如下

6.png

可以看到遠端應用節點性能也已經達到了網卡的極限值,基于目前的測試,在傳輸的過程當中,性能基本沒有損耗


那么與InfiniBand性能對比測試結果如何呢?

基于當前環境進行一個對比測試

7.png

通過測試發現,RoCE的性能略低于IB


測試完了FIO,基于數據庫表現對RoCE與InfiniBand做一個簡單的對比測試。基于上述環境搭建Oracle RAC,全用HammerDB對數據庫進行壓測。 


基于當前環境,測試RoCE與InfiniBand環境下數據庫性能,結果為RoCE與InfiniBand性能持平。


總體來說,NVMe-oF情況下IB略優于RoCE,數據庫情況下IB與RoCE持平



選擇


從配置上說,InfiniBand的使用較為簡單,RoCE的使用方式較難,但成本相對較低。并且由于RoCE是基于以太網的,在對外以及和傳統網絡的兼容性上有極大的優勢。具體的選擇還需要根據業務場景。




總結


本文簡單的描述了基于以太網RDMA的實現方式,并使用FIO工具對NVMe-oF進行了簡單的測試,橫向對比了Infiniband性能。通過實驗,對NVMe-oF以及RDMA的性能有了一些了解,相比傳統存儲架構,NVMe-oF性能有了極大的提升。在底層存儲性能越來越高的情況下,NVMe-oF或許是越來越不可或缺的一環。RoCE是目前大環境下一個不錯的選擇。



參考資料

  • 六年間全球數據總量爆發式增長 中國數據增量年均增速超過30%:
    https://www.chinairn.com/hyzx/20210527/100320817.shtml

  • 下一代數據存儲技術研究報告(2021年)

  • 淺析RDMA網絡下MMU水線設置 淺析RDMA網絡下MMU水線設置:
    https://www.ruijie.com.cn/fa/xw-hlw/61714/

  • 詳解:什么是NVMe over Fabrics?:
    https://3d83611d.wiz06.com/wapp/pages/view/share/s/0ZwS4t1uXQPY2SmgZY2xRrOB3ZDb9q1AZkkG2KdeoX1lWHX8




讓數據庫基礎設施更簡單
加速企業數字化轉型建設及落地
立即咨詢

沃趣科技

中立的企業級數據庫云
十年磨一劍十年來始終如一的專注數據庫生態領域
夯實技術底蘊打造最適合時代的數據庫基礎設施
業績持續領先目前已累計服務超3000家企業客戶

留言咨詢

完善信息,我們第一時間跟您聯系
姓名
手機
公司
所在地區
咨詢問題