必威电竞|足球世界杯竞猜平台

分布式數據庫系統
來源:互聯網

分布式數據庫系統(Distributed Database System,DDBS),是指物理上分布、邏輯上集中的分布式數據庫結構或物理上分布、邏輯上分布的分布式數據庫結構。一個分布式數據庫系統從邏輯上看如同集中式數據庫系統一樣,用戶可在任何一個場地執行全局應用。

隨著大數據技術的發展,以HadoopGreenplum為代表的非結構化大規模數據處理技術崛起,這些技術主要采用Shared-nothing架構,在分析領域率先實現了分布式的擴展。2010年后,谷歌spanner、Tidb采用Paxos算法RAFT等一致性協議來解決中間件方案的單點瓶頸問題,這為事務數據庫的分布式化提供了新的理論依據。在中國,是金融行業率先使用分布式數據庫系統,曾長期由Oracle數據庫IBM等國外科技公司占據主導地位。隨著華為騰訊阿里巴巴集團紛紛投入了自主研發數據庫的業務布局,中國產品在國內市場替代率節節攀升。2021年,中國工信部印發《“十四五”信息化和工業化深度融合發展規劃》,明確提出加速分布式數據庫、混合事務分析處理數據庫、共享內存數據庫集群等產品研發和應用推廣。2023年12月,相關報告顯示,騰訊云華為云阿里云位居中國分布式關系型數據庫市場份額Top3。

隨著互聯網在線業務的不斷發展,信息技術向產業互聯網延伸,開源理念不斷深入,分布式數據庫系統迎來了快速發展。結合云計算人工智能和硬件的發展,并隨著時間的累計和海量應用的支持,分布式數據庫系統品應用前景也越來越好。

發展歷程

發展背景

20世紀80年代,伴隨著關系數據庫理論的誕生,IBMOracle數據庫兩家公司開始提供商業化的數據庫產品,服務于各類大型企業。初期的數據庫都是單機軟件,跑在專有的硬件之上,比如IBM的大機、小型機,如果業務量或者數據量增加,只能進行垂直擴展,即采用增加CPU、存儲的方式。這套體系的優點是非常穩定,缺點是開放性不夠,與通用x86服務器體系之上的開發環境兼容性差,另外當業務量增長過快時,其擴展能力有限,而且這套系統的造價非常昂貴。

2000年以后,隨著互聯網在線業務的發展,業務系統訪問的并發度呈指數級上升,海量數據計算和分析需求越來越普遍,傳統單機系統在業務支撐、成本、開放性等方面均面臨巨大挑戰,數據庫垂直擴展的模式也無法維系。互聯網企業開始探索新的水平擴展的方案,最常見的就是應用系統通過分庫分表進行解決。但是,這種解決方案的應用系統需要做大量改造,需要感知數據存儲位置,增加了運維的復雜性,并因此出現了中間件的方式,如mycat等。這種方式雖實現了數據對應用的透明,但未解決數據庫運維的痛點。

快速發展

隨著大數據技術的發展,以HadoopGreenplum為代表的非結構化大規模數據處理技術崛起,這些技術主要采用Shared-nothing架構,在分析領域率先實現了分布式的擴展,分析的主要任務是數據的查詢,其應對的挑戰主要是海量數據的存儲、計算,對于事務的要求較低。2010年后,谷歌spanner、Tidb采用Paxos算法RAFT等一致性協議來解決中間件方案的單點瓶頸問題,這為事務數據庫的分布式化提供了新的理論依據。

在中國,是金融行業率先使用分布式數據庫系統,長期由Oracle數據庫IBM等國外科技公司占據主導地位,不僅導致軟件服務費用高昂,而且在許多關鍵領域還存在信息安全的隱患。后隨著,華為騰訊阿里巴巴集團紛紛投入了自主研發數據庫的業務布局,中國產品在國內市場替代率節節攀升。以OceanBase為例,它是螞蟻自主研發的分布式數據庫,經歷過阿里超大規模業務場景、支付寶金融級場景以及雙11等戰役的歷練,并于2017年開始對外輸出。目前該產品已在多家機構落地應用,包括中國工商銀行中國移動山東公司中國移動通信集團福建有限公司、數字江西、中國石化中華聯合財產保險公司、人保健康、浙商證券天津銀行西安銀行常熟銀行東莞銀行等。

2021年,中國工信部印發《“十四五”信息化和工業化深度融合發展規劃》,明確提出加速分布式數據庫、混合事務分析處理數據庫、共享內存數據庫集群等產品研發和應用推廣,從政策層面點明了數據庫的發展方向。2023年6月7日,繼MetaERP之后,華為推出全新GaussDB數據庫產品,是中國首個軟硬協同全棧自主的數據庫。同年12月,全球IT研究和咨詢公司國際數據公司發布了《IDCMarketScape:中國分布式關系型數據庫2023年廠商評估》的報告顯示,螞蟻OB、騰訊云華為云阿里云金篆信科有限責任公司入選榜首行列。其中,騰訊云、華為云、阿里云位居中國分布式關系型數據庫市場份額Top3。

系統結構

體系結構

分布式數據庫系統(Distributed Database System,DDBS)是在集中式數據庫系統的基礎上發展起來的,是數據庫技術與計算機網絡技術專業結合的產物 。分布式數據庫系統是具有管理分布數據庫功能的計算機系統,分布式數據庫系統 (DDBS)是由分布式數據庫管理系統和分布式數據庫組成。而分布式數據管理系統 (簡稱DDBMS) 是建立、管理和雛護分布式數據庫的一組軟件。

概念定義

分布式數據管理系統 (DDBMS) 包括物理上分布、邏輯上集中的分布式結構和物理上分布、邏輯上分布的分布式數據庫結構兩種。分布式數據庫是由一組數據組成的,這組數據分布在計算機網絡的不同計算機上,網絡中的每個結點具有獨立處理的能力(稱為場地自治),可以執行局部應用,同時,每個結點也能通過網絡通信子系統執行全局應用。所謂局部應用即僅對本結點的數據庫執行某些應用。所謂全局應用(或分布應用)是指對兩個以上結點上的數據庫執行某些應用,支持全局應用的系統才能稱為分布式數據庫系統。對用戶來說,一個分布式數據庫系統從邏輯上看如同集中式數據庫系統一樣,用戶在任何一個場地執行全局應用。

名目辨析

分布式數據庫系統(DDBS)是在集中式數據庫系統的基礎上發展起來的,是數據庫技術與計算機網絡技術專業結合的產物。分布式結構是相對于集中式結構而言的。從數據處理的角度來說,典型的集中式結構是數據集中存放和處理,用戶通過遠程終端或通過網絡連接來共享集中存放的數據。分布式結構則是將數據及其處理分散在不同場地,各場地各自管理一部分數據,同時又通過網絡系統相互連接。各場地的用戶除可以訪問和處理本地數據外,也可以訪問和處理別的場地的數據。分布式數據庫是典型的分布式結構,它包括對數據的分布存儲和對事務的分布處理。

基本功能

分布式數據庫系統系統功能主要體現于分布式數據庫管理系統的基本功能上,如下:

參考資料:

主要特點

數據的獨立性和分布的透明性

數據的獨立性可以說是分布式數據庫系統的核心和目標,而分布的透明性表現在用戶在操作帶有數據庫的應用程序時,不必了解數據存儲的具體物理位置,不必關心數據邏輯集中的區域,也不必驗證本地系統支持哪些數據模型,分布透明的特點,在很大程度上增加了應用程序的可移植性。

集中和自治相結合

對于分布式數據庫系統來說,數據共享分為兩層:局部共享和全局共享,局部共享是相對于局部數據庫而言的,存儲在局部數據庫中的一般是專門針對本地用戶的常用數據;全局共享就是說在各個分布的數據庫區域,也能夠支持系統在全局上的應用,可以存儲可供本網中其他位置的用戶共享的數據,那么對于這兩層數據共享的分類,就有相應的兩種控制方式,即集中和自治,各個局部的數據庫管理系統可以對本區域的數據庫實施獨立管理,稱為自治;與此同時,為了協調各個局部數據庫管理系統,為了宏觀、整體地把握各局部數據庫的運行情況等,系統還設置了集中控制的工作方式。

易于擴展性

由于單位、企業等的數據量越來越龐大,對于數據庫服務器的需求也越來越多,如果服務器的應用程序支持水平方向的擴展,那么就可以通過多增加服務器來分擔數據的處理任務。

安全性與防護措施

安全問題

分布式管理信息系統存在的安全問題同普通管理信息系統相仿,主要包括:物理安全、數據庫安全、管理系統安全等。

中心系統安全問題

子系統數據都依附于中心系統基礎數據,面臨的問題主要有:第三方企圖竊取數據包,并以此為藍本創建新型數據庫或間接獲取子系統的相關安裝程序,即將自已偽裝成接收方;或者對數據包內部的重要數據進行惡意篡改,導致接收方讀取困難。分發業務數據時面臨著類似的安全問題,子系統向中心系統提供業務數據。在這個數據交換過程中,有可能出現下列問題:數據包來源不明、數據包發出者不承認自身操作、傳輸過程中有人惡意接入,以修改數據包敏感信息。

子系統安全問題

數據包來源偽造、數據包被植入惡意程序常常威脅到子系統的安全運行。不可信賴的子系統運行環境對分布式管理信息系統造成的安全威脅最大。子系統網絡環境風險高、操作系統防御能力低,不法分子很容易破解防線,進行木馬程序植入、數據竊取活動。

安全策略

身份驗證

為了保障數據庫的安全、防止數據庫被不法分子攻擊,在客戶訪問數據庫時有必要對客戶身份進行識別,而且客戶利用數據庫進行登陸、錄入、修改、傳輸等操作時都要進行不同程度的身份驗證。以網絡身份認證協議為例,整個運行過程中,每個服務站點只有從密鑰中心得到即時通信密鑰,才能獲得與目標站點時間的通信權限。

通信保密

數據在傳輸的過程中,客戶與服務器之間完成一系列的身份驗證才能實現數據的傳輸。在數據傳輸時,為了防止傳輸的數據被人竊聽或者數據重復被發送導致系統繁忙,發送方和接收方需要一條專屬接受渠道,完成對數據包的加密、傳輸、接收等工作。分布式數據系統容量較大,如果采用的加密算法非常復雜,會導致系統性能下降。

訪問控制

在保障分布式數據庫系統安全的過程中,有時需要控制系統用戶的訪問,具體的操作方式有自主訪問授權控制和強制訪問授權控制兩種。前一種的控制方式由管理員直接設立一個控制訪問的表,在表中定義了用戶訪問的權限,規定用戶的哪些操作是被允許的,哪些操作是嚴禁的。后者給系統用戶和數據對象設定明確的安全等級,用戶的操作是否被禁止有用戶操作項目的安全等級來決定。在某些數據庫管理系統中,系統為了防止用戶的訪問超越自已的權限而禁止用戶直接訪問數據庫。用戶如果需要訪問數據庫,必須填寫訪問申請,當用戶的訪問申請經過相關的審核后,再由系統為用戶指定一個代替用戶完成相應的用戶操作,并將查詢結果反饋給用戶。

庫文加密

隨著信息技術的發展,非法入侵也越來越多,許多不法分子非常擅長利用數據庫系統的安全漏洞,想方設法繞過數據庫的安全網,竊取數據庫的數據。為了防止非法入侵,對庫文進行加密處理是常用的方法。具體操作方法是在分布式數據庫外層設置一個具備加密解密能力的加密層。

密碼機制和密碼管理

以上提到的集中加強分布式數據庫系統安全的措施中都利用了加密和解密算法。系統在應用算法時應根據算法不同的功能,在操作中按要求選擇適合的算法。在分布式數據庫中用到的公鑰和私鑰管理也要規范,以確保公鑰和私鑰只能由制定的人知曉。

防范惡意代碼入侵

因為程序惡意代碼而產生的安全問題層出不窮,除了以上措施外,還應注意加強對程序編譯人員的教育和管理,加強他們的守法意識。使用單位要加強軟件測試和代碼檢查工作;做好工作人員的技術培訓工作防患未然。

相關評價

隨著互聯網在線業務的不斷發展,信息技術向產業互聯網延伸,開源理念不斷深入,分布式數據庫系統迎來了發展的春天。結合云計算人工智能和硬件的發展情況,相信隨著時間的累計和海量應用的支持,分布式數據庫系統品應用前景一定會越來越好。(中國信通院 評)

參考資料 >

..2023-12-08

金融行業給分布式系統“打樣”巨頭自研數據庫競爭加劇.今日頭條.2023-12-08

中國信通院唐浩等:分布式數據庫技術及發展趨勢研究.今日頭條.2023-12-08

..2023-12-08

站到全球統一“起跑線”中國數據庫“分布式”突圍.今日頭條.2023-12-08

中國分布式關系型數據庫排名:螞蟻騰訊華為阿里國內領先,騰訊市場份額第一.今日頭條.2023-12-08

消息稱華為即將發布國內首個軟硬協同全棧自主數據庫GaussDB.今日頭條.2023-12-08

生活家百科家居網