

OLAP性能分析及優(yōu)化
- 期刊名字:現代電子技術(shù)
- 文件大?。?25kb
- 論文作者:李彩霞
- 作者單位:青海民族學(xué)院
- 更新時(shí)間:2020-09-25
- 下載次數:次
軟件技術(shù)李彩霞:OLAP性能分析及優(yōu)化OLAP性能分析及優(yōu)化李彩霞(青海民族學(xué)院計算機科學(xué)與技術(shù)系 青海西寧810007)摘要:數據倉庫存儲大量歷史數據,OLAP應用涉及到對大面積歷史數據的復雜查詢(xún),查詢(xún)優(yōu)化是提高OLAP響應速度的關(guān)鍵。目前最有效的方法是增加綜合數據存儲及查詢(xún)方式的優(yōu)化,但存儲空間的有限限制了綜合數據的存儲量。常規優(yōu)化數據庫的方法不能滿(mǎn)足OLAP的要求,針對以上出現的問(wèn)題分別從數據倉庫存儲優(yōu)化.OLAP實(shí)現方式的選擇等工作出發(fā),基于OLAP性能優(yōu)化的查詢(xún)優(yōu)化策略等多角度實(shí)現對OLAP響應速度及提高查詢(xún)優(yōu)化。對這個(gè)問(wèn)題進(jìn)行了深入的研關(guān)鍵詞:數據倉庫;OLAP;變粒度存儲策略;X-OLAP中圖分類(lèi)號:TP311.131文獻標識碼:B文章編號:1004 - 373X(2006)18- 116-03Analysis and Optimization on OLAP CapabilityLI Caixia .(Department of Computer Science of Technology ,Qinghai Nationality University, Xining .810007.China)Abstract: Data warehouse stores volumes of historical data, and OLAP applications involve complex queries on these data.Queries optimization is the key of improving the speed of OLAP response. At present the most eftive way is to increase thestorage of general data and the way of queries, but the limited spaces restrict the storage of general data. The normal regula-tions is excellent to turn the method of the database can't satisfy the OLAP request, this text aims at the problem of the aboveemergence respectively from the data warehouse saving excellent turn, the OLAP realizes choice. work of the way sets out. Ac-cording to the function of OLAP the excellent the search that turn is excellent to turn strategy , many the angle realizes to re-spond to the OLAP speed and increase the search is excellent to turn, This paper studies it deeply on this problem.Keywords:data warehouse;OLAP ;variable granularity storage method;X - OLAP數據進(jìn)行多層面多角度分析和處理。由于歷史數據只能1引言追加而不能被刪除的特點(diǎn)使得數據倉庫中的數據量極大,聯(lián)機數據分析系統(On - Line Analytical Processing,而且隨時(shí)間推移,數據量不斷按年增長(cháng),嚴重影響了OLAP)是關(guān)系型數據庫之父E. F. Codd 1993 提出的,當OLAP的響應速度。因此,提高OLAP的響應速度是當前時(shí),E. F. Codd認為OLTP已不能滿(mǎn)足終端用戶(hù)對數據庫.數據倉庫研究的核心問(wèn)題之一。常規優(yōu)化數據庫的方法查詢(xún)分析的需要,用戶(hù)的決策分析需要對關(guān)系數據庫進(jìn)行不能滿(mǎn)足OLAP的要求,減小OLAP過(guò)程中的動(dòng)態(tài)計算大量計算才能得到結果,而查詢(xún)的結果并不能滿(mǎn)足決策者機,事先存儲OLAP查詢(xún)所需要綜合數據等手段是提高提出的需求,因此他提出了多維數據庫和多維分析的概.OLAP響應速度的有效途徑。以往研究數據倉庫時(shí)都是念,即OLAP。將數據以最小粒度存儲在數據倉庫中作為基本數據。OLAP是針對特定問(wèn)題的聯(lián)機數據訪(fǎng)問(wèn)和分析。通OLAP更關(guān)心數據發(fā)展變化的趨勢,大量的細粒度數據具過(guò)對信息很多種可能的觀(guān)察形式進(jìn)行快速穩定.-致和有很大的隨機性,0LAP很少直接對他進(jìn)行分析處理,往交互性的存取,允許管理決策人員對數據進(jìn)行深入觀(guān)察。往要將這些數據聚集到-定的粗粒度數據后才用來(lái)進(jìn)行OLAP的基本分析動(dòng)作包括:數據切片、 數據切塊、數據鉆分析處理。本文針對以上出現的問(wèn)題從多角度實(shí)現對取、數據聚合、數據旋轉。OLAP通過(guò)對數據庫中的數據OLAP響應速度及提高查詢(xún)優(yōu)化。進(jìn)行相應的操作從多個(gè)角度、多個(gè)側面進(jìn)行快速、一致和2相關(guān) 知識點(diǎn)交互地存取,從而使分析人員能夠對數據進(jìn)行深入的分析觀(guān)察凹。中國煤化工的邏輯通常稱(chēng)為OLAPOLAP是基于數據倉庫的,而數據倉庫存儲大量的歷的實(shí)現MYHC N M H C接影響其響應速度?,F史數據。OLAP以多維分析為基礎,對數據倉庫中的歷史階段OLAP實(shí)現途徑主要有3種: ROLAP, MOLAP和HOLAP。ROLAP 基于關(guān)系數據庫的數據存儲,通常采用收稿日期:2006 -05-16星型模式或雪花模式存儲數據,而MOLAP采用多維數組116《現代電子技術(shù)》2006年第18期總第233期D嵌入式與單片機<模式進(jìn)行數據存儲。ROLAP可擴展性好,但查詢(xún)過(guò)程中調整。因此,對數據集的粒度訪(fǎng)問(wèn)頻率f。設定一個(gè)閾值需要進(jìn)行表關(guān)聯(lián),很難滿(mǎn)足聯(lián)機分析處理要求的快速響.fn。訪(fǎng)問(wèn)頻率隨時(shí)間推移不斷變化,為防止動(dòng)態(tài)調整過(guò)于應;MOLAP響應速度快,但可擴展性差;HOLAP是RO-頻繁,并由此影響OLAP響應速度,設定一個(gè)訪(fǎng)問(wèn)頻率下LAP和MOLAP的混合,希望能兼具ROLAP的可擴展優(yōu)偏系數,即當連續出現多個(gè)訪(fǎng)問(wèn)頻率小于設定的閾值時(shí),勢和MOLAP的快速響應優(yōu)勢凹才進(jìn)行動(dòng)態(tài)調整。視圖物化數據倉庫的數據量 規模巨大,OLAP涉及其中,粒度訪(fǎng)問(wèn)頻率:f。= (f.+ f2+...+ fv)/n(單到大面積數據查詢(xún)與聚集操作,提高數據倉庫性能除了采位時(shí)間內,聯(lián)機分析處理對某-數據集在某一粒度級別上用常規數據庫的許多查詢(xún)優(yōu)化技術(shù)外,通常采用的方法是的訪(fǎng)問(wèn)次數稱(chēng)為該數據集在該粒度的訪(fǎng)問(wèn)頻率的平均使用空間換時(shí)間的方法:實(shí)視圖技術(shù),針對一些大范圍查值'°]。訪(fǎng)問(wèn)頻率的下偏系數:詢(xún)建立實(shí)視圖,即不僅存儲其定義,而且存儲其內容,稱(chēng)為n視圖物化又稱(chēng)為CUBE計算。其策略分為:完全物化、部mZ(fn- f,)*分物化.不進(jìn)行物化田。分介質(zhì)、變粒度存儲策略提高了OLAP響應速度。但粒度數據粒度反應數據庫中 數據單元的詳細程度是變粒度存儲策略需要復雜的元信息標志數據存儲的全和級別的指標。數據越詳細粒度越小,相應級別也就越方位置,有時(shí)需要對多數據立方體采取不同的聚集方法得低;數據綜合程度越高,粒度越大,相應級別也就越高。粒到查詢(xún)結果.聚集操作相對比較復雜。度可由各維所在層次定義。粒度是一個(gè)n元集合(d,d,(1)視圖物化存儲策略d...,},其中d;∈D,,(i= 1,2..n.D,代表第i維)。.不同環(huán)境下對視圖物化的時(shí)間有著(zhù)不同的要求,所以.大粒度數據都是由小粒度數據經(jīng)過(guò)聚集產(chǎn)生的,因此大粒實(shí)際應用中通常采取以下3種物化策略:度數據又稱(chēng)為相應小粒度數據的產(chǎn)生數據,小粒度數據稱(chēng)完全物化策略即生成所有的Cuboid。這種策略提為相應大粒度數據的產(chǎn)生源。OLAP主要是挖掘歷史數供了最短的查詢(xún)響應時(shí)間。但是在屬性統計表個(gè)數較多據中的一些隱含規律,大量的小粒度數據具有很大隨機.的情況’下,物化視圖的I/O成本較高,計算時(shí)間較長(cháng);而.性,OLAP很少會(huì )用他們直接進(jìn)行分析處理,因此在多維且數據量可能是原來(lái)的幾百倍,空間花費很大;此外空間數據庫中可只存儲這些小粒度數據經(jīng)過(guò)聚集后的大粒度的占用也會(huì )影響索引性能。所以完全物化策略是-種在數據,大量小粒度數據可以存儲在大容量、低速介質(zhì)以此存儲空間較大,CPU占用時(shí)間較長(cháng),對查詢(xún)速度有較高要解決OLAP響應速度與數據爆炸問(wèn)題之間的矛盾。求的情況下的物化視圖方案。3OLAP性能優(yōu)化部分物化策略即生 成部分的Cuboid。有文獻記載生成所有的Cuboid是不必的:在物化視圖過(guò)程中,很多由于數據量大,且查詢(xún)復雜,性能是一個(gè)嚴重的問(wèn)題,Cuboid可以從其他Cuboid中生成;通過(guò)選擇合適的Cu-為了提高性能,本文從以下幾個(gè)角度進(jìn)行了研究:boid進(jìn)行物化可以達到很好的查詢(xún)性能。所以,部分物化3.1提高OLAP性能所需的數據倉庫存儲優(yōu)化是在存儲空間有限、查詢(xún)速度要求不太高的情況下的一種采用一定的存儲策略可以提高OLAP的響應速度和物化視圖的策略。優(yōu)化查詢(xún)。本文從2方面改變存儲策略:不進(jìn)行物化即不生成任何Cuboid,完會(huì )依賴(lài)數據庫將歷史數據以不同介質(zhì)、不同粒度進(jìn)行存儲。以往數系統處理。據倉庫都是將數據以最小粒度存儲在數據倉庫中作為基從分析可知,在硬件環(huán)境允許和CPU有較大空閑的本數據。OLAP更關(guān)心數據發(fā)展變化的趨勢,大量的細粒情況下,為提高分析效率,完全物化是最好的策略。度數據具有很大的隨機性,OLAP很少直接對他進(jìn)行分析(2)不增加動(dòng)態(tài)計算前提下壓維數據立方體體積,增處理,往往將這些數據聚集到一定的粗粒度數據后才用來(lái)加綜合數據的存儲量。進(jìn)行分析處理,將大量OLAP很少直接使用的細粒度數據目前OLAP的實(shí)現途徑面臨的最大問(wèn)題是所生成的存儲在數據倉庫當中無(wú)疑是一種資源浪費。將很少被使數據立方體體積龐大,特別是當維屬性較多、基本元組也用的細粒度存儲到低速介質(zhì)上,然后將這些細粒度數據聚較多時(shí)這個(gè)問(wèn)題尤為嚴重。而XML( eXtensible Markup集到相對粒度較粗的數據存儲到數據倉庫中供OLAP用Languagel作為數據交拖的標準格式,XML文檔具有明顯中國煤化工來(lái)分析處理,以此提高OLAP的響應速度和解決數據爆炸的層次種基于XML格式的問(wèn)題。將哪些細粒度數據存儲到低速介質(zhì)上以及將這些OLAP實(shí)HcNMHGML本身的層次結構體存儲在低速介質(zhì)上的數據聚集到什么樣的粗粒度數據?現數據立方體中元組之間的聚集關(guān)系,能有效地減小數據采用一種動(dòng)態(tài)調整的方法。為了提高OLAP的響應速度立方體的體積[3]。防止數據爆炸,多維數據庫應能對數據集的物化進(jìn)行動(dòng)態(tài)X-OLAP模式為滿(mǎn)足下列條件的XML模式稱(chēng)為X-117軟件技術(shù)李彩霞:OLAP性能分析及優(yōu)化OLAP模式:中,更顯出他的優(yōu)勢。用位圖索引查詢(xún),主要是對二進(jìn)制對于含有n個(gè)維屬性和m個(gè)度量屬性的數據立方體,位串進(jìn)行按位與和按位或運算。位圖索引的優(yōu)點(diǎn)及適用將M個(gè)度量屬性用-個(gè)元素M表示,生成根Root;設維屬的范圍是:性的基按升序排列的順序為( D.,......,建立最宜在大表的低基數屬性.上建立位圖索引,主要用于Root→D、*→D2* .....1*→D*→M所示.多屬性條件查詢(xún)。的層次結構,(其中X→Y表示X = parent(Y)(X,Y ∈位圖索引的維護比較麻煩,適用于只讀或以讀取為主( Root, D ,0..... ,M});的應用,面向的DW正好為只讀型的。從(D.......D.中選擇所有可能的維組合,對每位圖索引便于并行訪(fǎng)問(wèn)。位圖與表按行對應,在搜索-維組合不破壞其排列的先后順序,建立層次結構:時(shí)主要通過(guò)按位邏輯運算。在查詢(xún)一個(gè)大表及位圖索引.Root→D,*→....D,*;很容易分成多塊,并行處理。對于通常采用并行處理的所有級元素都包含M, Refs,D,-ID和D,等屬性,其中DW位圖索引的這一性質(zhì)是一個(gè)重要優(yōu)點(diǎn)。M存儲聚集度量值,Refs用來(lái)來(lái)向其可能的孩子元素,Di位圖的數據冗余較大,有壓縮的余地。- ID和Di分別存儲維元素的標志和取值(i= .......(3)基于星型查詢(xún)優(yōu)化的方法有四種n);根節點(diǎn)Root包含M和Refs,屬性M用來(lái)存儲聚集度- 種是逐個(gè)將維表同事實(shí)表連接運算;第二種是由量值ALL;設Root→D....- D,為一條從根節點(diǎn)開(kāi).DW系統識別維表和事實(shí)表;第三種方法是索引連接。這始到任意非葉子節點(diǎn)結束的完整路徑,則在終節點(diǎn)D,的種方法是使用索引進(jìn)行連接運算,然后根據索引連接的結屬性M中用來(lái)存儲由CUBEBY(.......產(chǎn)生的相果來(lái)查找對應表記錄;第四種方法一-位圖索引。前兩種應元組的聚集度量值。方法使得連接運算器需要很大的存儲空間來(lái)支持;以上幾3.2 OLAP實(shí)現方式的選擇種方法很難說(shuō)哪-種是最優(yōu)的,對于小型的查詢(xún),第-、二由于MOLAP和ROLAP有著(zhù)各自的優(yōu)缺點(diǎn),且他們種方法法簡(jiǎn)單方便,對于范圍基數很小的維表的問(wèn)題,第的結構迥然不同,這給分析人員設計OLAP結構提出了難四種方法較好,對于-次只從結果中選擇很少的記錄的查題,為此,必須選擇一個(gè)新的OLAP結構- -- 混合型詢(xún),第三種方法較好(1+5]。OLAP,他能把兩種結構的優(yōu)點(diǎn)結合起來(lái)。存儲數據時(shí)采用ROLAP型;查詢(xún)分析時(shí)采用MOLAP型。本文重點(diǎn)研究的是OLAP實(shí)現技術(shù)及性能優(yōu)化的問(wèn).3.3基于OLAP性能優(yōu)化的查詢(xún)優(yōu)化策略對于聯(lián)機分析處理技術(shù)OLAP來(lái)說(shuō),系統執行效率和題。首先分析了OLAP中影響性能的因素,分別對OLAP響應速度是用戶(hù)最為關(guān)心的問(wèn)題,在OLAP中影響查詢(xún)性以多維分析為基礎,對數據倉庫中的歷史數據進(jìn)行多層面能有幾個(gè)因素,分別是索引方式、系統結構等。特別是多角度分析和處理.提高OLAP的響應速度是當前數據倉OLAP中大量的計算是多維聚集函數的計算。因此,無(wú)論庫研究的核心問(wèn)題之一。常規優(yōu)化數據庫的方法不能滿(mǎn)在查詢(xún)中還是在其他方面,多維聚集函數計算的優(yōu)化在足OLAP的要求,本文針對以上出現的問(wèn)題分別從數據倉庫存儲優(yōu)化、OLAP實(shí)現方式的選擇等工作出發(fā),基于OLAP中是更加重要的。OLAP性能優(yōu)化的查詢(xún)優(yōu)化策略等多角度實(shí)現對OLAP(1)聚集函數的優(yōu)化根據對聚集函數的分析,在計算機聚集函數時(shí),可靈響應速度及提高查詢(xún)優(yōu)化?;畹厥褂孟率鲈瓌t:參考文獻首先,利用最小實(shí)視圖法則,在查詢(xún)時(shí)常駐機構會(huì )生成[1]陳京民.數據倉庫與數據挖掘技術(shù)[M].北京:電子工業(yè)出實(shí)視圖,常由已有的實(shí)視圖導出。但可選擇的實(shí)視圖有多版社,2002.個(gè),應在其中選擇元組最少的實(shí)視圖。其次,盡量減少I(mǎi)/O。[2] 唐林燕.數據倉庫查詢(xún)與智能查詢(xún)程序的實(shí)現[J].計算機在從磁盤(pán)中取出數據時(shí),如果在以后的處理中還會(huì )再用,應工程與應用,2000(8):197 - 200.盡量保存在內存中,以減少I(mǎi)/O。最后,共享排序結果。計3]陳小萍.數據開(kāi)采的知識管理[J].計算機工程與應用,算聚集函數最費時(shí)的是GROUP BY子句,-般用排序方法2001,37(16):192 - 194.實(shí)現。一旦排序好,就要充分共享,避免重復排序。[4] 李慶忠,趙培英。鄭永清,等. Web數據的數據倉庫化模型(2)索引方法的選擇中國煤化工198 -201.在多維查詢(xún)的OLAP中,索引扮演了重要的角色。位[5]趙潔MHCNMHG面向主題的數據網(wǎng)絡(luò )模圖索引可以顯著(zhù)提高性能和節省存儲空間,特別是在DW型[J].計算機應用研究,2004(12):85 - 87 ,90.作者簡(jiǎn)介李彩霞女,1964年出生,青海民族學(xué)院計算機系副教授,實(shí)驗中心主任。研究方向為數據倉庫與數據挖掘。118
-
C4烯烴制丙烯催化劑 2020-09-25
-
煤基聚乙醇酸技術(shù)進(jìn)展 2020-09-25
-
生物質(zhì)能的應用工程 2020-09-25
-
我國甲醇工業(yè)現狀 2020-09-25
-
JB/T 11699-2013 高處作業(yè)吊籃安裝、拆卸、使用技術(shù)規程 2020-09-25
-
石油化工設備腐蝕與防護參考書(shū)十本免費下載,絕版珍藏 2020-09-25
-
四噴嘴水煤漿氣化爐工業(yè)應用情況簡(jiǎn)介 2020-09-25
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-09-25
-
甲醇制芳烴研究進(jìn)展 2020-09-25
-
精甲醇及MTO級甲醇精餾工藝技術(shù)進(jìn)展 2020-09-25