

基于空問(wèn)定位的聚類(lèi)算法在電信業(yè)客戶(hù)劃分中的應用
- 期刊名字:科學(xué)技術(shù)與工程
- 文件大?。?/li>
- 論文作者:常曉磊,閆仁武,楊蘇寧
- 作者單位:江蘇科技大學(xué)電子信息學(xué)院
- 更新時(shí)間:2020-03-23
- 下載次數:次
第8卷第1期2008年1月科學(xué)技術(shù)與工程Vol 8 No. 1 Jan. 20081671-1819(2008)1-0207-06Science Technology and Engineeringc 2008 Sci. Tech. Engng基于空間定位的聚類(lèi)算法在電信業(yè)客戶(hù)劃分中的應用常曉磊閆仁武”楊蘇寧(江蘇科技大學(xué)電子信息學(xué)院,鎮江212003)摘要隨著(zhù)電信市場(chǎng)競爭的不斷加劇,電信企業(yè)傳統的營(yíng)銷(xiāo)模式正在間主動(dòng)、精確營(yíng)銷(xiāo)模式轉變。因此,客戶(hù)劃分顯得至關(guān)重要。釆用數據挖掘中聚類(lèi)的方法對電信業(yè)的客戶(hù)進(jìn)行劃分,在比較了現有聚類(lèi)算法計算復雜度普遍較高的的基礎上,采用了一種基于空間定位的方法,將客戶(hù)數據對象映射到特征空間中,并利用空間立方體的某些特殊頂點(diǎn)定位任意數據,通過(guò)計算數據點(diǎn)與空間立方體頂點(diǎn)群的距離差異,完成聚類(lèi)過(guò)程。為了適合電信業(yè)客戶(hù)的特殊性質(zhì),改進(jìn)對客戶(hù)屬性數據的處理過(guò)程。通過(guò)電信客戶(hù)的數據實(shí)驗結果表明,算法的時(shí)間復雜度降至0(N)級別。關(guān)鍵詞數據挖掘聚類(lèi)客戶(hù)劃分空間定位電信業(yè)中圖法分類(lèi)號TP311.52;文獻標志碼A隨著(zhù)各種現代生產(chǎn)管理手段和技術(shù)的發(fā)展,企種,其中比較典型的有關(guān)聯(lián)分析、預測分析、聚類(lèi)分業(yè)之間產(chǎn)品的差別越來(lái)越難以區分,產(chǎn)品同質(zhì)化的析等。趨勢越來(lái)越明顯,通過(guò)產(chǎn)品差別來(lái)細分市場(chǎng),從而數據挖掘主要應用在CRM中大量的客戶(hù)數據創(chuàng )造企業(yè)的競爭優(yōu)勢也就變得越來(lái)越困難2。隨分析,以及客戶(hù)價(jià)值的挖掘方面。作用主要有新客著(zhù)市場(chǎng)態(tài)勢從賣(mài)方市場(chǎng)向買(mǎi)方市場(chǎng)的轉變,如何確戶(hù)的獲取和保持、個(gè)性化營(yíng)銷(xiāo)、客戶(hù)忠誠度分析以定高價(jià)值和忠誠度高的客戶(hù),對企業(yè)的發(fā)展有著(zhù)非及客戶(hù)市場(chǎng)劃分等常重要的作用。為此許多企業(yè)開(kāi)始實(shí)施客戶(hù)關(guān)系本文在已有的基于空間定位的聚類(lèi)算法的基管理( Customer relation- -ship managemen,CRM)。礎上,把該算法具體應用到網(wǎng)通客戶(hù)的劃分上,為客戶(hù)劃分作為CRM中的重要組成部分,對CRM的了適合岡通的客戶(hù)特性,并改進(jìn)了該算法的數據處成功實(shí)施有著(zhù)重要的作用理過(guò)程。本文的數據來(lái)源于網(wǎng)通電信增值業(yè)務(wù)服面對海量的各種客戶(hù)、銷(xiāo)售等數據,為了對客務(wù)商的無(wú)錫匯隆信息技術(shù)有限公司近年來(lái)的客戶(hù)戶(hù)進(jìn)行有效的劃分,為經(jīng)營(yíng)者實(shí)施更具有針對性的數據庫。銷(xiāo)售措施提供理論依據,有必要依賴(lài)于數據挖掘( Data mining,DM)的強大數據分析能力。數據挖1基于空間定位的聚類(lèi)分析掘作為一種工具,是從大量的數據中抽取潛在的、有價(jià)值的知識、模型或規則。數據挖掘方法有多聚類(lèi)將數據對象分組為多個(gè)類(lèi)或簇,使同一個(gè)簇中的對象之間的相識度最高,而不同簇中的對象2007年9月17日收到其相識性最低。由于大型數據庫中存放了大量的第一作者簡(jiǎn)介:常曉磊(1983-),男,漢族,江蘇鎮江人,碩士研數據,聚類(lèi)分析已經(jīng)成為數據挖掘研究領(lǐng)域的一個(gè)究生,研究方向:智能信息處理。Eml: changxiaolei30非?;钴S的課題。但是,面對電信行業(yè)的海量數163.c0m。據,就一般的聚類(lèi)算法而言,算法的復雜度制約了科學(xué)技術(shù)與工程卷額的商業(yè)數據挖掘軟件的聚類(lèi)算法僅僅是有限的高的問(wèn)題。幾種:K- means算法、高斯混合算法和基于SⅤM的本算法解決以上兩個(gè)問(wèn)題的方法是:按照包含算法等元素數的多少,選取出所有大于總元素數一定比例1.1算法思路Q(chēng)的所有類(lèi)(稱(chēng)為有效類(lèi)),對無(wú)效類(lèi)包含的所有元目前的聚類(lèi)算法時(shí)間復雜度高的主要原因是素,予以重新分配。事先指定的比例Q是這樣確定需要計算任意兩個(gè)點(diǎn)之間的距離。從另外一個(gè)角的:根據無(wú)錫市網(wǎng)通的具體情況和業(yè)務(wù)發(fā)展要求,度出發(fā),聚類(lèi)算法的核心思想就是用某種機制劃分在業(yè)務(wù)開(kāi)展實(shí)踐中,公司比較理想的客戶(hù)群數量是數據空間,劃分完畢后,該子空間內的所有數據點(diǎn)4~6個(gè),根據用定位法進(jìn)行聚類(lèi)計算的經(jīng)驗,要達即為一類(lèi)。因此,只要能把數據映射成是空間中的到以上的業(yè)務(wù)要求,Q的取值范圍必須在2.5%~點(diǎn),然后劃分空間中的點(diǎn)集,得到的每個(gè)子空間5%之間。Q值越大,類(lèi)數就會(huì )單調減少,聚類(lèi)更加就可以看作是一個(gè)簇(正交框架等名詞的定義請參集中;反之Q越小,類(lèi)數會(huì )單調增大,聚類(lèi)越分散。閱參考文獻[4])。重新分配的方法是計算有效類(lèi)的中心。由于有效1.1.1屬性歸一化類(lèi)中心已經(jīng)是空間立方體內密度最大點(diǎn)之一,因為了能把元素映射到空間立方體和便于距離此,以這些中心作為最終聚類(lèi)中心,對所有元素點(diǎn)的計算,首先要把對元素屬性進(jìn)行歸一化處理,即進(jìn)行重新競爭,再次遍歷數據集,所有元素都歸入把元素的M個(gè)屬性都轉換成[0,1]區間的值。從而距離最近的有效類(lèi)中心的類(lèi)中,則聚類(lèi)計算完畢。完成元素到空間立方體的映射。對于數值型屬性對類(lèi)有效性的判決,解決了類(lèi)過(guò)于零碎的問(wèn)題。重可以采取new_ value=(old_ value-min value)/(max_新競爭解決了各類(lèi)之間的邊界不明確的問(wèn)題。另value-min_ value)的方法,但對于字符型的屬性則需外,從算法的時(shí)間復雜度上看,隨元素數量的增加,要根據行業(yè)特性進(jìn)行特殊的處理。對于無(wú)錫網(wǎng)通時(shí)間開(kāi)銷(xiāo)與元素數量的關(guān)系呈明顯的一階線(xiàn)性增客戶(hù)的字符型屬性的處理,將在第3部分詳細介紹。加。參考文獻[3]中指定的實(shí)驗環(huán)境下,時(shí)間開(kāi)銷(xiāo)1.1.2計算中心與立方體正交框架的距離(秒)與元素個(gè)數所擬和的函數為:F(x)=0.000計算出該空間立方體的中心,然后計算出該中2338X+5.333。隨元素維數的增加,時(shí)間開(kāi)銷(xiāo)與元心與正交框架的M+1個(gè)點(diǎn)的距離D。由于在正素維數呈明顯的二階非線(xiàn)性增加,時(shí)間開(kāi)銷(xiāo)(秒)與交框架的元素屬性中有大量0坐標存在,降低了實(shí)元素個(gè)數所擬和的函數為:F(x)=0.023X2+0際計算的時(shí)間開(kāi)銷(xiāo)。079X+10.933,分別如圖1、圖2所示。1.1.3遍歷數據集計算每個(gè)元素到正交框架的距離,并與空間o實(shí)驗觀(guān)察值一階函數擬和立方體中心到正交框架的距離D逐一進(jìn)行比較判決,得到的判決結果組合成二進(jìn)制數,再將該進(jìn)制數轉化成十進(jìn)制數,即為該元素所屬類(lèi)的標識。經(jīng)過(guò)以上三個(gè)步驟后,大部分元素都歸入了相應的類(lèi)別中,但還有兩個(gè)問(wèn)題需要解決:一個(gè)是由050000100000150000200000自變量:元素數量/個(gè)于現實(shí)聚類(lèi)計算中數據分布的不對稱(chēng)性導致有的類(lèi)包含較多元素,有的類(lèi)只有2~3個(gè)元素,而這樣圖1元素數量與時(shí)間開(kāi)銷(xiāo)的函數關(guān)系的零碎類(lèi)是沒(méi)有實(shí)際意義的;另一個(gè)問(wèn)題是邊界性2算法流程1期常曉磊,等:基于空間定位的聚類(lèi)算法在電信業(yè)客戶(hù)劃分中的應用具體流程如圖3所示。22階函數擬和離與立有效體中交《正上|第上行隔出區距離距離的/制類(lèi)/有效聚類(lèi)圖3空間聚類(lèi)算法流程自變量模型維數由此可以看出,定位法不需要事先指定聚類(lèi)個(gè)圖2元素維數與時(shí)間開(kāi)銷(xiāo)的函數關(guān)系數。而且定位法又提供惟一的參數Q來(lái)調節聚類(lèi)有M個(gè)屬性值,最小類(lèi)閾值Q。個(gè)數,當需要分群個(gè)數較多時(shí),只需將Q調小;反之(1)將M維數據表進(jìn)行歸一化處理,即將Z映需要分群個(gè)數較少時(shí),將Q調大即可。射為空間立方體C,每個(gè)元素歸一化后映射為空同2客戶(hù)劃分立方體內部某一空間點(diǎn)。2)計算所有元素對M維立方體的正交框架對一營(yíng)銷(xiāo)是指了解每一個(gè)客戶(hù),并同其建立所屬的M+1個(gè)頂點(diǎn)的距離。(3)所有元素與正交框架所屬M+1個(gè)點(diǎn)的各起持久的關(guān)系。這是一個(gè)很理想化的概念,大多數行業(yè)在實(shí)際操作中是無(wú)法做到的。但是,企業(yè)可以個(gè)距離D分別用空間立方體中心W與這M+1個(gè)將客戶(hù)分類(lèi),為每類(lèi)客戶(hù)提供有針對性的產(chǎn)品或點(diǎn)的距離D,來(lái)判決:若D1≥Dn,則F=1,或F;=0其中,∈{1,2…,M+1,i∈R;F是第i位判次服務(wù)??蛻?hù)劃分,也稱(chēng)客戶(hù)市場(chǎng)細分、客戶(hù)市場(chǎng)分割,結果。就是把客戶(hù)根據其性別、收入、交易行為特征等屬4)將判決結果F=(F,F2,…,Fm+)按位組性細分為具有不同需求和交易習慣的群體同一群合成M+1位二進(jìn)制數Rmm=F1,F2,…,Fm+1,轉體中的客戶(hù)對產(chǎn)品的需求以及交易心理等方面具換Rn成十進(jìn)制數,即是初始聚類(lèi)結果,寫(xiě)入每個(gè)有相似性,而不同群體間差異較大??蛻?hù)群體細分元素的類(lèi)別Fu(標識)字段??梢允蛊髽I(yè)在市場(chǎng)營(yíng)銷(xiāo)中制定正確的營(yíng)銷(xiāo)策略,通(5)統計初始聚類(lèi)結果,得到各類(lèi)包含的元素過(guò)對不同類(lèi)別客戶(hù)提供有針對性的產(chǎn)品和服務(wù),提數判決初始類(lèi)是否有效:若 CCount 2 NQ,則第i類(lèi)高客戶(hù)對企業(yè)和產(chǎn)品的滿(mǎn)意度,以獲取更大的利潤。有效,或第i類(lèi)所有元素的F字段清空。數據挖掘系統可以在客戶(hù)群體細分的基礎上(6)計算所有有效類(lèi)的中心,設向量空間的維進(jìn)行進(jìn)一步的細分,直到所需要的粒度,并對此客數為M,空間立方體C內、某個(gè)初始類(lèi)內有P個(gè)點(diǎn),戶(hù)卻體進(jìn)行各種分析。則該類(lèi)的中心為E=(E1,E2,…,Em),式中,E=(E)/P,i∈{1,2M},t∈h3利用空間定位的聚類(lèi)算法劃分電信業(yè)客(7)對空間立方體C內所有N個(gè)元素點(diǎn),計算戶(hù)市場(chǎng)其與所有有效類(lèi)的中心的距離。競爭聚類(lèi):若D=min(D),則Rm1=t,將R寫(xiě)入每個(gè)元素的Fu本節將利用以上介紹的空間定位聚類(lèi)算法對字段。其中,D是該元素點(diǎn)與第i個(gè)有效類(lèi)中心的部分無(wú)錫網(wǎng)通的客戶(hù)進(jìn)行分析,并驗證了該算法的210科學(xué)技術(shù)與工程卷3.1數據預處理田、島首先采用了無(wú)錫匯隆公司近兩年的客戶(hù)數、通USERID短信發(fā)送次數話(huà)、短信、充值,通過(guò)屬性刪減和不完整數據的刪除,最終選取的客戶(hù)屬性為:年齡,收入,受教育程2753235度,職業(yè),通話(huà)次數,短信發(fā)送量,聯(lián)系人數目,充值3253次數,充值總額}九個(gè)屬性。圖4—圖6分別是數據3254預處理前的各種客戶(hù)數據情況截圖。3258832812222m2993280陽(yáng)大9圖4用戶(hù)基本信息3318田長(cháng)國用33333330615:99000223039553303493351圖6用戶(hù)短信匯總信息對“受教育程度”,采用的處理方式是,首先對3選出來(lái)的所有數據進(jìn)行統計分析,計算出各個(gè)學(xué)歷層次的人數總和,最后除以總數據條數。這在數據取的時(shí)候就可以利用 oracle的函數進(jìn)行運算。對于其余的數值型數據,我們采用是 new value(old_-value-min_value)/( max_value-min_value )B方法,其中 max value是該屬性中的最大值,min圖5用戶(hù)通話(huà)匯總信息value是該屬性的最小值,old_ value該屬性處理前的1期常曉磊,等:基于空間定位的聚類(lèi)算法在電信業(yè)客戶(hù)劃分中的應用211acle臨時(shí)表中,最后導出為程序可處理的 excel表。每天在線(xiàn)的時(shí)間較長(cháng)。為了方便客戶(hù)充值,我們可3.2算法的應用以開(kāi)通網(wǎng)上充值卡自動(dòng)銷(xiāo)售服務(wù),同時(shí)對通話(huà)超過(guò)根據行業(yè)經(jīng)驗和相關(guān)實(shí)驗的經(jīng)驗值設定類(lèi)的定時(shí)給予短信獎勵閾值為:4%。類(lèi)4:這類(lèi)客戶(hù)從年齡段、職業(yè)、收入,聯(lián)系人數第一編掃描數據數據庫表,計算出數據元素組目等各個(gè)屬性都有相關(guān)的值,且通話(huà)次數和短信發(fā)成立方體的中心,并計算出該中心與正交框架的距送量都較小。對于這類(lèi)客戶(hù)我們將其定位為潛在離,記為向量D。的真正客戶(hù)。為此,我們需要從中區別出哪些是可第二次掃描數據庫庫,計算所有元素與正交框能給企業(yè)帶來(lái)利益的客戶(hù),哪些是不能給企業(yè)帶來(lái)架和立方體中心的距離,通過(guò)中心到框架的距離與利益,甚至是負面利益的客戶(hù)。為此,我們需要做元素到框架的距離進(jìn)行比較,判決出元素所屬類(lèi)別進(jìn)一步的客戶(hù)跟蹤和引導。例如針對這類(lèi)客戶(hù)開(kāi)進(jìn)制數中的一位。通過(guò)與所有框架的距離的比展優(yōu)惠活動(dòng)和問(wèn)卷調查等。較得出得出元素所屬類(lèi)別二進(jìn)制序列,再將序列轉為十進(jìn)制數,記入該元素的類(lèi)別屬性中。4結束語(yǔ)第三遍掃描數據庫,對于小于設定閾值的類(lèi)或個(gè)別數據,按照上面的算法介紹的方法通過(guò)競爭聚空間定位概念的引人使得定位法避免了大量類(lèi)劃分到相應的有效類(lèi)中。至此算法完成。的、任意兩個(gè)元素的距離計算,從而大大節省了運3.3結果分析算時(shí)間;同時(shí),算法不要求事先指定分群的個(gè)數,能方面,通過(guò)定位算法的分析,最終得到4個(gè)有較好地反映客戶(hù)的實(shí)際聚集程度;參數只有一個(gè)需效類(lèi)要調整,使數據挖掘操作員可以輕易調整類(lèi)的規模類(lèi)1:這類(lèi)的特點(diǎn)的是年齡大多數低于25,職業(yè)(而不是個(gè)數),以解決聚類(lèi)結果業(yè)務(wù)解釋性不強的多為學(xué)生,學(xué)歷為專(zhuān)科和本科,每月的短信數量一問(wèn)題。在實(shí)驗和實(shí)踐中發(fā)現,使用定位法得到的聚般大于600,并且充值次數較多,但這類(lèi)中的客戶(hù)通類(lèi)結果有所提升,業(yè)務(wù)解釋性也有所優(yōu)化,算法具話(huà)費用相對小。我們可以將這一類(lèi)定位為學(xué)生群有較高的實(shí)用價(jià)值體。針對這類(lèi)群體,我們可以開(kāi)發(fā)出小面值的充值參考文獻卡、通過(guò)短信獎勵機制帶動(dòng)通話(huà)業(yè)務(wù)的提升等。類(lèi)2:這類(lèi)客戶(hù)的特點(diǎn)是年齡一般大于45,通話(huà)1李益強,漆晨曦,基于數據挖掘的電信客戶(hù)細分研究分析廣東費用處于平均水平,充值次數較少,但充值金額較通信技術(shù),2005;(5):12-15大。該類(lèi)客戶(hù)的最大特點(diǎn)是聯(lián)系人數目最多,短信2江毅,朱順泉數據挖掘技術(shù)在客戶(hù)關(guān)系管理中的應用研究軟科學(xué),2003;17(12):46發(fā)送量高,月平均大于20000條。我們可以將這類(lèi)erry M J A, Linoff G S. Data mining techniques-for marketing, sales客戶(hù)定位為企業(yè)客戶(hù)。他們通過(guò)短信方式定期向and customer relationship management.別榮貴,尹靜,鄧云愛(ài)聯(lián)系人發(fā)送產(chǎn)品信息的廣告。針對這類(lèi)客戶(hù)群體譯.北京:機械工業(yè)出版社,2006我們可以開(kāi)通短信定時(shí)發(fā)送功能,填加短信模版,4張舒博,牛琨基于定位的數據聚類(lèi)新算法計算機技術(shù)與應更加方便客戶(hù),同時(shí)也可以增加短信發(fā)送量。用,2007;(4):118-120類(lèi)3:這類(lèi)客戶(hù)職業(yè)一般是跟計算機相關(guān)的,學(xué)5段云峰,吳唯寧,李劍威,等.數據倉庫及其在電信領(lǐng)域中的應用.北京:電子工業(yè)出版社,2003歷為本科或碩士,且年齡一般小于30,通話(huà)次數較下轉第228頁(yè))高,短信發(fā)送量介于平均值附近。這類(lèi)客戶(hù)可能是228科學(xué)技術(shù)與工程卷式識別標準的系統入侵檢測模型,并且介紹了Linx參考文獻高版本系統內核系統調用序列的提取方法,和用戶(hù)1 Warrender C, Forrest s, Pearlmutter b. Detecting intrusions using行為模式庫的創(chuàng )建方法?;驹硎峭ㄟ^(guò)加大對 system calls: alternative data models. Proceedings of the I99g獲取了較高級別權限入侵手段的檢測力度,為網(wǎng)絡(luò )Symposium on Computer Security and Privacy. S.1.:[s. n. I1999:133-145這正好符合了橘皮書(shū)( TCSEC-Trusted Com20,mSystem Evaluation Criteria)的安全思想。本文提出的227—240入侵檢測系統,只是系統級上的入侵檢測。如果綜3 Base r o入侵檢測技術(shù).陳明奇,等譯北京:人民郵電出版合其他層次上的入侵檢測,組成多層次的入侵檢測土,2001系統,將會(huì )收到意想不到的效果。4宋立新,李善平,利用IKM實(shí)現Iinx系統的安全性,計算機應用研究,2002;8:103-10Application of"Immune System"Method on System-level IntrusionDetection TechnologyZHANG Han. YANG Wen-fei. Chen JinsL Abstract The"Immune System"method for computer system security is based on the fact that the short se-quences of system calls in running processes are concreted. The short system calls can be used to construct the da-tabase of normal behavior patterns for the processes. A system-level intrusion detection model is proposed, and dis-cussed the technology of system realization with Linux operating system[ Key words]“ Immune System” methodntrusion detectioshort system calls sequencesnormaland abnormal behavior patterns(上接第211頁(yè))Customer Demarcation Using Clustering MethodBased on Space locationCHANG Xiao-lei.yan Ren-wu".YANG Su-ningCollege of Electrics and Information, Jiangsu University of Science and Technology, Zhenjiang 212003, P. R. China)[Abstract] With the competitions among telecom industry prick up day by day, the traditional sell pattern hasbeen changing to the active and smart way, so customer demarcation become more important than before. Customersof telecom industry with the way of "Clustering"are compartmentalized, which are a usual technology of data min-ing. After compare with the time-complexity of common clustering methods, a method named "clustering based orspace location"is choosed to use. First the object of customer date into special space is mapped, then every dataelement using some special peaks of the cube space is located. At last, difference of distance between the date-ele-ments and the special peaks of the cube space to finish the process of clustering is used. To fit the particularity oftelecom customers, the way of customer date procession is improved. According to the result of experimentationusing the customers data, the time-complexity has fall to O( N)is found
-
C4烯烴制丙烯催化劑 2020-03-23
-
煤基聚乙醇酸技術(shù)進(jìn)展 2020-03-23
-
生物質(zhì)能的應用工程 2020-03-23
-
我國甲醇工業(yè)現狀 2020-03-23
-
JB/T 11699-2013 高處作業(yè)吊籃安裝、拆卸、使用技術(shù)規程 2020-03-23
-
石油化工設備腐蝕與防護參考書(shū)十本免費下載,絕版珍藏 2020-03-23
-
四噴嘴水煤漿氣化爐工業(yè)應用情況簡(jiǎn)介 2020-03-23
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-03-23
-
甲醇制芳烴研究進(jìn)展 2020-03-23
-
精甲醇及MTO級甲醇精餾工藝技術(shù)進(jìn)展 2020-03-23