論文:星座對市場用戶的分類研究
新浪星座
新浪星座註:本文是一篇將星座與市場營銷聯繫起來發掘出適當且正確的客戶分群方法的碩士論文,文章從一個側面體現了星座對人的不同影響。
文/天津大學 朱德志,歡迎網友投稿
論文標題:基於星座對網絡論壇用戶的數據挖掘研究
摘要
互聯網的興起發展催生出網絡時代的消費者,本文采用數據挖掘的技術,以占星學的基本理論為基礎,對網絡消費者進行分類,為B2C電子商務服務商提供了簡便有效的客戶分群方法,為其進行客戶關係管理提供了借鑒。
關鍵詞:數據挖掘 占星學 電子商務 客戶分群
0引言
隨著信息步伐的加快,由信息技術、商務技術和管理技術相結合而誕生的現代生產力--電子商務正處在空前的發展時期,我國起步雖晚,但發展勢頭強勁,網上商店、商城、虛擬社區、專賣店、拍賣店、網上訂票、旅遊、教育、醫療以及各種電子商務資訊和交易站點不斷湧現出來,各大銀行也都先後開通網上支付業務。而由此產生了與傳統營銷方式不同的網絡營銷,企業必須認識適應這種變化,才能在營銷競爭中立於不敗之地[11]。
網絡營銷的核心,依舊是滿足顧客的需求[10],而消費者心理及行為研究,通常稱為消費者U&A(Usage & Attitude)研究,內容涵蓋了市場營銷的各個基本方面,用來瞭解消費者的消費心理、購買行為習慣、使用行為習慣及其變化,為制訂和調整市場營銷策略提供科學的依據,進而將市場劃分成不同特徵的細分市場,幫助企業選擇目標市場並制定相應策略。
現代占星學中按星座對個人性格進行分類的方法,有著古老的歷史,亦有心理學的理論基礎和統計學的數據支持,在應用中取得了很好的效果。本文依照占星學中的四相分類法,對網絡中虛擬論壇的用戶進行分類,用數據挖掘的相關技術發掘不同四相類別與訪問次數的關係,並用占星學的理論解釋了行為不同的原因,從而幫助B2C電子商務服務商進行恰當的客戶分群,在此基礎上進行有效的網絡營銷及客戶關係管理。
1背景知識
1.1數據挖掘簡介
數據挖掘是90年代中後期興起的一門跨學科的綜合研究領域,包括數據庫系統、統計學、機器學習、可視化和信息科學[8]。利用數據庫、數據倉庫技術存儲和管理數據,利用機器學習和統計學方法分析數據,旨在發現大量複雜數據中蘊含的有價值的知識和信息。
數據挖掘的過程包括[2]:
1、問題定義。清晰地定義出研究問題,認清數據挖掘的目的是數據挖掘的第一步。
2、確定背景知識。即被挖掘的領域知識,這些知識對於引導知識發現過程和評估發現的模式都是非常有用的,數據挖掘的背景知識甚至可能比挖掘技術更重要。
3、數據提取。提取與研究有關的內部和外部數據信息,得到相關數據。
4、數據預處理。對前一階段獲取的數據進行再加工,檢查數據的完整性及一致性。
5、數據挖掘(DM)。這一階段也稱知識發現,是整個過程的核心階段,主要是用選擇好的工具和技術對數據進行處理,從而發現規則、模式和趨勢等,即挖掘知識。
6、知識的解釋評估。將發現的模式以人能理解的方式表達出來,成為知識;根據評價法則對得到的知識進行評價,以確定其新穎性、有效性。
目前,隨著數據挖掘應用的不斷開展以及客觀現實對數據分析需求的不斷增長,人們越來越認識到數據挖掘的重要性和必要性。
1.2占星學[1]
1.2.1占星學簡介
占星學又稱星象學,可說是目前最古老的命理學。在任何古老的文明國家裡,占星學都是其文化的重要組成,我國的星象學文物考證可以追溯到6500年前[7],西方占星學起源於公元前三千多年前的古巴比倫,理論基礎存在於公元前300年到公元300年大約600年間的古希臘哲學中,上個世紀50年代,兩個法國心理學者米歇爾?高格林、弗蘭克斯?高格林,對占星學做了統計上的驗證,他們的統計結果,在統計學上具有相當強的說服力,為現代占星學提供了堅實的科學依據。隨著占星學的發展,又產生了人文占星學,在理論上與心理學結合,研究方法應用了數理統計分析方法,並試圖以占星學來作為健全人格和適應社會環境快速變遷的思想輔助工具。
中醫的理論根據陰陽五行,在防治SARS的戰鬥中大顯身手,取得了西醫藥所未有的神奇療效,顯示了中醫藥在人類醫學領域的獨特魅力。而古代西方有四大元素之說,占星學也以此將星座分為火、土、風、水四類,是最常被提到也是最重要的星座分類法。西方的占星學透過四大元素,與精神分析學派相互整合,把命盤的解析作精神分析方面的理論化,利用占星的手法來做個性的評估。
雖然佔星學中有關命運時事的分析預測,有強烈的唯心色彩,但按星座對個人性格的分類,有統計數據的支持,亦有很長的歷史,類似與我國的中醫學,雖然現代科學難以解釋,但應用中卻可以取得很好的實踐效果。
1.2.2太陽星座
我們一般談論的「星座」(SIGN),指的是「太陽星座」(SUNSIGN);亦即以地球上的人為中心,同時間看到太陽運行到軌道(希臘文ZODIAC:意即~動物繞成的圈圈,又稱「黃道」)上哪一個星座的位置,就說那個人是什麼星座。依次為白羊、金牛、雙子、巨蟹、獅子、處女、天秤、天蠍、射手、摩羯、水瓶、雙魚,總計為十二個星座。在地球運轉到每個等份(星座)時所出生的嬰兒,長大後行為特質總有若干相似的特徵,可以根據個人的陽曆生日得到其所屬太陽星座,這套命理演進、流傳至今至少五千年的歷史。但這些星座並非是某一個「星星」的意思,只能視為「名稱相同的一種代表標記而已」。
由出生時太陽、月亮和太陽系九大行星所在星座,決定了個人的12個星座, 各有不同含義,分析人的性格需要全面分析,不能以偏概全,但太陽星座影響最大,反映人的性格及外在表現,因此本文采用太陽星座進行分析。
1.2.3星座的分類方法
星座分類法的起源很早,依彼此的特性將同一屬性的星座加以歸納,依不同的方式可以分出陰陽、三特質、四元素,四相分類法是按古代西方四大元素進行分類,其中包涵了陰陽二分類法,是最常被提到也是最重要的星座分類方法。
火相星座包括白羊座、獅子座和射手座,火相星座的人靠著直覺理解世界,較為衝動,有自信但也沒什麼耐性,有興奮且不穩定的性格特質。
土相星座包括金牛座、處女座、摩羯座,土相星座的人透過感官理解世界,擅長等待和忍耐,穩定、現實主義是土相的基本特色,對他們來說,有形的實體要比夢想或幻想有意義。
風相星座包括雙子座、天秤座和水瓶座,較為理性,重視思考,借思考理解世界,對他們而言,無形的思想和概念似乎比有形的實體更為實在,因此通常都帶有一些理想色彩。
水相星座包括巨蟹座、天蠍座和雙魚座,靠著感受理解世界,較為感性,重視感情,想法浪漫但不切實際,情緒、感覺、想像力是水相星座的基本特色。
2研究方法
2.1方差分析
方差分析(analysis of variance,簡寫為ANOV或ANOVA)是R.A.Fister發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀,造成波動的原因可分成兩類,一類是不可控的隨機因素,另一類是研究中施加的對結果造成影響的可控因素。方差分析的基本思想是:通過分析數據中不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。
2.2聚類分析
人們認識事物時往往先把被認識的對象進行分類,以便尋找其中相同與不同的特徵,因而分類學是人們認識世界的基礎科學。聚類分析是70年代發展起來的一門多元統計分類方法,它可以避免傳統分類法的主觀性和任意性。其所依據的基本原則是:直接比較樣本中各個事物之間的性質,將性質相近的歸為一類,而性質差別比較大的分在不同類[6]。由於簡單的等寬或等深分箱劃分方法未考慮數據點之間的相對距離,雖然方便但可能不緊扣區間數據的語義,用基於距離的劃分,即聚類的方法將量化屬性離散化,產生新的定類變量,亦是數據挖掘中數據變換的方法[8]。
2.3列聯表分析
列聯表是觀測數據按兩個或更多屬性(定類變量)分類時所列出的頻數表[5]。列聯表分析屬於離散多元分析的範疇,生成二維或多維交叉表,主要是分析各事物、現象的差異性,判明所考察的各屬性之間有無關聯,即是否獨立。
3應用實例
3.1資料描述
以2002級某碩士班的同學錄上所有註冊用戶為研究樣本,截至日期 2003.6.6日晚8點,註冊用戶共80人,去掉其中6個沒有填寫生日或姓名的數據,得到74個樣本,包括性別、生日、訪問次數三個變量。性別為定類變量,訪問次數為定距變量,生日為日期變量。
3.2數據分析過程
首先根據生日,計算得到所屬星座,再根據星座得到所屬四相元素,樣本分佈見表1表2,雖然屬於獅子座、處女座、天蠍座的樣本數較少,但按綜合為四相元素後,屬於各個元素的人數則較為平均。這樣又增加了兩個定類變量,用訪問次數和所屬元素兩個變量進行數據分析。
表1 所屬星座
太陽星座 人數 百分比%
白羊座 6 8.1
金牛座 6 8.1
雙子座 6 8.1
巨蟹座 6 8.1
獅子座 2 2.7
處女座 4 5.4
天秤座 8 10.8
天蠍座 3 4.1
射手座 10 13.5
摩羯座 7 9.5
水瓶座 10 13.5
雙魚座 6 8.1
合計 74 100.0
表2 所屬四相
四相元素 人數 百分比%
火相星座 18 24.3
土相星座 17 23.0
風相星座 24 32.4
水相星座 15 20.3
合計 74 100.0
3.2.1方差分析
根據所研究問題,四相不同的用戶是否訪問次數有差別,以訪問次數為因變量,所屬四相為因素變量,進行單因素方差分析。
表3 方差分析結果
離差平方和 自由度 均方 F值 F值概值.
組間 60468.103 3 20156.034 3.054 .034
組內 461928.276 70 6598.975
合計 522396.378 73
由表3可知方差來源於兩部分,即組間和組內,其自由度分別為3和70;F值為3.054,P=0.034<0.05,可以否定無差別假設,說明分別屬於四組元素(火、土、風、水)的用戶訪問次數有顯著差異。
3.2.2聚類分析
為進一步分析差異所在,利用聚類分析,根據訪問次數將樣本分類。聚類過程中最重要的問題是選擇最合適的類數,目標是要求分類數既不能過多也不能過少。先利用分層聚類法(Hierachical Cluster)分析產生的合併進程表(Agglomeration Schedule)和樹狀圖[6],在此基礎上確定分類數,結果表現樣本分為3類比較適宜。然後利用快速聚類法(K-mean),選擇歐氏距離的平方,採用組間平均鎖鏈聚類法,將樣本分為3類,第一類為9個樣本,訪問次數在226-304之間,第二類為19個樣本,訪問次數在90-202之間,第三類46個樣本,訪問次數少於90,分別命名為「經常訪問」、「有時訪問」、「較少訪問」,從而產生「樣本類別」這一分類變量,再進行下一步的分析。
3.2.3列聯表分析
以四相元素為行,樣本類別為列,生成列聯表,並用皮爾遜卡方值(Pearson Chi-Square)進行行列變量是否獨立的卡方檢驗,結果見表4。
表4 列聯表
經常訪問 有時訪問 較少訪問 合計
火相星座 7 11 18
土相星座 3 14 17
風相星座 4 7 13 24
水相星座 5 2 8 15
合計 9 19 46 74
皮爾遜卡方值為14.393,自由度為6,P=0.026<0.05,認為行列變量之間不獨立,即所屬四相與訪問次數有關。可以看到,屬於土相星座的17個用戶,有14人較少訪問論壇,是訪問次數最少的一個群體;火相星座的18個用戶,有11人較少訪問論壇,比土相星座次之;風相星座的24個用戶中,有4個用戶經常訪問論壇,有7個用戶有時訪問,但亦有13個用戶較少訪問,屬於訪問次數較多的一個群體;而水相星座的15個用戶中,有5個用戶經常訪問論壇,也有8個用戶較少訪問,程兩極分化趨勢。
3.3分析結果解釋
下面根據占星學的理論,對分析得到的結果進行解釋。
1、土相星座較為實際,重視感官,現實主義是土相的基本特色,對他們來說,有形的實體要比夢想或幻想有意義,故而對虛幻的網絡論壇的興趣非常小,訪問次數最少。
2、火相星座的人靠著直覺理解世界,沒什麼耐性,有興奮且不穩定的性格特質。使其對虛幻的網絡論壇的興趣很難持久。
3、風相星座的人借思考理解世界。對他們而言,無形的思想和概念似乎比有形的實體更為實在,因此通常都帶有一些理想色彩,故虛擬的網絡論壇對他們有較強的吸引力。
4、水相星座的人靠著感受理解世界,較為感性,想法浪漫但不切實際,虛擬的網絡論壇正好給予其想像的環境,故而有不少人經常訪問。
由此看出,根據占星學的基本理論對網絡用戶進行分類,可以較好的劃分出經常訪問的群體,即屬於風相星座與水相星座的用戶;與不常訪問的群體,即屬於火相星座和土相星座的用戶。
4結論
本文利用數據挖掘的技術,根據古老的占星學的基本理論,在對虛擬網絡論壇的用戶進行分析後,找到了適當且正確的客戶分群方法,並根據占星學,描述了不同群體的基本特徵,為B2C電子商務服務商提供了一種簡便有效的方法,幫助其制定有效的營銷策略,更好的識別和把握市場機會,提高客戶滿意度,防止客戶流失,進行有效的客戶關係管理,從而在當前複雜多變的競爭環境中立與不敗之地。
參考文獻
[1]新浪占星教程,http://astro.sina.com.cn/learn/
[2] Indranil Bose, Radha K. Mahapatra, Business data mining - a machine learning perspective [J], Information Management 2001, 211-225
[3] A.Feelders, H.Daniels, M.Holsheimer, Methodological and practical aspects of data mining[J], Information Management 2000, 271-281
[4]Gary P.Schneider,James T.Perry著,成棟,李進,韓冀東譯。電子商務[M],機械工業出版社,2000。
[5] 柯惠新,黃京華,沈浩。調查研究中的統計分析法[M]。北京廣播學院出版社,1992。
[6] 袁淑君,孟慶茂。數據統計分析--SPSS/PC+原理及其應用[M]。北京師範大學出版社,1995。
[7]王大有。6500年前的蚌塑四象二十八宿渾天蓋天系統。濮陽教育學院學報。2002,5。
[8]Jiawei Han,Micheline Kamber著,范明,孟小峰譯。數據挖掘概念與技術[M]。機械工業出版社。2001,8。
[9]王景河,網上商店購物者心理分析,商場現代化。2002,6
[10]徐立新,現代企業市場營銷與消費者心理研究,工業技術經濟,2002,3。
[11]許雄奇 賴景生,網絡營銷消費者心理和行為探析,商業經濟與管理,2000,6。