站長資訊網
        最全最豐富的資訊網站

        數據挖掘的基本步驟是什么

        數據挖掘的基本步驟是:1、定義問題;2、建立數據挖掘庫;3、分析數據;4、準備數據;5、建立模型;6、評價模型;7、實施。

        數據挖掘的基本步驟是什么

        本文操作環境:windows10系統、thinkpad t480電腦。

        具體步驟如下:

        1、定義問題

        在開始知識發現之前最先的也是最重要的要求就是了解數據和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。

        2、建立數據挖掘庫

        建立數據挖掘庫包括以下幾個步驟:數據收集,數據描述,選擇,數據質量評估和數據清理,合并與整合,構建元數據,加載數據挖掘庫,維護數據挖掘庫。

        3、分析數據

        分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。如果數據集包含成百上千的字段,那么瀏覽分析這些數據將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協助你完成這些事情。

        4、準備數據

        這是建立模型之前的最后一步數據準備工作。可以把此步驟分為四個部分:選擇變量,選擇記錄,創建新變量,轉換變量。

        5、建立模型

        建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分數據建立模型,然后再用剩下的數據來測試和驗證這個得到的模型。有時還有第三個數據集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數據集來驗證模型的準確性。訓練和測試數據挖掘模型需要把數據至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。

        6、評價模型

        模型建立好之后,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數據有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意之后再向大范圍推廣。

        7、實施

        模型建立并經驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數據集上。

        免費學習視頻分享:編程入門

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 亚洲AV成人无码久久精品老人| 国产精品久线在线观看| 亚洲av永久无码精品国产精品| 精品国产欧美一区二区| 亚洲国产成人精品无码区在线观看| 777欧美午夜精品影院| 精品无码一区二区三区爱欲九九| 久久久久人妻精品一区三寸蜜桃 | 亚洲午夜国产精品无码| 国产精品视频一区二区三区不卡| 国产在视频线精品视频二代| 久久精品aⅴ无码中文字字幕重口| 欧美日韩精品久久久免费观看| 国产精品成人一区二区| 久久99国产精品久久| 精品国产福利在线观看| 亚洲国产精品嫩草影院在线观看 | 中文字幕精品亚洲无线码一区应用| 精品人妻少妇一区二区| AAA级久久久精品无码区| 久久国产精品一区二区| 国产精品区免费视频| 久久国产精品成人影院| 日韩精品中文字幕无码一区| 亚洲精品亚洲人成在线观看| 亚洲精品无码日韩国产不卡?V| 老司机午夜网站国内精品久久久久久久久| 成人午夜精品久久久久久久小说| 2020最新久久久视精品爱| 日韩精品一区二区三区大桥未久| 精品国产品香蕉在线观看75| 精品久久久久久久| 欧美精品华人在线| 性色精品视频网站在线观看| 亚洲国产精品国自产电影| 日韩精品在线观看视频| 91精品在线国产| 国产精品内射婷婷一级二| 国产成人精品久久亚洲高清不卡 国产成人精品久久亚洲高清不卡 国产成人精品久久亚洲 | 亚洲国产综合精品一区在线播放| 日本Aⅴ大伊香蕉精品视频|