站長資訊網
        最全最豐富的資訊網站

        數據挖掘的基本步驟是什么

        數據挖掘的基本步驟是:1、定義問題;2、建立數據挖掘庫;3、分析數據;4、準備數據;5、建立模型;6、評價模型;7、實施。

        數據挖掘的基本步驟是什么

        本文操作環境:windows10系統、thinkpad t480電腦。

        具體步驟如下:

        1、定義問題

        在開始知識發現之前最先的也是最重要的要求就是了解數據和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。

        2、建立數據挖掘庫

        建立數據挖掘庫包括以下幾個步驟:數據收集,數據描述,選擇,數據質量評估和數據清理,合并與整合,構建元數據,加載數據挖掘庫,維護數據挖掘庫。

        3、分析數據

        分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。如果數據集包含成百上千的字段,那么瀏覽分析這些數據將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協助你完成這些事情。

        4、準備數據

        這是建立模型之前的最后一步數據準備工作。可以把此步驟分為四個部分:選擇變量,選擇記錄,創建新變量,轉換變量。

        5、建立模型

        建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分數據建立模型,然后再用剩下的數據來測試和驗證這個得到的模型。有時還有第三個數據集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數據集來驗證模型的準確性。訓練和測試數據挖掘模型需要把數據至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。

        6、評價模型

        模型建立好之后,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數據有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意之后再向大范圍推廣。

        7、實施

        模型建立并經驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數據集上。

        免費學習視頻分享:編程入門

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 欧美日韩国产成人高清视频,欧美日韩在线精品一 | 麻豆精品久久久一区二区| 无码精品久久一区二区三区| 精品久久久久久国产91| 久久ww精品w免费人成| 亚洲级αV无码毛片久久精品| 久久精品人妻一区二区三区| 97国产视频精品| 国产精品V亚洲精品V日韩精品| 国产精品一区在线观看你懂的| 精品国产一区二区三区在线观看| 中文字幕在线亚洲精品| 国产精品涩涩涩视频网站 | 亚洲国产精品成人精品无码区在线| 精品a在线观看| 亚洲精品无码久久一线| 99国产精品一区二区| 国产精品1024视频| 亚洲精品你懂的在线观看| CAOPORM国产精品视频免费| 国产香蕉国产精品偷在线观看| 在线涩涩免费观看国产精品| 国产成人精品一区二区秒拍 | 99精品伊人久久久大香线蕉| 无码精品久久一区二区三区| 国产精品福利在线观看| 久久露脸国产精品| 国产精品视频免费| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲乱码国产乱码精品精| 亚洲精品自产拍在线观看动漫| 青青久久精品国产免费看| 国产精品久久国产精麻豆99网站| 久久久无码精品午夜| 国产精品分类视频分类一区| 亚洲精品永久在线观看| 国产精品午夜一级毛片密呀| 国产午夜福利精品一区二区三区 | 中文国产成人精品久久不卡| 国产成人精品高清不卡在线| 国产精品人人爽人人做我的可爱|