數據清洗Data cleaning

            一、數據清洗到底是什么?
            數據清洗(Data cleaning)– 對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。通過有效的數據清理,所有數據集都應該沒有任何在分析期間可能出現問題的錯誤。

            二、為什么需要數據清理?
            數據清洗工作則是為了銷售預測更方便,基于這個預測做出來的計劃更實用。

            三、數據清理涉及哪些常見步驟?
            1、刪除不必要的觀察
            數據清理的第一步是從我們的數據集中刪除不需要的觀測值。不需要的觀察包括重復或不相關的觀察。
            2、修復結構錯誤
            數據清理的下一步是修復數據集中的結構錯誤,這些結構錯誤使我們的模型效率低下,并給出質量較差的結果。
            結構錯誤是指在測量,數據傳輸或其他類似情況下出現的那些錯誤。這些錯誤通常包括:
            a.功能名稱中的印刷錯誤(typos);
            b.具有不同名稱的相同屬性;
            c.貼錯標簽的類,即應該完全相同的單獨的類;
            d.大小寫不一致。
            3、過濾不需要的離群值
            數據清理的下一步是從數據集中過濾掉不需要的離群值。數據集包含離訓練數據其余部分相距甚遠的異常值。這樣的異常值會給某些類型的ML模型帶來更多問題。例如,線性回歸ML模型的穩定性不如Random Forest ML模型強。
            4、處理丟失的數據
            機器學習中看似棘手的問題之一是“缺少數據”。為了清楚起見,您不能簡單地忽略數據集中的缺失值。出于非常實際的原因,您必須以某種方式處理丟失的數據,因為大多數應用的ML算法都不接受帶有丟失值的數據集。兩種最常用的處理丟失數據的方法是刪除具有缺失值的觀察值、根據過去或其他觀察結果估算缺失值。

            四、數據清洗的主要挑戰是什么?
            1、對引起異常的原因了解有限;
            2、錯誤地刪除數據會導致數據不完整,無法準確地“填寫”;
            3、為了幫助提前完成該過程,構建數據清理圖非常困難;
            4、對于任何正在進行的維護,數據清理過程既昂貴又費時。

            久久青草免费97线频观,久久国产乱子伦精品一级,久久只有这里的精品69_综合 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>