一、數據清洗到底是什么?
數據清洗(Data cleaning)– 對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。通過有效的數據清理,所有數據集都應該沒有任何在分析期間可能出現問題的錯誤。
二、為什么需要數據清理?
數據清洗工作則是為了銷售預測更方便,基于這個預測做出來的計劃更實用。
三、數據清理涉及哪些常見步驟?
1、刪除不必要的觀察
數據清理的第一步是從我們的數據集中刪除不需要的觀測值。不需要的觀察包括重復或不相關的觀察。
2、修復結構錯誤
數據清理的下一步是修復數據集中的結構錯誤,這些結構錯誤使我們的模型效率低下,并給出質量較差的結果。
結構錯誤是指在測量,數據傳輸或其他類似情況下出現的那些錯誤。這些錯誤通常包括:
a.功能名稱中的印刷錯誤(typos);
b.具有不同名稱的相同屬性;
c.貼錯標簽的類,即應該完全相同的單獨的類;
d.大小寫不一致。
3、過濾不需要的離群值
數據清理的下一步是從數據集中過濾掉不需要的離群值。數據集包含離訓練數據其余部分相距甚遠的異常值。這樣的異常值會給某些類型的ML模型帶來更多問題。例如,線性回歸ML模型的穩定性不如Random Forest ML模型強。
4、處理丟失的數據
機器學習中看似棘手的問題之一是“缺少數據”。為了清楚起見,您不能簡單地忽略數據集中的缺失值。出于非常實際的原因,您必須以某種方式處理丟失的數據,因為大多數應用的ML算法都不接受帶有丟失值的數據集。兩種最常用的處理丟失數據的方法是刪除具有缺失值的觀察值、根據過去或其他觀察結果估算缺失值。
四、數據清洗的主要挑戰是什么?
1、對引起異常的原因了解有限;
2、錯誤地刪除數據會導致數據不完整,無法準確地“填寫”;
3、為了幫助提前完成該過程,構建數據清理圖非常困難;
4、對于任何正在進行的維護,數據清理過程既昂貴又費時。