眾所周知,機器學習中處理缺失值的方法有很多,然而,由題目“隨機森林如何處理缺失值”可知,問題關鍵在于隨機森林如何處理,所以先簡要介紹下隨機森林吧。
隨機森林是由很多個決策樹組成的,首先要建立Bootstrap數(shù)據(jù)集,即從原始的數(shù)據(jù)中有放回地隨機選取一些,作為新的數(shù)據(jù)集,新數(shù)據(jù)集中會存在重復的數(shù)據(jù),然后對每個數(shù)據(jù)集構造一個決策樹,但是不是直接用所有的特征來建造決策樹,而是對于每一步,都從中隨機的選擇一些特征,來構造決策樹,這樣我們就構建了多個決策樹,組成隨機森林,把數(shù)據(jù)輸入各個決策樹中,看一看每個決策樹的判斷結果,統(tǒng)計一下所有決策樹的預測結果,Bagging整合結果,得到最終輸出。
那么,隨機森林中如何處理缺失值呢?根據(jù)隨機森林創(chuàng)建和訓練的特點,隨機森林對缺失值的處理還是比較特殊的。