(1).fillna()會填充nan數(shù)據(jù),返回填充后的結(jié)果
(2)pddata["a"].unique() 特征a的值出現(xiàn)的set——唯一值
(3).loc[]選取指定列進行操作——df.loc[行標簽,列標簽]
(4).iloc[]函數(shù)——只能通過行號索引:df.iloc[0:4]它是基于索引位來選取數(shù)據(jù)集,0:4就是選取 0,1,2,3這四行
(5)作圖
from pandas.tools.plotting import scatter_matrix(混淆散點圖)
scatter_matrix(含有n個特征的數(shù)據(jù)X,s=100, alpha=1, c=colors[index], figsize=(10,10))
例如:scatter_matrix(beer[["calories","sodium","alcohol","cost"]],s=100, alpha=1, c=colors[beer["cluster"]], figsize=(16,16))