Day-1
pd.iloc()
用于切分pandas的数据,基于整数位置索引。再通过.values
即可返回numpy表示。
1 | x=data.iloc[:,:-1].values |
处理缺失值(missing value)
数据集中有些数据的值为NaN
。值得一提的是,在numpy中,NaN
(Not a Number)属于float类型的。可以使用sklearn.preprocessing
中的类Imputer
来处理这些缺失值。具体步骤如下:
1 | from sklearn.preprocessing import Imputer |
解析分类数据(encoding categorical data)
分类数据是指不用数字而用标签的变量,比如本例中的“Yes”和“No”。为了方便处理,可以用sklearn.preprocessing
模块中的LabelEncoder
类把他们转换成数字。
1 | from sklearn.preprocessing import LabelEncoder,OneHotEncoder |