Jupyter notebook的路径
1、你打开jupyter notebook时的路径,即为工作路径。注意下图中的黄色字体部分。
总不能浪费个副标题吧
用于切分pandas的数据,基于整数位置索引。再通过.values
即可返回numpy表示。
1 | x=data.iloc[:,:-1].values |
数据集中有些数据的值为NaN
。值得一提的是,在numpy中,NaN
(Not a Number)属于float类型的。可以使用sklearn.preprocessing
中的类Imputer
来处理这些缺失值。具体步骤如下:
1 | from sklearn.preprocessing import Imputer |
分类数据是指不用数字而用标签的变量,比如本例中的“Yes”和“No”。为了方便处理,可以用sklearn.preprocessing
模块中的LabelEncoder
类把他们转换成数字。
1 | from sklearn.preprocessing import LabelEncoder,OneHotEncoder |
假设我们有一个高偏差模型,那么大规模的数据的确能够帮助你拟合更好的模型。但是大规模的数据可能导致算法运行的效率低下。
所以在收集大量数据之前,应该考虑用小样本数据是否也能获得较好的拟合效果。
异常检测(Anomaly detection)是一种特殊的无监督学习,但其和监督问题有些类似之处。
从下图可以看出,对训练集建立模型后,输入$x_{test}$,通过概率来判断它是否异常。
导入模块
1 | import numpy as np |
在做PCA的实验时,遇到的SVD奇异值分解问题,这里记录自己直观的理解
通常在python
中我们都是直接调用numpy
模块中的函数,那么返回的U,S,V几个值代表什么意思呢?
1 | U, S, V = np.linalg.svd(X) |
遇事不明,手册先行:官方手册