Jupyter-notebook路径

发表于 2019-05-13

Jupyter notebook的路径

1、你打开jupyter notebook时的路径，即为工作路径。注意下图中的黄色字体部分。

阅读全文 »

机器学习笔记|第三周

发表于 2019-05-08

逻辑回归

Eyzf58.md.jpg

阅读全文 »

机器学习笔记|第二周

发表于 2019-05-08

多元变量线性回归

EyxPSJ.md.jpg

阅读全文 »

机器学习笔记|第一周

发表于 2019-05-08

绪论和单变量线性回归

EyjKAO.md.jpg

阅读全文 »

100天机器学习-1

发表于 2019-05-08

Day-1

pd.iloc()

用于切分pandas的数据，基于整数位置索引。再通过.values即可返回numpy表示。

1 2	x=data.iloc[:,:-1].values y=data.iloc[:,3].values

处理缺失值（missing value）

数据集中有些数据的值为NaN。值得一提的是，在numpy中，NaN(Not a Number)属于float类型的。可以使用sklearn.preprocessing中的类Imputer来处理这些缺失值。具体步骤如下：

from sklearn.preprocessing import Imputer

# 创立一个imputer对象，参数是对缺失值的处理方式
imputer=Imputer(missing_values='NaN',strategy='mean',axis=0)
# fit()方法是用数组x去"训练"imputer对象
imputer=imputer.fit(x[:,1:3])
# transform()是用训练好的对象再对x进行处理
x[:,1:3]=imputer.transform(x[:,1:3])

关于缺失值（missing value）的处理

解析分类数据（encoding categorical data）

分类数据是指不用数字而用标签的变量，比如本例中的“Yes”和“No”。为了方便处理，可以用sklearn.preprocessing模块中的LabelEncoder类把他们转换成数字。

from sklearn.preprocessing import LabelEncoder,OneHotEncoder

labelencoder_X=LabelEncoder()
# fit()给标签编码，并且返回编码后的值
x[:,0]=labelencoder_X.fit_transform(x[:,0])

机器学习笔记|第十周

发表于 2019-05-06

大规模机器学习

学习大数据

假设我们有一个高偏差模型，那么大规模的数据的确能够帮助你拟合更好的模型。但是大规模的数据可能导致算法运行的效率低下。

所以在收集大量数据之前，应该考虑用小样本数据是否也能获得较好的拟合效果。

阅读全文 »

机器学习笔记|第九周

发表于 2019-05-04

异常检测

异常检测(Anomaly detection)是一种特殊的无监督学习，但其和监督问题有些类似之处。

问题动机

从下图可以看出，对训练集建立模型后，输入$x_{test}$，通过概率来判断它是否异常。

阅读全文 »

机器学习|吴恩达机器学习之PCA

发表于 2019-05-02

K-means Clustering

导入模块

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import loadmat
from skimage import io

阅读全文 »

浅谈SVD的数学原理及应用

发表于 2019-05-01

在做PCA的实验时，遇到的SVD奇异值分解问题，这里记录自己直观的理解

通常在python中我们都是直接调用numpy模块中的函数，那么返回的U,S,V几个值代表什么意思呢？

1	U, S, V = np.linalg.svd(X)

遇事不明，手册先行：官方手册

阅读全文 »

机器学习笔记-第八周

发表于 2019-04-29

无监督学习

之间学习的都是监督学习，也就是样本都有标签。

阅读全文 »

JQK/许阳航

The early worm is catched by birds

55 日志

3 分类

28 标签

RSS

GitHub Weibo Zhihu Douban