Normalization (归一化):针对输入数据尺度不一样,范围过大

前向/反向传播:

前向传播

先前向传播计算 y ,然后计算 y 和真实值误差。

然后对误差进行反向传播,更新 权值。

反向传播

dE/dz = sigmoid 求导 乘以 连接下一层的 W, 乘以 上一层求过的导数

然后再用 dE/dz 更新 dE/dw

更新参数 w = w - l * dE/dw

梯度下降,求损失函数的最小值,即将损失函数的值往导数方向移动,逐渐靠近最小值。

不直接求导的原因是有的函数求导为0是无解的,求导为0的计算量有可能也很大。矩阵求逆。

激活函数:原因(线性→非线性)

sigmoidial function 求和可以近似所有的 function