<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Coursera on My Blog</title><link>/tags/coursera/</link><description>Recent content in Coursera on My Blog</description><generator>Hugo</generator><language>en-us</language><lastBuildDate>Sun, 20 May 2018 00:00:00 +0000</lastBuildDate><atom:link href="/tags/coursera/index.xml" rel="self" type="application/rss+xml"/><item><title>Overfitting and Regularization</title><link>/2018/05/20/overfitting-and-regularization/</link><pubDate>Sun, 20 May 2018 00:00:00 +0000</pubDate><guid>/2018/05/20/overfitting-and-regularization/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="1-underfitting-and-overfitting"&gt;1. underfitting and overfitting&lt;/h1&gt;
&lt;p&gt;我们利用多项式回归获得更加准确的拟合曲线，实现了对训练数据更好的拟合。然而，我们也发现，过渡地对训练数据拟合也会丢失信息规律。看两个概念：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;欠拟合（underfitting）&lt;/strong&gt;：拟合程度不高，数据距离拟合曲线较远，如下左图所示。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;过拟合（overfitting）&lt;/strong&gt;：过度拟合，貌似拟合几乎每一个数据，但是丢失了信息规律，如下右图所示，房价随着房屋面积的增加反而降低了。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img alt="underfitting_and_overfitting" loading="lazy" src="underfitting_and_overfitting.png"&gt;&lt;/p&gt;
&lt;p&gt;我们有如下策略来解决过拟合问题：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;减少特征数，显然这只是权宜之计，因为特征意味着信息，放弃特征也就等同于丢弃信息，要知道，特征的获取往往也是艰苦卓绝的。&lt;/li&gt;
&lt;li&gt;不放弃特征，而是拉伸曲线使之更加平滑以解决过拟合问题，为了拉伸曲线，也就要弱化一些高阶项（曲线曲折的罪魁祸首）。由于高阶项中的&lt;strong&gt;特征 x&lt;/strong&gt; 无法更改，因此特征是无法弱化的，我们能弱化的只有高阶项中的&lt;strong&gt;系数 θi&lt;/strong&gt;。我们把这种弱化称之为是对参数 θ 的惩罚（penalize）。**Regularization（正规化）**正是完成这样一种惩罚的“侩子手”。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如下例所示，我们将 θ3 及 θ4 减小（惩罚）到趋近于 0，原本过拟合的曲线就变得更加平滑，趋近于一条二次曲线（在本例中，二次曲线显然更能反映住房面积和房价的关系），也就能够更好的根据住房面积来预测房价。要知道，预测才是我们的最终目的，而非拟合。&lt;/p&gt;
&lt;p&gt;&lt;img alt="regularization" loading="lazy" src="regularization.png"&gt;&lt;/p&gt;
&lt;h1 id="2-regularized-linear-regression"&gt;2. Regularized Linear Regression&lt;/h1&gt;
&lt;p&gt;在线性回归中，我们的预测代价如下评估：&lt;/p&gt;
&lt;p&gt;$$J(\theta)=\frac{1}{2m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$$&lt;/p&gt;
&lt;p&gt;为了在最小化 J(θ) 的过程中，也能尽可能使 $θ$ 变小，我们将上式更改为:&lt;/p&gt;
&lt;p&gt;$$\begin{align*} J(\theta) &amp;amp;= \frac{1}{2m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum\limits_{i=1}^{n}\theta_j^2 \ &amp;amp;= \frac{1}{2m}(X\theta-y)^T(X\theta-y)+\lambda\sum\limits_{i=1}^{n}\theta_j^2 \end{align*}$$&lt;/p&gt;
&lt;p&gt;其中，参数 λ 主要是完成以下两个任务:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;保证对数据的拟合良好&lt;/li&gt;
&lt;li&gt;保证 $θ$ 足够小，避免过拟合问题。&lt;/li&gt;
&lt;/ol&gt;
&lt;blockquote&gt;
&lt;p&gt;λ 越大，要使 $J(θ)$ 变小，惩罚力度就要变大，这样 θ 会被惩罚得越惨（越小），即要避免过拟合，我们显然应当增大 λλ 的值。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;那么，梯度下降也发生相应变化：&lt;/p&gt;
&lt;p&gt;$$\begin{align*} \theta_0 &amp;amp;=\theta_0-\alpha\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)} \ \theta_j &amp;amp;=\theta_j-\alpha\big(\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j\big) \quad (1) \ \mbox {即：}&amp;amp; \ \theta &amp;amp;= \theta-\alpha*(\frac{1}{m} X^T(y-X\theta) + \frac{\lambda}{m}\theta_{j}) \quad j \neq 0 \end{align*}$$&lt;/p&gt;</description></item><item><title>Programming Exercise 2 Logistic Regression</title><link>/2018/05/15/programming-exercise-2-logistic-regression/</link><pubDate>Tue, 15 May 2018 00:00:00 +0000</pubDate><guid>/2018/05/15/programming-exercise-2-logistic-regression/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="1-introduction"&gt;1. Introduction&lt;/h1&gt;
&lt;p&gt;任务所要用到的文件
ex2.m - 运行主文件1
ex2 reg.m - 运行主文件1
ex2data1.txt - 主文件1训练数据
ex2data2.txt - 主文件2训练数据
submit.m - 提交任务函数文件
mapFeature.m - Function to generate polynomial features
plotDecisionBoundary.m - Function to plot classifier’s decision bound-
ary
[?] plotData.m - Function to plot 2D classification data
[?] sigmoid.m - Sigmoid Function
[?] costFunction.m - Logistic Regression Cost Function
[?] predict.m - Logistic Regression Prediction Function
[?] costFunctionReg.m - Regularized Logistic Regression Cost
? 表示完成任务所要修改的文件&lt;/p&gt;</description></item><item><title>Underfitting and Overfitting</title><link>/2018/05/10/underfitting-and-overfitting/</link><pubDate>Thu, 10 May 2018 00:00:00 +0000</pubDate><guid>/2018/05/10/underfitting-and-overfitting/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="1-underfitting-and-overfitting"&gt;1. underfitting and overfitting&lt;/h1&gt;
&lt;p&gt;我们利用多项式回归获得更加准确的拟合曲线，实现了对训练数据更好的拟合。然而，我们也发现，过渡地对训练数据拟合也会丢失信息规律。看两个概念：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;欠拟合（underfitting）&lt;/strong&gt;：拟合程度不高，数据距离拟合曲线较远，如下左图所示。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;过拟合（overfitting）&lt;/strong&gt;：过度拟合，貌似拟合几乎每一个数据，但是丢失了信息规律，如下右图所示，房价随着房屋面积的增加反而降低了。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img alt="underfitting_and_overfitting" loading="lazy" src="/2018/05/10/underfitting-and-overfitting/underfitting_and_overfitting.png"&gt;&lt;/p&gt;
&lt;p&gt;我们有如下策略来解决过拟合问题：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;减少特征数，显然这只是权宜之计，因为特征意味着信息，放弃特征也就等同于丢弃信息，要知道，特征的获取往往也是艰苦卓绝的。&lt;/li&gt;
&lt;li&gt;不放弃特征，而是拉伸曲线使之更加平滑以解决过拟合问题，为了拉伸曲线，也就要弱化一些高阶项（曲线曲折的罪魁祸首）。由于高阶项中的&lt;strong&gt;特征 x&lt;/strong&gt; 无法更改，因此特征是无法弱化的，我们能弱化的只有高阶项中的&lt;strong&gt;系数 θi&lt;/strong&gt;。我们把这种弱化称之为是对参数 θ 的惩罚（penalize）。**Regularization（正规化）**正是完成这样一种惩罚的“侩子手”。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如下例所示，我们将 θ3 及 θ4 减小（惩罚）到趋近于 0，原本过拟合的曲线就变得更加平滑，趋近于一条二次曲线（在本例中，二次曲线显然更能反映住房面积和房价的关系），也就能够更好的根据住房面积来预测房价。要知道，预测才是我们的最终目的，而非拟合。&lt;/p&gt;
&lt;p&gt;&lt;img alt="regularization" loading="lazy" src="/2018/05/10/underfitting-and-overfitting/regularization.png"&gt;&lt;/p&gt;
&lt;h1 id="2-regularized-linear-regression"&gt;2. Regularized Linear Regression&lt;/h1&gt;
&lt;p&gt;在线性回归中，我们的预测代价如下评估：&lt;/p&gt;
&lt;p&gt;$$J(\theta)=\frac{1}{2m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$$&lt;/p&gt;
&lt;p&gt;为了在最小化 J(θ) 的过程中，也能尽可能使 $θ$ 变小，我们将上式更改为:&lt;/p&gt;
&lt;p&gt;$$\begin{align*} J(\theta) &amp;amp;= \frac{1}{2m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum\limits_{i=1}^{n}\theta_j^2 \ &amp;amp;= \frac{1}{2m}(X\theta-y)^T(X\theta-y)+\lambda\sum\limits_{i=1}^{n}\theta_j^2 \end{align*}$$&lt;/p&gt;
&lt;p&gt;其中，参数 λ 主要是完成以下两个任务:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;保证对数据的拟合良好&lt;/li&gt;
&lt;li&gt;保证 $θ$ 足够小，避免过拟合问题。&lt;/li&gt;
&lt;/ol&gt;
&lt;blockquote&gt;
&lt;p&gt;λ 越大，要使 $J(θ)$ 变小，惩罚力度就要变大，这样 θ 会被惩罚得越惨（越小），即要避免过拟合，我们显然应当增大 λλ 的值。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;那么，梯度下降也发生相应变化：&lt;/p&gt;
&lt;p&gt;$$\begin{align*} \theta_0 &amp;amp;=\theta_0-\alpha\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)} \ \theta_j &amp;amp;=\theta_j-\alpha\big(\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j\big) \quad (1) \ \mbox {即：}&amp;amp; \ \theta &amp;amp;= \theta-\alpha*(\frac{1}{m} X^T(y-X\theta) + \frac{\lambda}{m}\theta_{j}) \quad j \neq 0 \end{align*}$$&lt;/p&gt;</description></item><item><title>Logistic Regression</title><link>/2018/05/03/logistic-regression/</link><pubDate>Thu, 03 May 2018 00:00:00 +0000</pubDate><guid>/2018/05/03/logistic-regression/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="1-classification-and-representation"&gt;1. Classification and Representation&lt;/h1&gt;
&lt;p&gt;使用线性回归来处理 0/1 分类问题总是困难重重的，如下两图，在第一幅图中，拟合曲线成功的区分了 0、1 两类，在第二幅图中，如果我们新增了一个输入（右上的 &lt;strong&gt;X&lt;/strong&gt; 所示），此时拟合曲线发生变化，由第一幅图中的&lt;strong&gt;紫色线&lt;/strong&gt;旋转到第二幅图的&lt;strong&gt;蓝色线&lt;/strong&gt;，导致本应被视作 1 类的 X 被误分为了 0 类：&lt;/p&gt;
&lt;p&gt;&lt;img alt="线性回归处理分类问题1" loading="lazy" src="/2018/05/03/logistic-regression/LR_deal_classification_01.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="线性回归处理分类问题2" loading="lazy" src="/2018/05/03/logistic-regression/LR_deal_classification_02.png"&gt;&lt;/p&gt;
&lt;p&gt;因此，人们定义了逻辑回归来完成 0/1 分类问题。&lt;/p&gt;
&lt;h2 id="11-sigmoid"&gt;1.1 sigmoid&lt;/h2&gt;
&lt;p&gt;用线性回归预测函数hθ(x)来处理回归问题不太有效，特别对于0/1分类问题。新的逻辑回归预测函数&lt;/p&gt;
&lt;p&gt;&lt;img alt="回归预测函数" loading="lazy" src="/2018/05/03/logistic-regression/Hypothesis_Representation.png"&gt;&lt;/p&gt;
&lt;p&gt;g(z) 称之为 Sigmoid Function，亦称 Logic Function，其函数图像如下：&lt;/p&gt;
&lt;p&gt;&lt;img alt="sigmoid" loading="lazy" src="/2018/05/03/logistic-regression/sigmoid_function.png"&gt;&lt;/p&gt;
&lt;p&gt;预测函数hθ(x) 被很好地限制在0、1之间。阈值为 0.5，大于则为 1 类，反之为 0 类。函数曲线过渡光滑自然。&lt;/p&gt;
&lt;h2 id="12-decision-boundary"&gt;1.2 Decision Boundary&lt;/h2&gt;
&lt;p&gt;决策边界，顾名思义，就是用来&lt;strong&gt;划清界限&lt;/strong&gt;的边界，边界的形态可以不定，可以是点，可以是线，也可以是平面。Andrew Ng 在公开课中强调：&lt;strong&gt;“决策边界是预测函数 hθ(x)hθ(x) 的属性，而不是训练集属性”&lt;/strong&gt;，这是因为能作出“划清”类间界限的只有 hθ(x)，而训练集只是用来训练和调节参数的。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;线性决策边界&lt;/strong&gt;：&lt;/p&gt;
&lt;p&gt;&lt;img alt="线性决策边界" loading="lazy" src="/2018/05/03/logistic-regression/liner_decision_boundary.png"&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;非线性决策边界&lt;/strong&gt;：&lt;/p&gt;
&lt;p&gt;&lt;img alt="非线性决策边界" loading="lazy" src="/2018/05/03/logistic-regression/no_liner_decision_boundary.png"&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1 id="2-logistic-regression-model"&gt;2. Logistic Regression Model&lt;/h1&gt;
&lt;h2 id="21-cost-function"&gt;2.1 Cost Function&lt;/h2&gt;
&lt;p&gt;&lt;img alt="cost_function" loading="lazy" src="/2018/05/03/logistic-regression/cost_function.png"&gt;&lt;/p&gt;
&lt;p&gt;当y=0时：&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_y0" loading="lazy" src="/2018/05/03/logistic-regression/cost_function_y0.png"&gt;&lt;/p&gt;
&lt;p&gt;当y=1时：&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_y1" loading="lazy" src="/2018/05/03/logistic-regression/cost_function_y1.png"&gt;&lt;/p&gt;
&lt;p&gt;可以看到，当 hθ(x)≈y 时，cost≈0，预测正确。&lt;/p&gt;</description></item><item><title>Programming Exercise 1 Linear Regression</title><link>/2018/04/25/programming-exercise-1-linear-regression/</link><pubDate>Wed, 25 Apr 2018 00:00:00 +0000</pubDate><guid>/2018/04/25/programming-exercise-1-linear-regression/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="1-introduction"&gt;1. Introduction&lt;/h1&gt;
&lt;p&gt;任务所要用到的文件&lt;/p&gt;
&lt;p&gt;Files included in this exercise
ex1.m - Octave/MATLAB script that steps you through the exercise
ex1 multi.m - Octave/MATLAB script for the later parts of the exercise
ex1data1.txt - Dataset for linear regression with one variable
ex1data2.txt - Dataset for linear regression with multiple variables
submit.m - Submission script that sends your solutions to our servers
[?] warmUpExercise.m - Simple example function in Octave/MATLAB
[?] plotData.m - Function to display the dataset
[?] computeCost.m - Function to compute the cost of linear regression
[?] gradientDescent.m - Function to run gradient descent
[†] computeCostMulti.m - Cost function for multiple variables
[†] gradientDescentMulti.m - Gradient descent for multiple variables
[†] featureNormalize.m - Function to normalize features
[†] normalEqn.m - Function to compute the normal equations
? indicates files you will need to complete
† indicates optional exercises&lt;/p&gt;</description></item><item><title>Linear Regression with Multiple Variables (week2)</title><link>/2018/04/20/linear-regression-with-multiple-variables-week2/</link><pubDate>Fri, 20 Apr 2018 00:00:00 +0000</pubDate><guid>/2018/04/20/linear-regression-with-multiple-variables-week2/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="multiple-features"&gt;Multiple Features&lt;/h1&gt;
&lt;p&gt;多个特征的数据&lt;/p&gt;
&lt;p&gt;&lt;img alt="Multiple_Features_01" loading="lazy" src="/2018/04/20/linear-regression-with-multiple-variables-week2/Multiple_Features_01.png"&gt;&lt;/p&gt;
&lt;p&gt;对于线性回归：&lt;/p&gt;
&lt;p&gt;&lt;img alt="Multiple_Features_02" loading="lazy" src="/2018/04/20/linear-regression-with-multiple-variables-week2/Multiple_Features_02.png"&gt;&lt;/p&gt;
&lt;p&gt;其中：X0 = 1&lt;/p&gt;
&lt;h2 id="gradient-descent-for-multiple-variables"&gt;Gradient Descent for Multiple Variables&lt;/h2&gt;
&lt;p&gt;对于m个样本，n个特征的，&lt;/p&gt;
&lt;p&gt;&lt;img alt="Gradient_Descent_for_Multiple_Variables_02" loading="lazy" src="/2018/04/20/linear-regression-with-multiple-variables-week2/GD_02.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="Gradient_Descent_for_Multiple_Variables_01" loading="lazy" src="/2018/04/20/linear-regression-with-multiple-variables-week2/GD_01.png"&gt;&lt;/p&gt;
&lt;h2 id="feature-scaling"&gt;Feature Scaling&lt;/h2&gt;
&lt;p&gt;对训练数据进行特征缩放可以加快训练速度。&lt;/p&gt;
&lt;p&gt;有两种帮助的技术是&lt;strong&gt;特征缩放&lt;/strong&gt;和&lt;strong&gt;均值归一化&lt;/strong&gt;。特征缩放涉及将输入值除以输入变量的范围（即最大值减去最小值），从而产生仅1的新范围。均值归一化涉及从该值中减去输入变量的平均值。输入变量导致输入变量的新平均值仅为零。要实现这两种技术，请调整输入值，如下面的公式所示：&lt;/p&gt;
&lt;p&gt;&lt;img alt="Multiple_Features_03" loading="lazy" src="/2018/04/20/linear-regression-with-multiple-variables-week2/Multiple_Features_03.png"&gt;&lt;/p&gt;
&lt;h2 id="features-and-polynomial-regression"&gt;Features and Polynomial Regression&lt;/h2&gt;
&lt;p&gt;特征和多项式回归不一样，We can improve our features and the form of our hypothesis function in a couple different ways.&lt;/p&gt;
&lt;p&gt;可以通过组合特征生成新的特征，We can &lt;strong&gt;combine&lt;/strong&gt; multiple features into one. For example, we can combine x_1 and x_2 into a new feature x_3 by taking x_1⋅x_2.&lt;/p&gt;
&lt;p&gt;可以通过取平方，立方，平方根等方法增加多项式，We can &lt;strong&gt;change the behavior or curve&lt;/strong&gt; of our hypothesis function by making it a quadratic, cubic or square root function (or any other form).&lt;/p&gt;</description></item><item><title>model and cost function (week1)</title><link>/2018/04/13/model-and-cost-function-week1/</link><pubDate>Fri, 13 Apr 2018 00:00:00 +0000</pubDate><guid>/2018/04/13/model-and-cost-function-week1/</guid><description>&lt;!-- toc --&gt;
&lt;p&gt;[TOC]&lt;/p&gt;
&lt;h1 id="1model-representation"&gt;1.Model Representation&lt;/h1&gt;
&lt;p&gt;定义：给定一个训练数据集，学习一个函数作为预测器（假设函数hypothesis），这个预测器就是模型。&lt;/p&gt;
&lt;p&gt;given a training set, to learn a function h : X → Y so that h(x) is a “good” predictor for the corresponding value of y. this function h is called a hypothesis.&lt;/p&gt;
&lt;p&gt;&lt;img alt="model_representation_01" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/model_representation_01.png"&gt;&lt;/p&gt;
&lt;h1 id="2cost-function"&gt;2.Cost Function&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;损失函数&lt;/strong&gt; 定义：用来衡量假设函数的准确性。&lt;/p&gt;
&lt;p&gt;对给定的输入x，用预测值(h(x)和真实值y的函数f(h(x), y) 计算得，不同的数据和模型有不同的函数。如果预测结果和真实值越接近，则说明模型学习的越好。如下例子：&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_01" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/cost_function_01.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_02" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/cost_function_02.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_03" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/cost_function_03.png"&gt;&lt;/p&gt;
&lt;p&gt;不同的模型参数theta得到不同的模型，对应的损失函数值也不同，通过最小化损失函数来寻找最好的模型。&lt;/p&gt;
&lt;p&gt;对于不同的模型，拥有不同的损失函数曲线图，等高线上面的损失值是相等的，虽然模型参数值可能不同。&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_04" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/cost_function_04.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_05" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/cost_function_05.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="cost_function_06" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/cost_function_06.png"&gt;&lt;/p&gt;
&lt;h1 id="3gradient-descent"&gt;3.Gradient Descent&lt;/h1&gt;
&lt;p&gt;梯度下降：每个模型有对应的模型参数，损失函数用来衡量模型与数据之间的匹配程度。为了让模型更加的匹配数据，需要对模型参数进行调整，而&lt;strong&gt;梯度下降是一种更新模型参数的方法&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;img alt="gradient_descent_01" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/gradient_descent_01.png"&gt;&lt;/p&gt;
&lt;p&gt;注意：在更新参数的时候，计算偏导数 Partial derivative 的时候，使用的是本轮迭代参数更新之前的参数，而不是前面更新了参数，立马在后面的求偏导数中使用更新的参数计算。&lt;/p&gt;
&lt;p&gt;&lt;img alt="gradient_descent_02" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/gradient_descent_02.png"&gt;&lt;/p&gt;
&lt;p&gt;对于学习率的选择：&lt;/p&gt;
&lt;p&gt;&lt;img alt="learning_rate_01" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/learning_rate_01.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt="learning_rate_02" loading="lazy" src="/2018/04/13/model-and-cost-function-week1/learning_rate_02.png"&gt;&lt;/p&gt;
&lt;h2 id="gradient-descent-for-linear-regression"&gt;Gradient Descent For Linear Regression&lt;/h2&gt;
&lt;p&gt;看公式：&lt;/p&gt;</description></item></channel></rss>