监督学习(Supervised Learning)包括分类算法(Classification)和回归算法(Regression)两种,它们是根据类别标签分布的类型来定义的 。回归算法用于连续型的数据预测,分类算法用于离散型的分布预测 。回归算法作为统计学中最重要的工具之一,它通过建立一个回归方程用来预测目标值,并求解这个回归方程的回归系数 。
一.回归1.什么是回归回归(Regression)最早是英国生物统计学家高尔顿和他的学生皮尔逊在研究父母和子女的身高遗传特性时提出的 。1855年,他们在《遗传的身高向平均数方向的回归》中这样描述“子女的身高趋向于高于父母的身高的平均值,但一般不会超过父母的身高”,首次提出来回归的概念 。现在的回归分析已经和这种趋势效应没有任何瓜葛了,它只是指源于高尔顿工作,用一个或多个自变量来预测因变量的数学方法 。
图1是一个简单的回归模型,X坐标是质量,Y坐标是用户满意度,从图中可知,产品的质量越高其用户评价越好 , 这可以拟合一条直线来预测新产品的用户满意度 。
在回归模型中,我们需要预测的变量叫做因变量 , 比如产品质量;选取用来解释因变量变化的变量叫做自变量,比如用户满意度 。回归的目的就是建立一个回归方程来预测目标值,整个回归的求解过程就是求这个回归方程的回归系数 。
简言之,回归最简单的定义就是:
给出一个点集,构造一个函数来拟合这个点集 , 并且尽可能的让该点集与拟合函数间的误差最小 , 如果这个函数曲线是一条直线,那就被称为线性回归,如果曲线是一条三次曲线,就被称为三次多项回归 。
2.线性回归首先,作者引用类似于斯坦福大学机器学习公开课线性回归的例子,给大家讲解线性回归的基础知识和应用,方便大家的理解 。同时,作者强烈推荐大家学习原版Andrew Ng教授的斯坦福机器学习公开课,会让您非常受益 。
假设存在表1的数据集 , 它是某企业的成本和利润数据集 。数据集中2002年到2016年的数据集称为训练集 , 整个训练集共15个样本数据 。重点是成本和利润两个变量 , 成本是输入变量或一个特征 , 利润是输出变量或目标变量,整个回归模型如图2所示 。
现建立模型,x表示企业成本,y表示企业利润 , h(Hypothesis)表示将输入变量映射到输出变量y的函数 , 对应一个因变量的线性回归(单变量线性回归)公式如下:
那么 , 现在要解决的问题是如何求解的两个参数和 。我们的构想是选取的参数和使得函数尽可能接近y值 , 这里提出了求训练集(x,y)的平方误差函数(Squared Error Function)或最小二乘法 。
在回归方程里,最小化误差平方和方法是求特征对应回归系数的最佳方法 。误差是指预测y值和真实y值之间的差值 , 使用误差的简单累加将使得正差值和负差值相互抵消,所采用的平方误差(最小二乘法)如下:
在数学上,求解过程就转化为求一组值使上式取到最小值,最常见的求解方法是梯度下降法(Gradient Descent) 。根据平方误差,定义该线性回归模型的损耗函数(Cost Function)为,公式如下:
推荐阅读
- 医保查询+参保登记+缴费 肇庆粤医保小程序操作指南
- 青海大学附属医院单管核酸报告在哪里查询?
- 微信怎么查看银行卡余额 微信怎么查看银行卡余额查询
- 可以查询别人的社保吗? 可以查询别人的社保吗怎么查
- 常州社保查询个人账户缴费明细
- 男人约你动机查询表 男人约会动机查询表
- 收到违章短信但是12123上查询不到 12123上查询不到违章信息讲解
- 招行信用卡账单怎么查询 招行信用卡账单怎么查询不到
- 上海大众4s店 上海大众4s店地址查询
- 常州社保查询个人账户