Bagging,bagging( 二 )


识别正确类型的算法是一个迭代思想的过程 。你、需要不断尝试不同的算法,以最终登陆到高效的算法 。7.自动特征生成特征的质量对最终的机器学习算法的准确性至关重要 。没有机器学习方法可以很好地选择功能不佳的产品 。但是当我们使用深度学习算法时,你不需要特征工程 。由于深度学习不需要提供最佳的功能,因此它可以自行学习 。
如果你正在进行图像分类或手写分类,那么深度学习是适合的 。使用深度学习,图像处理任务已经取得了惊人的成果,在下图可以看到每个图层中如何自动创建功能 。你还可以观察每层之后有多少功能正在变得更好 。8.数据分配和参数调整有效地探索数据总是更好 。数据分布可能意味着转型,数据可能跟随高斯函数或其他函数族,在这种情况下,我们可以应用一点变换的算法来得到更好的预测结果 。
我们可以做的另一件事是微调算法的参数 。即当我们构建随机森林分类器时,我们可以调整要构建的树的数量,选择用于拆分的变量的数量等 。同样,当我们构建深度学习算法时,我们可以指定我们需要多少层,需要多少个神经元 。在每一层中,我们需要哪种激活功能 。如果我们在算法中使用合适的参数类型,调整参数就可以提高模型性能 。
结论:提高机器学习模型的性能很困难 。以上提高性能的方法都是基于经验 。当我们使用集成方法时,需要对算法有全面的了解 。诸如随机森林、Xgboost、SVM和神经网络的算法被用于高性能 。不知道该算法如何能很好地适应训练数据,是获得更高性能的障碍 。所以我们应该始终知道如何根据不同的任务调整算法 。当我们进行参数调整时,应该考虑过度拟合 。
机器学习初学者需要了解的基本算法有哪些?

Bagging,bagging


你应该使用哪种机器学习算法?这在很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标 。不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源 。这里给出了一些最常见的算法,按使用简单程度排序 。1. 决策树(Decision Tree):在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠 。
优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估场景举例:基于规则的信用评估、赛马结果预测2. 支持向量机(Support Vector Machine):基于超平面(hyperplane),支持向量机可以对数据群进行分类 。优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的场景举例:新闻分类、手写识别 。
3. 回归(Regression):回归可以勾画出因变量与一个或多个因变量之间的状态关系 。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分 。优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显场景举例:路面交通流量分析、邮件过滤4. 朴素贝叶斯分类(Naive Bayes Classification):朴素贝叶斯分类器用于计算可能条件的分支概率 。
每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象 。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10 。朴素贝叶斯分类器可以计算多个特征的联合条件概率 。优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类场景举例:情感分析、消费者分类5. 隐马尔可夫模型(Hidden Markov model):显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态 。

推荐阅读