《机器学习实战》笔记

2023-09-22 11:00:22

《机器学习实战》笔记一:K近邻 KNN

    • K近邻算法概述:工作原理,一般流程;

    • KNN示例:加载数据,分析数据,数据归一化,定义KNN算法,划分数据集,训练测试,使用算法构建完整可用系统;

《机器学习实战》笔记二:决策树

    • 决策树构造:伪代码,一般流程,信息增益,划分数据集,递归构造决策树;

    • 测试和存储决策树:使用决策树执行分类,决策树存储;

《机器学习实战》笔记三:朴素贝叶斯

    • 基于贝叶斯决策理论的分类方法:贝叶斯准则,使用条件概率进行分类;

    • 使用朴素贝叶斯进行文档分类:朴素贝叶斯一般过程,假设条件;

    • 使用Python进行文本分类:从文本中构建词向量,从词向量中计算概率,根据现实情况修改分类器,文档词袋模型;

    • 示例:使用朴素贝叶斯过滤垃圾邮件;

《机器学习实战》笔记四:逻辑回归

    • 逻辑回归一般过程;

    • 基于逻辑回归和Sigmod函数的分类;

    • 基于最优化方法的最佳回归系数确定:梯度上升法,使用梯度上升寻找最佳参数,绘制决策边界,随机梯度上升,处理数据中的缺失值的方法,模型预测;

《机器学习实战》笔记五:支持向量机 SVM

    • 基于最大间隔分隔数据;

    • 寻找最大间隔;

    • SMO高效优化算法:SMO算法,应用简版SMO算法处理小规模数据集;

《机器学习实战》笔记六:AdaBoost 自适应提升树

    • 基于数据集多重采样的分类器:集成方法的多种形式,bagging,boosting,Adaboost算法流程;

    • 基于单层决策树构建弱分类器:构建数据集,构建单层决策树;

    • 完整Adaboost实现;

    • 基于Adaboost的分类;

    • 在马疝病数据集上应用AdaBoost:加载数据;训练集训练Adaboost,测试集预测,观察随着分类器的个数的增加,算法的训练和测试效果;

    • 非均衡分类问题:其他分类性能度量指标(正确率、召回率、ROC曲线),基于代价函数的分类器决策控制,处理非均衡问题的数据抽样方法(欠采样,过采样);

《机器学习实战》笔记七:线性回归

    • 用线性回归找到最佳拟合直线:回归的一般方法,最小二乘法求解回归方程,python实现线性回归;

    • 局部加权线性回归:训练,测试,评估拟合效果;

    • 缩减数据来理解数据:岭回归;Lasso回归,前向逐步回归;

    • 权衡偏差与方差:

《机器学习实战》笔记八:树回归

    • 树回归:优点,缺点,一般流程;

    • 将CART算法用于回归:加载数据,查看数据分布,二元切分法,构建数据集切分函数,构建回归树,查看切分后数据集分布,测试其他数据集;

    • 树剪枝:预剪枝,后剪枝;

    • 模型树:分段线性数据集,模型树的叶节点生成函数,生成模型树,绘制数据集划分边界,使用模型树对新数据集进行预测;

《机器学习实战》笔记九:K-means聚类

    • K-means算法:工作流程,伪代码,一般流程,加载数据,构建k-means支持函数,构建k-means算法,查看簇分布;

    • 使用后处理提升聚类性能:如何才能直到生成的簇比较好?k选择多少才合适?

    • 二分k-means算法:加载数据,构建二分k-means算法,查看树分布;

《机器学习实战》笔记十:Apriori 关联分析

    • 关联分析:频繁项集,关联规则,支持度,可信度或置信度;

    • Apriori原理:一般过程,Apriori原理;

    • 使用 Apriori 算法来发现频繁项集:生成候选项集,组织完整的Apriori算法;

    • 从频繁项集中挖掘关联规则:可信度,一个频繁项集可以产生多少条关联规则,生成关联规则,示例:发现毒蘑菇的相似特征;

《机器学习实战》笔记十一:使用 FP-growth 算法来高效发现频繁项集

    • FP树用于编码数据集的有效方式:FP树,FP树示例说明,FP-growth 算法工作流程,FP-growth 一般流程;

    • 构建FP树:FP树类的定义,构建FP树;

    • 从一棵FP树中挖掘频繁项集:抽取条件模式基,创建条件 FP 树;

《机器学习实战》笔记十二:PCA 主成分分析

    • 降维技术:主成分分析,因子分析,独立成分分析;

    • PCA:移动坐标系,在 numpy 中实现 PCA(数据准备,PCA 算法),示例:利用 PCA 对半导体制造数据降维(加载数据,使用 PCA 对数据降维,分析特征值结果,绘制总方差的百分比);

《机器学习实战》笔记十三:SVD 奇异值分解

    • SVD的应用:隐性语义索引,推荐系统;

    • 矩阵分解;

    • 利用 Python 实现 SVD:使用numpy直接对矩阵进行奇异值分解,在更大的数据集上进行更多的分解,使用奇异值信息重构原始矩阵;

    • 基于协同过滤的推荐引擎:相似度计算,基于物品的相似度还是基于用户的相似度,推荐引擎评价;

    • 示例:餐馆菜肴推荐引擎:推荐未尝过的菜肴,利用 SVD 提高推荐的效果,构建推荐引擎面临的挑战;

    • 基于 SVD 的图像压缩;

更多推荐

企业商标信息API:品牌管理的秘密武器

引言当今数字时代,品牌管理变得比以往任何时候都更具挑战性。企业需要不断创新、保护知识产权、实时监测市场动态以及应对竞争压力。在这个竞争激烈的环境中,企业商标信息API已经成为品牌管理的秘密武器,为企业提供了无可估量的价值。企业商标信息API的作用企业商标信息API是一种应用程序接口,它允许企业访问商标数据库中的关键数据

生产制造业厂家固定资产怎么管理

固定资产的管理对于企业的运营效率和盈利能力具有重要影响。然而,传统的固定资产管理方法往往存在许多问题,如资产的低效使用、维护成本高昂以及决策者对资产价值缺乏准确了解等。        因此,我们需要采用一种全新的方式来管理我们的固定资产。本

MySQL常见面试题(一)

😀前言在数据库管理系统中,存储引擎起着核心的角色,它决定了数据管理和存储的方式。MySQL作为一个领先的开源关系型数据库管理系统,提供了多种存储引擎来满足不同的需求和优化不同的应用。除了选择合适的存储引擎,数据库的设计还涉及到范式设计和表设计,这两者都对数据库的性能和数据一致性有深远的影响。在本文中,我们将探讨MyS

清易低功耗智能雨量监测站概述

一、低功耗智能雨量监测站概述产品概述低功耗智能雨量监测站基于智能传感、无线通信、智能处理与智能控制等物联网技术的开发,利用智能传感技术,通过传感器测量降雨量,并使用物联网进行传输。无需专门的通信线路,在联网的状态下,数据可快速、主动的上报到云平台,用户可在电脑或手机,随时随地浏览数据。二、技术参数测量参数降雨量◇测量范

Faunadb

Faunadb和googlespanner都属于云分布式数据库天然支持分片(无需做分表分库操作,一库搞定,当然价格另说),国内的也有比如TiDBOceanbase等本文使用java语言,其他语言可以跳过;有想直接使用的可以参考(无法访问外网,可以搞个vpn吧!!!,有时会遇到网络问题):GitHub-fauna/fau

WebGIS开发教程:Cesium里面的Entity和primitive有什么区别

EntityEntity是Cesium中最重要的概念之⼀,它通常用于描述具有坐标位置的实际对象,例如⻜机、汽⻋、楼房、⼈物等。每个Entity实例都有不同的属性,例如位置、姿态、缩放、颜⾊、贴图等,并且可以通过编程⽅式创建、修改、删除。Entity的优点是⾮常灵活和易于使用。由于Entity是更⾼层次的概念,因此它可以

Vue中如何进行跨域处理

Vue中的跨域请求处理:解决前端开发中的常见问题跨域请求是前端开发中常见的问题之一。Vue.js是一款流行的前端框架,如何在Vue中处理跨域请求是每个Vue开发者都需要了解的重要课题。本文将深入探讨什么是跨域请求,为什么它会出现,以及如何在Vue中处理跨域请求,包括使用代理、JSONP、CORS等方法。什么是跨域请求?

开源网安入选广东省网络空间安全标准化技术委员会新技术及应用安全技术工作组成员单位

近日,第二届广东省网络空间安全标准化技术委员会(GD/TC124)(以下简称省网安标委)正式成立。为进一步发挥省网安标委在支撑网络强国建设、推进网络安全产业高质量发展过程中,示范引领核心技术攻关、创新产品研发、行业应用推广的重要作用,由省网安标委秘书处拟牵头组建数据安全技术工作组、网络安全技术工作组、新技术及应用安全技

GDPU 数据结构 天码行空3

一、【实验目的】1、掌握建立单链表的基本方法。2、掌握单链表的插入、删除算法的思想和实现二、【实验内容】仿照教材中的单链表实现例子,自己设计一个有序单链表,单链表中的数据元素为整型并递增有序。有序单链表的定义:逻辑结构:有序线性表,数据元素递增有序存储结构:链式操作集合:初始化、插入、删除、撤销(1)ListIniti

JavaWeb 学习笔记 6:会话跟踪

JavaWeb学习笔记6:会话跟踪HTTP协议本身是无状态的,所以不能跟踪会话状态。所以会有额外的技术用于跟踪会话:Cookie,客户端技术Session,服务端技术1.Cookie1.1.写入Cookie可以在服务端通过HttpServletResponse.addCookie向浏览器写入Cookie:@WebSer

C++11之基础篇

C++11C++11简介统一的列表初始化{}初始化std::initializer_list声明autodecltypenullptr范围for循环STL中一些变化arrayforward_listunderored_map,underored_setC++11简介在2003年C++标准委员会曾经提交了一份技术勘误表(

热文推荐