AI-机器学习

张开发

• 2026/5/21 23:54:21 • 15 分钟阅读

分享文章

机器学习分为监督学习和无监督学习一、什么是监督学习一、核心定义监督学习Supervised Learning 是机器学习最基础、最常用的一类算法。简单一句话模型在「有标准答案」的数据上学习通过输入特征已知标签学会映射规律未来对新数据预测结果。监督有老师监督老师数据里的标签Label / 标准答案学生机器学习模型学习过程不断纠错、拟合规律二、关键组成要素训练数据格式必须成对每一条训练样本都由两部分组成特征Feature / 自变量 X用来描述事物的属性、参数是模型的「输入」标签Label / 因变量 Y事物的结果、答案、目标值是模型的「输出」✅ 标准形式(X,Y) 成对数据2. 学习逻辑给模型喂大量「特征标签」的历史数据模型自动挖掘特征 → 标签之间的隐藏关系 / 数学规律训练完成后只给模型新的特征模型就能自动输出预测标签三、两大核心任务监督学习只分这两类监督学习所有算法只解决分类和回归两大问题。1. 分类问题Classification预测结果是离散、有限的类别 / 选项标签是定性值、枚举值目的划分类别、判断归属例子垃圾邮件识别输入邮件内容特征 → 预测【正常邮件 / 垃圾邮件】2 分类图像识别输入图片像素 → 预测【猫 / 狗 / 鸟】多分类肿瘤检测输入体检指标 → 预测【良性 / 恶性】常见算法逻辑回归、SVM 支持向量机、决策树、随机森林、朴素贝叶斯、CNN 卷积神经网络2. 回归问题Regression预测结果是连续的数值标签是定量值、实数目的预测具体数值、趋势例子房价预测输入面积 / 地段 / 房龄 → 预测具体房价销量预测输入季节 / 广告投入 → 预测下个月销售额气温预测输入湿度 / 气压 / 风速 → 预测明天温度常见算法线性回归、多项式回归、岭回归、Lasso、XGBoost 回归、LightGBM二、无监督学习一**、核心定义**无监督学习训练数据只有输入特征没有标签、没有标准答案没有人为标注结果。模型没人监督、没有正确答案对照自动从海量数据里自己挖掘隐藏规律、结构、分布、相似关系。通俗理解监督学习有老师给答案照着纠错学无监督学习没人给答案自己观察、自己归类、自己找规律二、核心特点数据只有特征 X无标签 Y不靠对错修正靠数据本身的分布、相似度学习无需人工标注成本低适合未知规律、不清楚分类、海量原始数据场景三、主要两大核心任务聚类最常用把特征相似的样本自动分成一群一群同类聚在一起、异类分开。没有提前定义类别模型自己判断谁和谁像举例根据用户消费习惯自动分高消费 / 平价 / 节俭人群把新闻自动分成娱乐、科技、体育电商买家分层、客户分群降维把高维、冗余的复杂数据压缩成低维关键信息保留核心特征、去除噪音。举例几十项商品指标压缩成 2 个关键维度图片像素数据降维方便可视化、加速计算四、其他常见无监督任务关联规则挖掘找出事物间的关联关系例超市购物分析→买面包的人大概率买牛奶异常检测学习正常数据的规律偏离正常分布的就是异常例银行卡异地盗刷、设备故障检测五、无监督学习 VS 监督学习监督学习有标签、有答案 → 做分类、回归预测结果无监督学习无标签、无答案 → 做聚类、降维发现结构六、优缺点优点不用人工标注省钱省力、适合大数据能发现人不知道的隐藏模式通用性强适配未知场景缺点结果无法量化对错解释性差效果往往不如有标签的监督学习精准聚类数量、参数需要人为调试三、线性回归模型一、核心定义线性回归是最简单的监督学习、回归模型。作用用一条直线或超平面拟合「输入特征」和「输出数值」的线性关系用来预测连续数值。二、公式一元线性回归1 个特征ywxbx输入特征y预测值结果w权重斜率b偏置截距多元线性回归多个特征现实常用yw1x1w2x2⋯wnxnb多个因素共同影响结果。三、原理模型先随便给一组w 、b算出预测值和真实值的误差不断调整w 、b让整体误差最小最终得到最优直线用来预测新数据误差常用均方误差 MSE四、举个例子一元x 房屋面积y 房价模型学到房价面积输入新面积直接算出房价。多元房价面积 × 权重房龄 × 权重地段 × 权重基础价五、特点属于监督学习 — 回归任务结构简单、训练快、可解释性极强只适合线性相关的数据容易受异常值影响六、常见用途房价预测、销量预测、薪资预测、气温预测、数据分析拟合。