机器学习

前置知识

对着知识提纲名字逐个在 CSDN/知乎/StackOverflow 搜索进行学习,而非啃书或者看视频,效率更高
掌握常用的各种机器学习与模式识别算法,如决策树、神经网络、支持向量机、贝叶斯分类器、集成学习等,并运用Python等语言实现相关算法


《西瓜书》
并行计算
经验,性能 数据挖掘 信息过滤 自动驾驶
统计学 信息论 计算复杂性 贝叶斯分析
神经网络 决策树
竞争学习

aistudio

X = data.drop(
			  data.columns[-1], # get name of the tatget variate
			  axis=1 # remove column
			  )
  • 处理数据集中的数据缺失问题
  • boosting tree

  • GBDT(Gradient Boosting Decision Tree) = 梯度下降 + Boosting + 决策树

  • XGBoost = 二阶泰勒展开+boosting+决策树+正则化

  • stacking

  • 小样本学习 增量学习

  • 数据增强 data augmentation

  • 朴素贝叶斯

    • 文本分类
      • 拉普拉斯平滑:避免出现概率为0的情况
      • 高精度浮点运算的局限
      • 黑名单 排除
      • 文本向量化
      • 分词

考试

简单的线性回归容易造成高偏差(bias)、低方差(variance)
  • 低方差:在各个不同的数据集上表现稳定地差
  • 如果模型复杂度高,则容易对训练数据过拟合,因此在不同的数据集上表现差异较大,方差较高。