奇异值分解
线性代数
狄 利 克 雷 分
狄利克雷
极大似然估计
误差逆传播算法
SVR
凸函数
AI考研 855
🌐https://github.com/aimacode/aima-python
- [ ] 西瓜书
- [ ] 西瓜书正文
- [ ] 西瓜书习题
- [ ] 南瓜书
- [ ] 统计学习方法
- [ ] Deenlearning 500 Questions
“类内散度矩阵”(within-class scatter matrix)
散度
KL散度
“广义瑞利商”(generalized Rayleigh quotient)
“类间散度矩阵"(between-class scatter matrix)
贝叶斯决策理论
勒让德
拉格朗日
拉普拉斯
决策树
“纯度”(purity)
最优划分属性
“信息熵"(information entropy)
样本数越多的分支结点的影响越大
“纯度提升”
ID3决策树Iterative Dichotomiser (迭代二分器)
对可取值数目较多的属性有所偏好,
C4.5决策树
“信息增益”(information gain)
“增益率”(gain ratio
对可取值数目较少的属性有所偏好
先从候选划分属性中找出信息增益高于平均水平的属性,
再从中选择增益率最高的。
“基尼指数"(Gini index)
CART 决策树
剪枝(pruning)
过拟合
“预剪枝”(prepruning)
“后剪枝"(postpruning)
多变量决策树
对属性的线性组合进行测试
“挤压函数”(squashing unction).
感知机(Perceptron)
线性可分(linearly separable)
收敛(converge)
震荡(fuctuation)
“多层前馈神经网络"(multi-layer feedforward neural networks),
“前馈”:无环
误差逆传播(error BackPropagation,简称 BP)算法
梯度下降(gradient escent)
最小化训练集D上的累积误差
累积 BP算法
对不同样例进行更新的效果可能出现“抵消”现象
“试错法”(trial-by-error)
过拟合
“ 早停”(early stopping
一种策略是“ 早停”(early stopping):将数据分成训练集和验证集, 训练集用
来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但
验证集误差升高, 则停止训练, 同时返回具有最小验证集误差的连接权和阈值.
在误差目标函数中增加一个用于描述网络复杂度的部分,
拉格朗日乘子法
正则化
权重衰减
贝叶斯概率论
=降低过拟合
=减少泛化误差
概念
正则表达式:无关。起名巧合
误区
实例
(用)L1、L2(范数进行)正则化
Dropout
理解角度
局部/全局最小
多个不同的初始点开始搜索
“模拟退火”(simulated nnealing
随机梯度下降
遗传算法(genetic algorithms)
Boltzmann机
对比散度" (Contrastive Divergenc
SVM
对偶问题
SMO (Sequential Minimal Optimization
二次规划
单变量二次规划问题
有闭式解
核函数
间隔
线性可分/不可分
核矩阵(kernel matrix) K 总是半正定的
线性组合
直积
“软间隔”(soft argin)
“0/1损失函数”
损失函数
SVR
“稀疏表示"(sparse representation)
“稀疏性”(sparsity)
L0范数
“核方法”(kernel methods)
众包(crowdsourcing).
矩阵求导、矩阵运算
贝叶斯网络
爬山算法
计算步长、收敛速度
马尔科夫不等式
Penalizing Large Weight
Bagging
对同一样本用多个模型投票
Boosting
多个弱分类器增强分类能力,降低偏差
Dropconnection/Dropout
欠拟合
增加训练轮数
选【结构风险+C经验风险】最小的模型
PAC概率近似正确学习理论
表示定理
核线性判别分析KLDA
“再生核希尔伯特空间”(Reproducing Kernel Hilbert Space,简称 RKHS)
贝叶斯判定准则(Bayes decision rule)
贝叶斯最优分类器(Bayes optimal classifier),
贝叶斯风险(Bayes risk
极大似然估计
“生成式模型”(generative models).
P(x,c)
“判别式模型"(discriminative models)
直接建模 P(c|x)来预测c
朴素贝叶斯分类器
拉普拉斯修正
平滑
避免其他属性携带的信息被
训练集中未出现的属性值抹去
“懒惰学习”(lazy learning)
增量学习
半朴素贝叶斯分类器
“独依赖估计"(One-Dependent Estimator,简称ODE)
Super-Parent
交叉验证
SPODE(Super-Parent DE)方法
TAN (Tree Augmented naive Bayes)
最大带权生成树(maximum weighted panning tree)算法
条件互信息(conditional utual nformation)
神经网络
线性模型
Adaboost
随机森林=Bagging+决策树
GBDT
贝叶斯模型
图模型
线性回归
多元线性回归
最小二乘法
岭回归 Ridge(岭)回归
对数几率回归(分类算法)
多分类
OvO
OvR
MvM
纠错输出码(ECOC)
编码
解码
类别不平衡
假设训练集是真实样本总体的无偏采样
再缩放
欠采样”(undersampling)
“过采样"(oversampling
“阈值移动”(threshold-moving).
SMOTE
插值
EasyEnsemble
集成学习
代价敏感学习”(cost-sensitive leaning)
DAG (Directed Acyclic Graph)拆分法
“误分类代价”(misclassification cost
数据增强
减少模型学习样本比例的先验信息
二项分布:Sigmod
多项分布:Softmax
LASSO用L1来近似L0
AODE(Averaged ne-Dependent stimator)
尝试将每个属性作为超父来构建 SPODE
贝叶斯网(Bayesian network)
概率图模型
有向无环图(Directed cyclic Graph,简称 DAG)
条件概率表(Conditional Probability able,简称 CPT)来
集成学习
Boosting
Bagging
AdaBoost
随机森林
贝叶斯分类器
贝叶斯决策论
EM算法
“隐变量”(latent variable)
E:Expectation
高斯核=RBF核(Radial Basis Function Kernel,径向基函数核)
M:Maximization
Q函数
聚类 (Clustering)
不相交的簇=硬聚类
可相交的簇=软聚类
性能度量
簇内相似度高,且簇间相似度低
外部指标 (external index)
Jaccard 系数,FM 指数,Rand 指数
内部指标 (internal index)
DB 指数,Dunn 指数
是否与某个“参考模型”
(reference model)进行比较
是否可相交
距离
闵可夫斯基距离(Minkowski distance)
p=2:欧氏距离(Euclidean distance).
p=1:曼哈顿距离(Manhattan distance)
聚类方法
原型聚类 (原型=簇中心,有簇中心的聚类方法)
密度聚类 (划成多个等价类,未必有簇中心)
OPTICS, DENCLUE
学习向量量化(LVQ),高斯混合聚类
层次聚类 (聚类效果跟抽象的粒度有关,形成多层次聚类)
DIANA (自顶向下)
k-medoids算法:距离它最近的样本点为原型
k均值聚类:以均值向量为原型
DBSCAN
AGNES (自底向上)
降维
多维缩放方法(MDS)
PCA(主成分分析)
去噪
非线性降维
线性降维
KPCA
等度量映射(Isometric Mapping,Isomap)
半监督学习
聚类假设(clustering assumption)
未标记样本的假设
流形假设(manifold assumption)
假设数据分布在一个流形结构上,
邻近的样本具有相似的输出值。
生成式方法
假设样本由高斯混合模型生成
半监督SVM
TSVM (Transductive Support Vector Machine)
图半监督学习
概率图模型
有向图:贝叶斯网
无向图:马尔可夫网
隐马尔可夫模型(Hidden Markov Model,HMM)
马尔可夫随机场(Markov Random Field,MRF)
条件随机场(Conditional Random Field,CRF)
吉布斯采样(Gibbs sampling)
时子延 QQ:189187327
szy@nnu.edu.cn
流形学习
LDA线性判别分析
无监督学习
监督学习
强化学习
策略选代
价值迭代
蒙特卡罗算法
时序差分算法
SARSA算法
Q学习
时子延学机器学习
OvA:One vs All:k类要训练k个分类器——是不是第i类
多层感知机(MLP)=ANN
激活函数:多层感知机(MLP)
Sigmoid
tanh()
tanh在特征相差明显时的效果会很好,
在循环过程中会不断扩大特征效果。
无约束优化问题
梯度下降法
批量梯度下降法(Batch Gradient Descent)
随机梯度下降法(Stochastic Gradient Descent)
小批量梯度下降法(Mini-batch Gradient Descent)
牛顿法
拟牛顿法
交叉熵
GBDT
LDA(线性判别分析)
QDA(二次判别分析)
Fisher判别分析
协方差矩阵
度量学习的目标是什么?LMNN算法中三元组损失是什么?如何计算?
度量学习=相似度学习
通过线性变换的度量学习
度量学习的非线性模型。
目标:学习一个距离度量,使得在该度量下,
相似的样本(通常指同类样本)在特征空间中
的距离尽可能小,而不相似的样本(通常指不
同类样本)在特征空间中的距离尽可能大。
分类
大边际近邻嵌入(Large Margin Nearest Neighbor,LMNN)
三元组损失
迹(trace)
奇异值分解
广义特征值问题
相似矩阵具有相同的迹
计算特征值:矩阵的迹等于其所有特征值的和
方便矩阵求导:求解梯度、梯度下降法
拉格朗日乘子法
二次规划(Quadratic Programming,简称 QP)
半正定规划(Semi-DefiLnite Programming,简称SDP)
梯度下降法(gradient escent)
坐标下降法(coordinate descent)
非梯度优化方法
狄利克雷分布(Dirichlet distribution
共轭分布(conj gate istribution).
KL散度(Kullback-Leibler divergence)
=相对熵(relative entropy)
=信息散度(information ivergence)
存在噪音和孤立点时, K-medoids 比 K-means 更鲁棒
小数据集工作得很好,
但不能很好地用于大数据集
验证集用于模型训练过程中的调参和选择
测试集用于模型训练结束后的评估
Interactive Graph
Table Of Contents