奇异值分解线性代数狄 利 克 雷 分狄利克雷极大似然估计误差逆传播算法SVR凸函数AI考研 855🌐https://github.com/aimacode/aima-python- [ ] 西瓜书 - [ ] 西瓜书正文 - [ ] 西瓜书习题- [ ] 南瓜书- [ ] 统计学习方法- [ ] Deenlearning 500 Questions“类内散度矩阵”(within-class scatter matrix)散度KL散度“广义瑞利商”(generalized Rayleigh quotient)“类间散度矩阵"(between-class scatter matrix)贝叶斯决策理论勒让德拉格朗日拉普拉斯决策树“纯度”(purity)最优划分属性“信息熵"(information entropy)样本数越多的分支结点的影响越大“纯度提升”ID3决策树Iterative Dichotomiser (迭代二分器)对可取值数目较多的属性有所偏好,C4.5决策树“信息增益”(information gain)“增益率”(gain ratio对可取值数目较少的属性有所偏好先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。“基尼指数"(Gini index)CART 决策树剪枝(pruning)过拟合“预剪枝”(prepruning)“后剪枝"(postpruning)多变量决策树对属性的线性组合进行测试“挤压函数”(squashing unction).感知机(Perceptron)线性可分(linearly separable)收敛(converge)震荡(fuctuation)“多层前馈神经网络"(multi-layer feedforward neural networks),“前馈”:无环误差逆传播(error BackPropagation,简称 BP)算法梯度下降(gradient escent)最小化训练集D上的累积误差累积 BP算法对不同样例进行更新的效果可能出现“抵消”现象“试错法”(trial-by-error)过拟合“ 早停”(early stopping一种策略是“ 早停”(early stopping):将数据分成训练集和验证集, 训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高, 则停止训练, 同时返回具有最小验证集误差的连接权和阈值.在误差目标函数中增加一个用于描述网络复杂度的部分,拉格朗日乘子法正则化权重衰减贝叶斯概率论=降低过拟合=减少泛化误差概念正则表达式:无关。起名巧合误区实例(用)L1、L2(范数进行)正则化Dropout理解角度局部/全局最小多个不同的初始点开始搜索“模拟退火”(simulated nnealing随机梯度下降遗传算法(genetic algorithms)Boltzmann机对比散度" (Contrastive DivergencSVM对偶问题SMO (Sequential Minimal Optimization二次规划单变量二次规划问题有闭式解核函数间隔线性可分/不可分核矩阵(kernel matrix) K 总是半正定的线性组合直积“软间隔”(soft argin)“0/1损失函数”损失函数SVR“稀疏表示"(sparse representation)“稀疏性”(sparsity)L0范数“核方法”(kernel methods)众包(crowdsourcing).矩阵求导、矩阵运算贝叶斯网络爬山算法计算步长、收敛速度马尔科夫不等式Penalizing Large WeightBagging对同一样本用多个模型投票Boosting多个弱分类器增强分类能力,降低偏差Dropconnection/Dropout欠拟合增加训练轮数选【结构风险+C经验风险】最小的模型PAC概率近似正确学习理论表示定理核线性判别分析KLDA“再生核希尔伯特空间”(Reproducing Kernel Hilbert Space,简称 RKHS)贝叶斯判定准则(Bayes decision rule)贝叶斯最优分类器(Bayes optimal classifier),贝叶斯风险(Bayes risk极大似然估计“生成式模型”(generative models). P(x,c)“判别式模型"(discriminative models)直接建模 P(c|x)来预测c朴素贝叶斯分类器拉普拉斯修正平滑避免其他属性携带的信息被训练集中未出现的属性值抹去“懒惰学习”(lazy learning)增量学习半朴素贝叶斯分类器“独依赖估计"(One-Dependent Estimator,简称ODE)Super-Parent交叉验证SPODE(Super-Parent DE)方法TAN (Tree Augmented naive Bayes)最大带权生成树(maximum weighted panning tree)算法条件互信息(conditional utual nformation)神经网络线性模型Adaboost随机森林=Bagging+决策树GBDT贝叶斯模型图模型线性回归多元线性回归最小二乘法岭回归 Ridge(岭)回归对数几率回归(分类算法)多分类OvOOvRMvM纠错输出码(ECOC)编码解码类别不平衡假设训练集是真实样本总体的无偏采样再缩放欠采样”(undersampling)“过采样"(oversampling“阈值移动”(threshold-moving).SMOTE插值EasyEnsemble 集成学习代价敏感学习”(cost-sensitive leaning)DAG (Directed Acyclic Graph)拆分法“误分类代价”(misclassification cost数据增强减少模型学习样本比例的先验信息二项分布:Sigmod多项分布:SoftmaxLASSO用L1来近似L0AODE(Averaged ne-Dependent stimator)尝试将每个属性作为超父来构建 SPODE贝叶斯网(Bayesian network)概率图模型有向无环图(Directed cyclic Graph,简称 DAG)条件概率表(Conditional Probability able,简称 CPT)来集成学习BoostingBaggingAdaBoost随机森林贝叶斯分类器贝叶斯决策论EM算法“隐变量”(latent variable)E:Expectation高斯核=RBF核(Radial Basis Function Kernel,径向基函数核)M:MaximizationQ函数聚类 (Clustering)不相交的簇=硬聚类可相交的簇=软聚类性能度量簇内相似度高,且簇间相似度低外部指标 (external index)Jaccard 系数,FM 指数,Rand 指数内部指标 (internal index)DB 指数,Dunn 指数是否与某个“参考模型”(reference model)进行比较是否可相交距离闵可夫斯基距离(Minkowski distance)p=2:欧氏距离(Euclidean distance).p=1:曼哈顿距离(Manhattan distance)聚类方法原型聚类 (原型=簇中心,有簇中心的聚类方法)密度聚类 (划成多个等价类,未必有簇中心)OPTICS, DENCLUE学习向量量化(LVQ),高斯混合聚类层次聚类 (聚类效果跟抽象的粒度有关,形成多层次聚类)DIANA (自顶向下)k-medoids算法:距离它最近的样本点为原型k均值聚类:以均值向量为原型DBSCANAGNES (自底向上)降维多维缩放方法(MDS)PCA(主成分分析)去噪非线性降维线性降维KPCA等度量映射(Isometric Mapping,Isomap)半监督学习聚类假设(clustering assumption)未标记样本的假设流形假设(manifold assumption)假设数据分布在一个流形结构上,邻近的样本具有相似的输出值。生成式方法假设样本由高斯混合模型生成半监督SVMTSVM (Transductive Support Vector Machine)图半监督学习概率图模型有向图:贝叶斯网无向图:马尔可夫网隐马尔可夫模型 (Hidden Markov Model,HMM)马尔可夫随机场 (Markov Random Field,MRF)条件随机场 (Conditional Random Field,CRF)吉布斯采样(Gibbs sampling)时子延 QQ:189187327szy@nnu.edu.cn流形学习LDA线性判别分析无监督学习监督学习强化学习策略选代价值迭代蒙特卡罗算法时序差分算法SARSA算法Q学习时子延学机器学习OvA:One vs All:k类要训练k个分类器——是不是第i类多层感知机(MLP)=ANN激活函数:多层感知机(MLP)Sigmoidtanh()tanh在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。无约束优化问题梯度下降法批量梯度下降法(Batch Gradient Descent)随机梯度下降法(Stochastic Gradient Descent)小批量梯度下降法(Mini-batch Gradient Descent)牛顿法拟牛顿法交叉熵GBDTLDA(线性判别分析)QDA(二次判别分析)Fisher判别分析协方差矩阵度量学习的目标是什么?LMNN算法中三元组损失是什么?如何计算?度量学习=相似度学习通过线性变换的度量学习度量学习的非线性模型。目标:学习一个距离度量,使得在该度量下,相似的样本(通常指同类样本)在特征空间中的距离尽可能小,而不相似的样本(通常指不同类样本)在特征空间中的距离尽可能大。分类大边际近邻嵌入(Large Margin Nearest Neighbor,LMNN)三元组损失迹(trace)奇异值分解广义特征值问题相似矩阵具有相同的迹计算特征值:矩阵的迹等于其所有特征值的和方便矩阵求导:求解梯度、梯度下降法拉格朗日乘子法二次规划(Quadratic Programming,简称 QP)半正定规划(Semi-DefiLnite Programming,简称SDP)梯度下降法(gradient escent)坐标下降法(coordinate descent)非梯度优化方法狄利克雷分布(Dirichlet distribution共轭分布(conj gate istribution).KL散度(Kullback-Leibler divergence)=相对熵(relative entropy)=信息散度(information ivergence)存在噪音和孤立点时, K-medoids 比 K-means 更鲁棒小数据集工作得很好, 但不能很好地用于大数据集验证集用于模型训练过程中的调参和选择测试集用于模型训练结束后的评估