ml
  • Introduction
  • 机器学习基础
    • 机器学习基础_距离
    • 机器学习基础_概率论基础
    • 机器学习基础_线性代数基础
    • 机器学习基础_微积分基础
    • 机器学习基础_最优化理论
    • 机器学习基础_损失函数
  • 特征工程
    • 特征工程_归一化
    • 特征工程_编码
    • 特征工程_特征组合
    • 特征工程_特征选择
    • 特征工程_文本表示模型
    • 特征工程_图像增强
  • 模型评估
    • 模型评估_评估指标
    • 模型评估_AB测试
    • 模型评估_过拟合和欠拟合
    • 模型评估_超参数选择
    • 模型评估_模型评估方法
  • 降维
    • 降维_PCA主成分分析
    • 降维_LDA线性判别分析
  • 监督学习
    • 监督学习_朴素贝叶斯分类
    • 监督学习_决策树
    • 监督学习_K近邻法
    • 监督学习_支持向量机
    • 监督学习_CRF
  • 非监督学习
    • 非监督学习_K均值
    • 非监督学习_Mean_Shift均值漂移聚类
    • 非监督学习_DBSCAN基于密度的聚类方法
    • 非监督学习_Hierarchical_Clustering层次聚类
    • 非监督学习_Spectral_Clustering谱聚类
  • 半监督学习
  • 集成学习
  • 强化学习
Powered by GitBook
On this page
  • 背景
  • 系列相关
  • HMM
  • MEMM
  • CRF
  • 马尔科夫性
  • 团和最大团

Was this helpful?

  1. 监督学习

监督学习_CRF

Previous监督学习_支持向量机Next非监督学习

Last updated 3 years ago

Was this helpful?

[TOC]

背景

系列相关

分类问题根据是否引入概率分为了硬分类和软分类

  • SVM(几何间隔)、PLA(感知机)、LDA(类间大, 类内小)

  • 概率判别模型

    • Logistic Regression (对p(y∣x)p(y|x)p(y∣x)建模,二分类)(多分类的话就是softmax) -> 都是最大熵模型(给定均值和方差,Gaussian Dist熵最大,做分类时可以看成对数线性模型)

    • MEMM(打破了HMM的观测独立假设,但会引起Label bias Problem,原因是局部归一化引起的)

    • CRF的提出就是为了解决MEMM的标注偏差问题(变成了无向图, 也就是全局归一化 )

  • 概率生成模型

    • Naive Bayesian(朴素贝叶斯二分类转序列的时候就是HMM,对p(x,y)p(x,y)p(x,y)建模)

      p(x∣y=1/0)=∑i=1pp(xi∣y=0/1)p(x|y=1/0)=\sum_{i=1}^{p}{p(x_i|y=0/1)}p(x∣y=1/0)=i=1∑p​p(xi​∣y=0/1)
    • Gaussian Mixture Model(加入时间的话就是HMM)

    • Hidden Markor Model

      1)齐次Markor 2)观测独立

HMM

λ=(π,A,B)\lambda = (\pi,A,B)λ=(π,A,B)

1)齐次Markor(链条的长度为1 给定3的时候 4和2条件独立)

齐次 是1-4的的转移概率是相同的

p(yt∣y1:t−1,x1:t−1)=p(yt∣yt−1)p(y_t|y_{1:t-1},x_{1:t-1})=p(y_t|y_{t-1})p(yt​∣y1:t−1​,x1:t−1​)=p(yt​∣yt−1​)

2)观测独立假设

p(xt∣y1:t,x1:t−1)=p(xt∣yt)p(x_t|y_{1:t},x_{1:t-1})=p(x_t|y_t)p(xt​∣y1:t​,x1:t−1​)=p(xt​∣yt​)

建模对象: P(X,Y∣λ)P(X,Y|\lambda)P(X,Y∣λ)

P(X,Y∣λ)=∏t=1TP(xt,yt∣λ)=∏t=1TP(yt∣yt−1,λ)P(xt∣yt,λ)P(X,Y|\lambda)=\prod_{t=1}^{T}{P(x_t,y_t|\lambda)}=\prod_{t=1}^{T}{P(y_t|y_{t-1},\lambda)}P(x_t|y_t,\lambda)P(X,Y∣λ)=t=1∏T​P(xt​,yt​∣λ)=t=1∏T​P(yt​∣yt−1​,λ)P(xt​∣yt​,λ)

NB->HMM(观测独立假设不合理,例子 垃圾邮件分类,应该和每个单词都有关系)

MEMM

建模对象P(Y∣X,λ)P(Y|X,\lambda)P(Y∣X,λ)

P(Y∣X,λ)=∏t=1Tp(yt∣tt−1,x1:t,λ)P(Y|X,\lambda)=\prod_{t=1}^{T}p(y_t|t_{t-1},x_{1:t},\lambda)P(Y∣X,λ)=t=1∏T​p(yt​∣tt−1​,x1:t​,λ)

打破了观测独立假设


CRF

马尔科夫性

无向图随机变量之间满足三种性质

  • 成对马尔科夫性

    设uuu和vvv是无向图GGG中任意两个没有边连接的节点,节点uuu和vvv分别对应随机变量YuY_uYu​和YvY_vYv​。其他所有节点为OOO,对应的随机变量是YoY_oYo​。成对马尔可夫性是指给定随机变量组YoY_oYo​的条件下随机变量YuY_uYu​和YvY_vYv​是条件独立的,即

    P(Yu,Yv∣Yo)=P(Yu∣Yo)P(Yv∣Yo)P(Y_u,Y_v|Y_o)=P(Y_u|Y_o)P(Y_v|Y_o)P(Yu​,Yv​∣Yo​)=P(Yu​∣Yo​)P(Yv​∣Yo​)
  • 局部马尔科夫性

    设v∈Vv \in Vv∈V是无向图GGG中任意一个节点,WWW是与vvv有边连接的所有节点,OOO是vvv、WWW以外的其他所有节点。vvv表示随机变量是YvY_vYv​,WWW表示的随机变量组是YWY_WYW​,OOO表示的随机变量组是YoY_oYo​。局部马尔可夫性是指在给定随机变量组YWY_WYW​的条件下随机变量YvY_vYv​与随机变量组YoY_oYo​是独立的,即

    P(Yv,Yo∣YW)=P(Yv∣YW)P(Yo∣YW)P(Y_v,Y_o|Y_W)=P(Y_v|Y_W)P(Y_o|Y_W)P(Yv​,Yo​∣YW​)=P(Yv​∣YW​)P(Yo​∣YW​)
  • 全局成对马尔科夫性

    设结点集AAA,BBB在无向图GGG中被结点集合CCC分开的任意结点的集合,具体如下图所示

    则在给定了集合C的条件下结点集合A和B之间是相互独立的,具体表达式如下

    P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)P(YA​,YB​∣YC​)=P(YA​∣YC​)P(YB​∣YC​)

仔细观察发现这三种性质实质上是等价的,成对马尔科夫性和局部马尔科夫性都可以看作是全局马尔科夫性的特殊形式。

那这三种性质提出来有什么用呢?

首先满足这三种性质的联合概率分布P(Y)P(Y)P(Y)可以称为马尔科夫随机场或者概率无向图模型。

而对于马尔科夫随机场,可以将联合概率分布P(Y)P(Y)P(Y)拆分成多个因子的乘积,这样就便于计算P(Y)P(Y)P(Y)。

团和最大团

团(clique)就是一个无向图的完全子图,既然是完全图,当然每对顶点之间都必须要有边相连。

团:无向图的完全子图。 完全图:完全图是一个简单的无向图,其中每对不同的顶点之间都恰连有一条边相连。

比如这里的{0、5}就是一个团,它就是原图的一个完全子图,并且结点之间连接,当然{0、4、5},{1、2、4}同样也是团,团里面的结点都必须是互相连接的。还有许多的团并没有全部列举出来,比如{0、4},{1、2},{4、3}等等。

最大团就是就是结点数最多的极大团

团、极大团、最大团
一文理解条件随机场CRF
如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
机器学习-白板推导系列(十七)-条件随机场CRF(Conditional Random Field)
机器学习之CRF条件随机场
【NLP】从隐马尔科夫到条件随机场
13张动图,彻底看懂马尔科夫链、PCA和条件概率
异世界.png
image-20200621172033178
image-20200621204056415
image-20200621203809686
image-20200621192937546
image-20200621204627938
img
img
img
image-20200621194925342