《LDA数学八卦 数学应用》的作者是谁

苹果/安卓/wp
积分 146, 距离下一级还需 114 积分
权限: 自定义头衔
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡下一级可获得
权限: 签名中使用图片
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 55 天连续签到: 1 天[LV.5]常住居民I
标题挂上“八卦”两字, 因为八卦意味着形式自由、不拘束、可以天马行空,细节处理上也难免有不严谨的地方;当然我也希望八卦是相对容易理解的。
LDA是一个在文本建模中很著名的模型。
(2.06 MB, 售价: 1 个论坛币)
11:57:58 上传
数据挖掘统计模型
售价: 1 个论坛币
LDA-math-神奇的Gamma函数(2)LDA-math-认识Beta/Dirichlet分布(2)LDA-math-神奇的Gamma函数(1)LDA-math-认识Beta/Dirichlet分布(1)LDA-math-文本建模LDA-math-MCMC 和 Gibbs Sampling(2)LDA-math-MCMC 和 Gibbs Sampling(1)LDA-math-LDA 文本建模LDA-math-神奇的Gamma函数(3)LDA-math-认识Beta/Dirichlet分布(3)
载入中......
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
论坛法律顾问:王进律师LDA数学八卦
LDA-math 的汇总, “LDA数学八卦.pdf” 我整理贴出来了, 希望对大家理解 LDA 有帮助。 文章标题挂上“八卦”两字, 因为八卦意味着形式自由、不拘束、可以天马行空,细节处理上也难免有不严谨的地方;当然我也希望八卦是相对容易理解的。
本文转载自:
欢迎加入我爱机器学习QQ12群:
微信扫一扫,关注我爱机器学习公众号
欢迎加入我爱机器学习QQ12群:
最新文章列表
NIPS 2016 — Day 1 Highlights NIPS 2016 — Day 2 Highlights:...
2017年六月 &(57)
2017年五月 &(66)
2017年四月 &(65)
2017年三月 &(54)
2017年二月 &(48)
2017年一月 &(54)
2016年十二月 &(62)
2016年十一月 &(97)
2016年十月 &(97)
2016年九月 &(124)
2016年八月 &(83)
2016年七月 &(13)
2016年六月 &(10)
2016年五月 &(7)
2016年四月 &(9)
2016年三月 &(7)
2016年二月 &(2)
2016年一月 &(3)
2015年十二月 &(5)
2015年十一月 &(4)
2015年十月 &(2)
2015年九月 &(2)
2015年八月 &(3)
2015年七月 &(6)
2015年六月 &(8)
2015年五月 &(4)
2015年四月 &(1)
2015年三月 &(3)
2015年二月 &(1)
2015年一月 &(2)
2014年十二月 &(4)
2014年十一月 &(2)
2014年十月 &(3)
2014年九月 &(4)
2014年八月 &(22)
2014年七月 &(40)
2014年六月 &(61)
2014年五月 &(63)
2014年四月 &(187)
2014年三月 &(4799)
2014年二月 &(764)
2014年一月 &(330)
2013年十二月 &(145)
2013年十一月 &(126)
2013年十月 &(216)
2013年九月 &(284)
2013年八月 &(327)
2013年七月 &(275)
2013年六月 &(315)
2013年五月 &(228)
2013年四月 &(175)
2013年三月 &(186)
2013年二月 &(118)
2013年一月 &(210)
2012年十二月 &(221)
2012年十一月 &(155)
2012年十月 &(144)
2012年九月 &(98)
2012年八月 &(99)
2012年七月 &(109)
2012年六月 &(75)
2012年五月 &(88)
2012年四月 &(78)
2012年三月 &(78)
2012年二月 &(50)
2012年一月 &(17)
2011年十二月 &(27)
2011年十一月 &(6)
2011年十月 &(11)
2011年九月 &(13)
2011年八月 &(13)
2011年七月 &(19)
2011年六月 &(18)
2011年五月 &(6)
2011年四月 &(12)
2011年三月 &(15)
2011年二月 &(6)
2011年一月 &(9)
2010年十二月 &(6)
2010年十一月 &(11)
2010年十月 &(5)
2010年九月 &(8)
2010年八月 &(5)
2010年七月 &(12)
2010年六月 &(4)
2010年五月 &(7)
2010年四月 &(6)
2010年三月 &(12)
2010年二月 &(7)
2010年一月 &(2)
2009年十二月 &(5)
2009年十一月 &(16)
2009年十月 &(6)
2009年九月 &(7)
2009年八月 &(7)
2009年七月 &(5)
2009年六月 &(6)
2009年五月 &(6)
2009年四月 &(4)
2009年三月 &(7)
2009年二月 &(6)
2009年一月 &(1)
2008年十二月 &(4)
2008年十一月 &(5)
2008年十月 &(1)
2008年八月 &(1)
2008年七月 &(3)
2008年六月 &(3)
2008年五月 &(3)
2008年三月 &(1)
2007年十二月 &(1)
2007年十月 &(1)
2007年八月 &(4)
2007年七月 &(1)LDA漫游指南马晨_LDA漫游指南全文阅读_百度阅读
简介:@数急 清华大学在读博士,毕业于北京邮电大学硕士,曾任新浪网公司自然语言处理算法工程师,主攻文本分析/N...
计算机热门榜单
& 0手机专享价
扫码免费下载该书再送20元代金券
LDA漫游指南
lda算法漫游指南 pdf,lda漫游指南 pdf,lda算法漫游指南,lda漫游指南第二季,lda算法漫游指南 下载,lda漫游指南下载,lda,lda数学八卦,lda漫游
目录(共11章)
投诉与建议
扫描下载客户端LDA学习摘要
LDA学习摘要
LDA(Latent
Dirichlet Allocation)是现在互联网做数据挖掘比较流行的一个模型,用于文本doc主题的挖掘。有兴趣深入了解的同学可以参考论文Parameter
estimation for text analysis by G. Heinrich和Latent
Dirichlet Allocation by D. M. Blei。
图1 LD graphic model
图1为大家经常看到的LDA图模型,其描述公式可表示为
对于一个文档,LDA产生过程为:
由Dirichlet先验分布求topic的多项式分布参数,即theta
~ Dir(alpha)
Alpha是Dirichlet分布参数,theta=(theta1,
theta2,…, theta_k)是产生topic的多项式分布参数,theta_k表示第k个主题被选择的概率。
根据theta生成一个topic
z,即z~Multinormial(theta)
根据已有的topic,从分布p(w_n|z_n,beta)中选择一个word。
重复步骤(2)和(3),即可生成一篇文档doc。
beta表示一个K个主题、V个单词的K&V矩阵,beta_ij表示有主题z_i生成单词w_j的概率。根据上面描述,图1中的每一过程可进一步如图2细化所示。
图2 LDA graphic model
图2中,三种颜色对应的表示层的简单说明:
Corpus-level(红色):alpha和beta是语料级别参数,对于所有文档都是一样的,在generate过程中只需sample一次;
Document-level(橙色):theta为文档级别参数,每个文档对应的theta不尽相同,对于每一个文档,都要sample一次theta;
Word-level(绿色):z和w是文档级别变量,z有theta产生,然后再与beta生产w,对于每个word,z和w都要sample一次。
2. LDA之骰子游戏
第一节偏理论的描述大家可能看过很多遍了,很多同学或多或少感觉理解总是不那么直观,这里借助掷骰子游戏形象地描述LDA,如图3所示。
说明:对比图2和图3,
图3多了一个dirichlet先验,图2中beta就直接word是多项分布参数,而图3中phi是word的多项分布参数,beta是phi的先验dirichlet分布。
图3 LDA图模型
假设一个doc-topic骰子有K个面,每一个面对应一个主题topic;一个topic-word骰子有V的面,每一个面对一个一个word。
相比于PLSA(Probabilistic Latent Semantic
Analysis)通过投掷固定的骰子得到文档的topic和topic下面的word,贝叶斯学派认为在选定骰子时需要加入一个先验。这个先验就是Dirichlet分布,对应的形象化模型如图4所示。
图4 LDA骰子游戏模型
掷骰子版LDA模型两种表述分别如图5和图6所示。
掷骰子版LDA描述1
掷骰子版LDA描述2
结合图3、图5、图6,LDA可以分解为下面两个物理过程:
本节内容主要参考链接[3].
3. LDA训练与预估
LDA模型的最终目标是对于一个新的文档doc_new,能够计算出这篇分档的topic分布theta_new。为了实现这么目标,需要事先基于语料库训练模型参数alpha和beta,具体的训练样本(z,w)由Gibbs
Sampling[4][5]获得,图7和图8分别描述了LDA的模型训练和模型预估过程。
图7 LDA模型训练
图8 LDA模型预估
4. LDA数学知识
相比于PLSA模型,LDA对多项式分布参数增加了dirichlet分布先验,其原因何在?多项式分布?dirichlet分布?Gibbs
Sampling?
相关内容简单描述如下,感兴趣的同学可以查看相关资料[6][7]。
贝叶斯参数估计的基本过程:后验分布=先验分布+数据知识,而dirichlet分布和多项式分布满足以下关系,即假设先验为dirichlet分布,数据知识为多项式分布,那么后验也是dirichlet分布(dirichlet-multinomial共轭)。先验和后验为同一个分布的优势是:先验对参数假设的物理意义适用于后验,方便理解。
Sampling简单思想:t时刻,固定其余坐标,只在一个坐标轴上采样。
图9 Gibbs Sampling
5. LDA几何理解
借用参考链接[1]对LDA的几何图示解释,增加感性认知。
图10&LDA几何示意图
外面大三角形的三个顶点代表三个word,这三个word组成一个simplex,这个simplex中的一个点就是一个产生这三个word的多项分布的概率密度(三维向量)。具体点来说,例如红色的点p1,它就在word1上。这个意思就是说,p1是一个多项分布,其参数为(1.0,
0, 0),也就是它产生word1的概率为1,产生其它两个word的概率为0。再来看蓝色的点p2,它产生word1的概率正比于它到word1对边的距离(注意可不是到word1那个点的距离哈)。因为正三角形内部任意一点到三边的垂线之和等于高,也就是可以视为等于1。那么正好这个性质满足概率之和等于1。所以p2到三边的垂线非别代表p2产生垂线对面那个顶点的概率。因此,p2产生word
1的概率看起来像是0.1,
word2的概率像是0.4,word3像是0.5。
了解了上面这层意思之后,再看topic simplex。它是包含在word
simplex里面的(sub-simplex),所以topic
simplex上的一点同时也是word
simplex上的一个点。这样topic
simplex上的一个点,就有了两层含义,一层含义是它是一个产生word的多项分布概率密度,另一层含义就是它是产生topic的多项分布概率密度。在这个图上,还可以发现topic的点相对于word
simplex是已经固定的,其实这topic
上的三个顶点到word simplex上的三个顶点对边垂直线总共9个距离,也就是9个概率值,正好是一个3&3的矩阵,这个矩阵就是LDA中的beta参数。
知道了这些之后,我们就可以来看mixture of unigrams在图上应该怎么表示了。还记得mixture
of unigrams是要先选择一个文档的topic
z的,然后根据这个topic产生word。所以它在这个图上的产生过程就是,先随机挑选topic
simplx(注意是topic
simplex)三个顶点中的一个,然后根据这个顶点到word
simplex顶点对边线的距离,也就是这个顶点在word
simplex上的多项分布产生每一个word。
[3] Richjin, LDA数学八卦
[4] PLSA(Gibbs Sampling
[5] G. Heinrich, Parameter estimation for text
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 lda数学八卦 下载 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信