《LDA数学八卦数学应用》的作者是谁

点击联系发帖人 时间：2017-01-20 11:30

lda数学八卦下载

苹果/安卓/wp
积分 146, 距离下一级还需 114 积分
权限: 自定义头衔
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡下一级可获得
权限: 签名中使用图片
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 55 天连续签到: 1 天[LV.5]常住居民I
标题挂上“八卦”两字，因为八卦意味着形式自由、不拘束、可以天马行空，细节处理上也难免有不严谨的地方；当然我也希望八卦是相对容易理解的。
LDA是一个在文本建模中很著名的模型。
(2.06 MB, 售价: 1 个论坛币)
11:57:58 上传
数据挖掘统计模型
售价: 1 个论坛币
LDA-math-神奇的Gamma函数(2)LDA-math-认识Beta/Dirichlet分布(2)LDA-math-神奇的Gamma函数(1)LDA-math-认识Beta/Dirichlet分布(1)LDA-math-文本建模LDA-math-MCMC 和 Gibbs Sampling(2)LDA-math-MCMC 和 Gibbs Sampling(1)LDA-math-LDA 文本建模LDA-math-神奇的Gamma函数(3)LDA-math-认识Beta/Dirichlet分布(3)
载入中......
无限扩大经管职场人脉圈！每天抽选10位免费名额，现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
论坛法律顾问：王进律师LDA数学八卦
LDA-math 的汇总， “LDA数学八卦.pdf” 我整理贴出来了，希望对大家理解 LDA 有帮助。文章标题挂上“八卦”两字，因为八卦意味着形式自由、不拘束、可以天马行空，细节处理上也难免有不严谨的地方；当然我也希望八卦是相对容易理解的。
本文转载自：
欢迎加入我爱机器学习QQ12群：
微信扫一扫，关注我爱机器学习公众号
欢迎加入我爱机器学习QQ12群：
最新文章列表
NIPS 2016 — Day 1 Highlights NIPS 2016 — Day 2 Highlights:...
2017年六月 &(57)
2017年五月 &(66)
2017年四月 &(65)
2017年三月 &(54)
2017年二月 &(48)
2017年一月 &(54)
2016年十二月 &(62)
2016年十一月 &(97)
2016年十月 &(97)
2016年九月 &(124)
2016年八月 &(83)
2016年七月 &(13)
2016年六月 &(10)
2016年五月 &(7)
2016年四月 &(9)
2016年三月 &(7)
2016年二月 &(2)
2016年一月 &(3)
2015年十二月 &(5)
2015年十一月 &(4)
2015年十月 &(2)
2015年九月 &(2)
2015年八月 &(3)
2015年七月 &(6)
2015年六月 &(8)
2015年五月 &(4)
2015年四月 &(1)
2015年三月 &(3)
2015年二月 &(1)
2015年一月 &(2)
2014年十二月 &(4)
2014年十一月 &(2)
2014年十月 &(3)
2014年九月 &(4)
2014年八月 &(22)
2014年七月 &(40)
2014年六月 &(61)
2014年五月 &(63)
2014年四月 &(187)
2014年三月 &(4799)
2014年二月 &(764)
2014年一月 &(330)
2013年十二月 &(145)
2013年十一月 &(126)
2013年十月 &(216)
2013年九月 &(284)
2013年八月 &(327)
2013年七月 &(275)
2013年六月 &(315)
2013年五月 &(228)
2013年四月 &(175)
2013年三月 &(186)
2013年二月 &(118)
2013年一月 &(210)
2012年十二月 &(221)
2012年十一月 &(155)
2012年十月 &(144)
2012年九月 &(98)
2012年八月 &(99)
2012年七月 &(109)
2012年六月 &(75)
2012年五月 &(88)
2012年四月 &(78)
2012年三月 &(78)
2012年二月 &(50)
2012年一月 &(17)
2011年十二月 &(27)
2011年十一月 &(6)
2011年十月 &(11)
2011年九月 &(13)
2011年八月 &(13)
2011年七月 &(19)
2011年六月 &(18)
2011年五月 &(6)
2011年四月 &(12)
2011年三月 &(15)
2011年二月 &(6)
2011年一月 &(9)
2010年十二月 &(6)
2010年十一月 &(11)
2010年十月 &(5)
2010年九月 &(8)
2010年八月 &(5)
2010年七月 &(12)
2010年六月 &(4)
2010年五月 &(7)
2010年四月 &(6)
2010年三月 &(12)
2010年二月 &(7)
2010年一月 &(2)
2009年十二月 &(5)
2009年十一月 &(16)
2009年十月 &(6)
2009年九月 &(7)
2009年八月 &(7)
2009年七月 &(5)
2009年六月 &(6)
2009年五月 &(6)
2009年四月 &(4)
2009年三月 &(7)
2009年二月 &(6)
2009年一月 &(1)
2008年十二月 &(4)
2008年十一月 &(5)
2008年十月 &(1)
2008年八月 &(1)
2008年七月 &(3)
2008年六月 &(3)
2008年五月 &(3)
2008年三月 &(1)
2007年十二月 &(1)
2007年十月 &(1)
2007年八月 &(4)
2007年七月 &(1)LDA漫游指南马晨_LDA漫游指南全文阅读_百度阅读
简介：@数急清华大学在读博士，毕业于北京邮电大学硕士，曾任新浪网公司自然语言处理算法工程师，主攻文本分析/N...
计算机热门榜单
& 0手机专享价
扫码免费下载该书再送20元代金券
LDA漫游指南
lda算法漫游指南 pdf,lda漫游指南 pdf,lda算法漫游指南,lda漫游指南第二季,lda算法漫游指南下载,lda漫游指南下载,lda,lda数学八卦,lda漫游
目录（共11章）
投诉与建议
扫描下载客户端LDA学习摘要
LDA学习摘要
LDA（Latent
Dirichlet Allocation）是现在互联网做数据挖掘比较流行的一个模型，用于文本doc主题的挖掘。有兴趣深入了解的同学可以参考论文Parameter
estimation for text analysis by G. Heinrich和Latent
Dirichlet Allocation by D. M. Blei。
图1 LD graphic model
图1为大家经常看到的LDA图模型，其描述公式可表示为
对于一个文档，LDA产生过程为：
由Dirichlet先验分布求topic的多项式分布参数，即theta
~ Dir(alpha)
Alpha是Dirichlet分布参数，theta=(theta1,
theta2,…, theta_k)是产生topic的多项式分布参数，theta_k表示第k个主题被选择的概率。
根据theta生成一个topic
z，即z~Multinormial(theta)
根据已有的topic，从分布p(w_n|z_n,beta)中选择一个word。
重复步骤(2)和(3)，即可生成一篇文档doc。
beta表示一个K个主题、V个单词的K&V矩阵，beta_ij表示有主题z_i生成单词w_j的概率。根据上面描述，图1中的每一过程可进一步如图2细化所示。
图2 LDA graphic model
图2中，三种颜色对应的表示层的简单说明：
Corpus-level(红色)：alpha和beta是语料级别参数，对于所有文档都是一样的，在generate过程中只需sample一次；
Document-level(橙色)：theta为文档级别参数，每个文档对应的theta不尽相同，对于每一个文档，都要sample一次theta；
Word-level(绿色)：z和w是文档级别变量，z有theta产生，然后再与beta生产w，对于每个word，z和w都要sample一次。
2. LDA之骰子游戏
第一节偏理论的描述大家可能看过很多遍了，很多同学或多或少感觉理解总是不那么直观，这里借助掷骰子游戏形象地描述LDA，如图3所示。
说明：对比图2和图3，
图3多了一个dirichlet先验，图2中beta就直接word是多项分布参数，而图3中phi是word的多项分布参数，beta是phi的先验dirichlet分布。
图3 LDA图模型
假设一个doc-topic骰子有K个面，每一个面对应一个主题topic；一个topic-word骰子有V的面，每一个面对一个一个word。
相比于PLSA(Probabilistic Latent Semantic
Analysis)通过投掷固定的骰子得到文档的topic和topic下面的word，贝叶斯学派认为在选定骰子时需要加入一个先验。这个先验就是Dirichlet分布，对应的形象化模型如图4所示。
图4 LDA骰子游戏模型
掷骰子版LDA模型两种表述分别如图5和图6所示。
掷骰子版LDA描述1
掷骰子版LDA描述2
结合图3、图5、图6，LDA可以分解为下面两个物理过程：
本节内容主要参考链接[3].
3. LDA训练与预估
LDA模型的最终目标是对于一个新的文档doc_new，能够计算出这篇分档的topic分布theta_new。为了实现这么目标，需要事先基于语料库训练模型参数alpha和beta，具体的训练样本(z,w)由Gibbs
Sampling[4][5]获得，图7和图8分别描述了LDA的模型训练和模型预估过程。
图7 LDA模型训练
图8 LDA模型预估
4. LDA数学知识
相比于PLSA模型，LDA对多项式分布参数增加了dirichlet分布先验，其原因何在？多项式分布？dirichlet分布？Gibbs
Sampling？
相关内容简单描述如下，感兴趣的同学可以查看相关资料[6][7]。
贝叶斯参数估计的基本过程：后验分布=先验分布+数据知识，而dirichlet分布和多项式分布满足以下关系，即假设先验为dirichlet分布，数据知识为多项式分布，那么后验也是dirichlet分布(dirichlet-multinomial共轭)。先验和后验为同一个分布的优势是：先验对参数假设的物理意义适用于后验，方便理解。
Sampling简单思想：t时刻，固定其余坐标，只在一个坐标轴上采样。
图9 Gibbs Sampling
5. LDA几何理解
借用参考链接[1]对LDA的几何图示解释，增加感性认知。
图10&LDA几何示意图
外面大三角形的三个顶点代表三个word，这三个word组成一个simplex，这个simplex中的一个点就是一个产生这三个word的多项分布的概率密度(三维向量)。具体点来说，例如红色的点p1，它就在word1上。这个意思就是说，p1是一个多项分布，其参数为(1.0,
0, 0)，也就是它产生word1的概率为1，产生其它两个word的概率为0。再来看蓝色的点p2，它产生word1的概率正比于它到word1对边的距离（注意可不是到word1那个点的距离哈）。因为正三角形内部任意一点到三边的垂线之和等于高，也就是可以视为等于1。那么正好这个性质满足概率之和等于1。所以p2到三边的垂线非别代表p2产生垂线对面那个顶点的概率。因此，p2产生word
1的概率看起来像是0.1，
word2的概率像是0.4，word3像是0.5。
了解了上面这层意思之后，再看topic simplex。它是包含在word
simplex里面的(sub-simplex)，所以topic
simplex上的一点同时也是word
simplex上的一个点。这样topic
simplex上的一个点，就有了两层含义，一层含义是它是一个产生word的多项分布概率密度，另一层含义就是它是产生topic的多项分布概率密度。在这个图上，还可以发现topic的点相对于word
simplex是已经固定的，其实这topic
上的三个顶点到word simplex上的三个顶点对边垂直线总共9个距离，也就是9个概率值，正好是一个3&3的矩阵，这个矩阵就是LDA中的beta参数。
知道了这些之后，我们就可以来看mixture of unigrams在图上应该怎么表示了。还记得mixture
of unigrams是要先选择一个文档的topic
z的，然后根据这个topic产生word。所以它在这个图上的产生过程就是，先随机挑选topic
simplx(注意是topic
simplex)三个顶点中的一个，然后根据这个顶点到word
simplex顶点对边线的距离，也就是这个顶点在word
simplex上的多项分布产生每一个word。
[3] Richjin, LDA数学八卦
[4] PLSA(Gibbs Sampling
[5] G. Heinrich, Parameter estimation for text
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。}

叫爱嘘网络