信IB与电IE
China Computer&Communication网絡与通信技求2021年第6期
基于LDA模型主题词分析
邱夕
(新华报业传媒集团,江苏南京210019)
摘要:社会网络分析(Social Network Analysis,SNA)是描述体社会关系的研究领域.主题词分析旨在使用SNA方法来可视化Obama,com中的主题词。训练和测试数据来自无碳服务器Datagreening。使用并行计算工具BashReduce进行文字处理,处理速度提高了30%.实验结果表明,在选择适当大小的主题词表的情况下,笔者采用的LDA模型比TF-IDF模型的目标词查准确率高53.96%.
关键词:LDA模型;主题词分析;社会网络分析
中图分类号:TP391.1文献标识码:A文章编号:1003-9767(2021)06-199-03
Subject Heading Analysis Based on LDA Model
QIU XI
(Xinhua Daily Media Group,Nanjing Jiangsu210019,China)
Abstract:Social Network Analysis(SNA)is a research field that describes the social relationships of groups.The subject heading analysis aims to use the SNA method to visualize email subject headings in Obama.The training and testing data comes from the carbon-free server Datagreening.Using the parallel computing tool BashReduce for word processing,the processing speed increased by30%.The experimental results show that the LDA model used by the author is53.96%higher than the target word search accuracy of the TF-IDF model under the condition of selecting the appropriate size of the topic vocabulary.
Keywords:LDA model;subject term analysis;SNA
0引言
社会网络分析用于描述体的特定模式或目标特征[1]o 在过去的研究中,通过有向图模型或加权边图模型实现SNA 中特定体的连接,如Wang的团队用概率因子图模型描述学术界的书目网络何。当通过描述文档来研究社交网络时,隐式Dirichlet分配(LDA)模型冈选择Dirichlet分布来估计主题混合,并
通过期望最大化(EM)算法对训练数据进行采样。Zvi的团队将LDA模型扩展到作者主题(AT)模型[4],通过内容和作者分布确定主题。
本文将Gibbs抽样作为训练策略,从邮件中搜集主题词,对发信人偏好进行建模叫并在俄亥俄州创建邮件账户,通过无碳服务器Datagreening接收来自Obama的邮件冏。将经过数据过滤后的邮件作为模型的输入数据,应用LDA模型将数据映射到主题层,并生成主题词列表。程序使用轻量级并行计算工具BashReduce实现了近30%的加速[7]o
1LDA模型
LDA模型是一种贝叶斯层级主题模型3切。如图1所示,模型为每个文档d=ii>=(Wi,W2,“・,w”)生成主题词并将N个单词映射到⑴潜在主题。词的概率表达式为:
p(w|d)=&何z j.^z'd)(1)
其中,乡是多项式分布中采样的第/个主题。
doc topici
topic】topic2topic T word]word2word n
图1层次主题模型的图形表示
假设存在|打潜在主题,文档中第,个单词叱•的概率表示为:
T
p(wj=》P(叫同=/)•p(Z;=/)(2) /=1
其中,乡是第i个单词W,.分配到的主题,p^Zj)表示单词W,•分配到第/个主题的概率。因此,文档d中单词W出现的概率为:
作者简介:邱夕(1989-),女,江苏南京人,硕士研究生,初级工程师。研究方向:文本分析算法、推荐算法。
信18与电1E
China  Computer  & Communication
网絡与盧信牧术
2021年第6期
T
p (w|d ) = £0$T  •喟
戶1
其中,多项式分布0辭和!<参数化如下:
w t  \z t ,Mult (0® ),詐)Dirichlet (力)
z  ”⑷,Mult  (算⑷),/⑷D irichlet  [a )
(3)
(4)
(5)
式中,力是从|?1主题中抽取的单词概率初始值,a=〈%皿2,…,a”〉为话题概率初始值,力和a 是每个多项式分布
的先验分布参数。图2显示了 LDA 模型的贝叶斯网络。左板表示在文档d 中重复生成每个主题及主题下单词;左外板
表示在语料库中对每个文档重复采样的主题比例。
2 Gibbs 抽样
主题词4.2实验结果
果趋向于一个与所有初始值无关的常量值。
在实验中,参数力和a 的赋值分别为0.01和50/几 在
Gibbs 抽样中,经过500次迭代选择潜在主题。
4.3结果分析
本文选择Gibbs 抽样估计模型参数0和v 。Gibbs 抽样旨
在构造一个收敛于目标分布的马尔可夫链。采样首先初始化 向量z,通过使用更新概率函数重复采样z ”来转移到下一状态,
宜到达到收敛。抽样的概率函数为:
如表1所示,为了将LDA 模型与其他模型比较,定义 大小为|C|=15的单词表,表中的每个单词都作为一个标识符
表示该语料库的信息。
P (z :=/|zt ,%) =
调+Z 刼+a
yr 调+力趣疔a
(6)
式中,z 冃表示将文档中第i 个单词v,.赋值给主题/, z “表示将所有z^k  Mi )赋值,"跖是V,.分配给主题/的次数。
谒是分配给主题/的单词数。熾是文档必分配给主题/的 单词数。
3数据预处理
BashReduce 是一个轻量级MapReduce 模型的并行计算
工具⑷。指定两个实例后,map.py 将每个单词映射到模式
(word,l ); reduce.py 接收上述模式并求和生成(word,cound )
的实现结果。忽略网络延迟,运行在BashReduce 实例上的 时间与本地相比,实现了近30%的加速比。
表1在3个主题下产生的前15个单词
主题1主题23
行动俄亥俄
总统
卫牛
聚会奥巴马帮助
接触制作需要支持者拿统治者
委员会
得到状态OFA 公司
授权民主党人
人朋友
组织健康制作华盛顿
战斗卡西奇
工作
发送
运动知道照顾支付候选人
盒子共和党
支持
朋友
选民国家地址
工作
停留
4实验结果
本文将使用Obama 发送账户的作为语料
库。该账户共有58封,词汇量"=1118。
4.1迭代周期
图3显示了吉布斯采样的收敛过程。定义主题的数量
17]=300,设定3个不同的初始值,在500次迭代后,样本结
每一列中的单词都揭示对应的主题。一封来自邮件可能
包括医疗保健(主题1 )、地方新闻(主题2 )和总统信息(主 题3)□目标词列表设置为{奥巴马,俄亥俄,卫生,州长,
竞选,共和党,总统,党派,支持者,国家,委员会,民主 党人,选民}。
4.3.1评价指标
本文用精密度衡量实验结果,精度的定义如下:precision  =
^total
将每个主题词列表与目标词列表比较,如果捕获到匹配
信IB与电IE
China Computer&Communication网絡与通信技求2021年第6期
项则将此文档标记为“正确”。”表示语料库中“正确”文档的数量,%“表示文档的总数。
4.3.2比较模型
本文选择TF-IDF模型作为比较模型[11]o TF-IDF是文本挖掘中表示关键词与文档之关系的一种数值统计方法。假设Q 是语料库中词的个数,几加)是词的原始频率,模型表达式是:Ifidf(8) 4.3.3预测能力
目标词列表大小用|TG|表不,主题词列表大小用|7W|表示。图4通过比较LDA模型和TF-IDF模型的准确率来评估预测能力。其中,"坐标表示|TG|的不同值,y坐标表示精度率。当\TW\=15时,两种模型的准确率均随|TG|的增大而增大,LDA模型的准确率比TF-IDF模型高出近53.96%。
图4预测能力分析
5结语
本文应用LDA模式分析Obama中的邮件主题词,使用Gibbs抽样估计主题和词的分布,使用轻量
级并行工具BashReduce进行数据预处理。实验表明,BashReduce有效降低了程序的时间开销,LDA模型的预测能力明显强于TF-IDF模型。
参考文献
[1]Adamic L A,Adar E.How to search a social network[J],
Social Networks,2003,27(3):187-203.
[2]Chi W,Han J,Jia Zet al.Mining advisor-advisee relationships
from research publication networks[C]//Proceedings of the16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2010:25-2&
[3]Blei D M,Ng A,Jordan M I.Latent dirichlet allocation[Z].
2003.
[4]Rosen-Zvi M,Griffiths T L,Steyvers M,et al.The Author-
Topic Model for Authors and Documents[C]//Proceedings of the20th Conference in Uncertainty in Arti
ficial Intelligence,2004:126.
[5]Gilks W R,Richardson S,Spiegelhalter D J.Markov chain
Monte Carlo Methods in Practice[Z].1996.
[6]Bowman A,Fergussion R J,Allan S G,et al.Potentiation of
cisplatin by alpha-interferon in advanced non-small cell lung cancer(NSCLC):a phase II study[J].Annals of Oncology Official Journal of the European Society for Medical Oncology,1990(5):351.
[7]Quan J,Shang L.An Ensemble Model of Wind Speed
Forecasting Based on Variational Mode Decomposition and Bare-Bones Fireworks Algorithm[Z].2021.
[8]Li F.A Bayesian hierarchical model for learning natural
scene categories[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:56.
[9]Andrew M.Multi-label text classification with a mixture
model trained by EM[Z].1999.
[10]Dean J,Ghemawat S.MapReduce:Simplified Data
Processing on Large Clusters[C]//Proceedings of the6th conference,2004:52.
[11]Liu Y,Ciliax B J,Borges K,et al.Comparison of two
schemes for automatic keyword extraction from MEDLINE for functional gene clustering[Z].2004.