《科技传播》
5
作者简介:赵思雨,硕士研究生在读,南京大学信息管理学院,研究方向为信息计量、电子政务。
文献计量学经典定律看“热剧”
——基于新浪微博的实证分析
赵思雨
摘  要  文章以热门韩剧《太阳的后裔》微博话题搜索量作为研究对象,运用文献计量学三大经典定律,从地域热议分布特征、热搜词句频次规律和话题老化趋势3个方面进行实证分析,以揭示网络信息的传播特征和分布规律,并对经典定律在网络环境下的适用性进行探讨。研究发现,网络信息的传播规律也符合文献计量学经典定律的要义,同时部分特征参数在网络环境下发生了显著变化,展现出新的内涵。关键词  布拉德福定律;网络信息传播;文献计量学;齐普夫定律;文献老化规律
中图分类号  G2            文献标识码  A              文章编号  1674-6708(2021)282-0005-05
1  问题的提出
布拉德福定律、齐普夫定律和文献老化规律作为文献计量学的经典定律,描述了文献的时空分布特征。近年来,随着互联网技术的快速发展,网络信息日益增加并快速传播,文献计量学的研究范围也从传统的文献信息向网络信息拓展。
现有研究表明,网络信息在某些方面也具有与文献信息相似的特征,并展现出了新特点。例如,田纯运用洛特卡定律来研究社会化信息特征分布,发现其规律基本符合传统模型,但部分参数值发生
了变化[1]
;杨磊应用多种文献计量方法来研究网络条件下论文被引频次规律,发现其符合布拉德福特征,但拟合曲线有一定差别[2];上锟通过分析腾讯微博话题数据,发现话题频次与其排名符合齐普夫
定律[3]
。可发现,目前学者的关注点已聚焦于文献计量学经典定律在网络信息中的应用研究,但多是单一定律的实证研究,尚缺乏综合性讨论,并且对其在网络环境下的适用性深度探讨仍较少。
为此,本文综合运用文献计量学三大经典定律,对2016年度热门韩剧《太阳的后裔》微博话题的地域热
议分布特征、热搜词句频次规律及话题老化趋势进行实证分析,文中所用数据均截至4月28日。一方面可以运用传统信息分布定律来进一步量化和揭示网络信息资源的传播特征和分布规律,为深入利用网络信息资源提供理论基础与方法;另一方面,也能进一步拓展传统文献计量学的适用范围,发现经典定律的新内涵。
2  地域热议分布特征实证——基于布拉德福定律
2.1  研究方法与过程
布拉德福定律起初是用来揭示科技论文在期刊
中的分布特征,其表述的是“期刊载文量累积数”与“期刊累积数”间的函数关系[4]。本文使用该定律来探讨韩剧《太阳的后裔》微博话题关键词#太阳的后裔#“地域累计数”与“地域热议度”(指某地域提及该词的微博数占全国提及该词的微博数的比例,以反映该词在该地区的热议程度)。仿照W.Goffman 等人的方法,建立以下基本假设[5]:地域热议度的区域分布符合布拉德福分布规律,即热议度高的地区,在微博热词的讨论中占据核心地位,且数量相对较少。
为验证该假设,按照以下步骤进行实证研究:首先,将原始数据依照“地域热议度”递减次序排列,并进行布拉德福区域划分,分区计算结果;然后,描绘布拉德福分布图形,并使用3种曲线回归模型进行拟合,计算相应参数;最后,对实证结果和相关问题进行讨论。2.2  数据处理与区域分析
通过新浪微博数据分析工具“微数据”,来采集我国34个省级行政区对#太阳的后裔#这一话题关键词的“地域热议度”数据,并按递减顺序依次排列(见表1)。
由表1可知,地域总量N=34,“地域热议度”累积量R (34)=77.73%。取分区数3和5,来计算布拉德福常数a m 。当m=3时,令每个区的“地域热议度”累积量相等,其平均值为R/m=25.91%,并按照平均值计算各区的地域累计数N j (j=1,2,3)(见表2)。同理,当m=5时,其平均值为R/m=15.546%(见表3)。经分析可知,当分区数为3时,常数a 取值为2~2.75,均值为2.375;当分区数为5时,常数a 取值为1.4~2.43,均值为1.749。总体来看,分区法的效果并非最优,尤其当m=5时,前4分区的
地域数差别不大。
2.3  图像分析与分段回归分析2.
3.1  图像分析
以表1中“地域累计数N
(i)的自然对数LgN
(i)
为横轴,以“地域关键词热议度累计量R
(Ni)
%”为纵
轴,以(LgN
(i),R
(Ni)
)为坐标值,使用SPSS软件作
散点图,得到布拉德福曲线(见图1)。通过与布拉德福分散曲线的比较,可以发现是十分相似的。因而,能够初步认为原始数据具有布拉德福分布特征,故将通过曲线拟合进行更加严谨的验证。
以“地域累计数N
(i)
”为横轴,以“地域关键
词热议度累计量R
(Ni)
%”为纵轴,以(N
(i)
,R
(Ni)
)为坐标值作散点图,然后分别用三种曲线回归模型对此散点图进行拟合(见表4)。可看出,三种模型的确定系数R2都近似或大于0.9,均有较好的拟合优度。比较发现,对数回归和乘幂回归模型拟合优度较高,但不是规范的布拉德福曲线公式。为此,本文将数据分段,分别进行回归分析。
表1  关键词#太阳的后裔#“地域热议度”统计数据
地域序号i 地域
名称
第i个地域的关
键词热议度r
(i)
%
前i个地域
累计数
N
(i)
前i个地域的关
键词热议度累计
R
(Ni)
%
地域序
号i
地域
名称
第i个地域的关
键词热议度r
(i)
%
前i个地域
累计数
N
(i)
前i个地域的关
键词热议度累计
R
(Ni)
%
1广东9.9419.9418重庆  1.661864.85 2江苏  6.09216.0319天津  1.571966.42 3北京  5.97322.0020江西
  1.412067.83 4浙江  4.80426.8021吉林  1.412169.24 5山东  4.44531.2422山西  1.382270.62 6上海  4.19635.4323云南  1.072371.69 7四川  3.45738.8824内蒙古  1.012472.70 8辽宁  3.03841.9125香港  1.002573.70 9湖北  2.84944.7526贵州0.742674.44 10河北  2.771047.5227新疆0.672775.11 11河南  2.761150.2828台湾0.602875.71 12福建  2.671252.9529甘肃0.532976.24 13湖南  2.291355.2430海南0.533076.77 14广西  2.241457.4831宁夏0.273177.04 15安徽  2.101559.5832澳门0.123277.16 16黑龙江  1.861661.4433青海0.093377.25 17陕西  1.751763.1934西藏0.083477.33说明:由于微博系统的反垃圾机制,全国34个省级行政区的关键词热议度累计量不足100%。
表2  “地域热议度累积量”的布拉德福分布表(m= 3)
区号j 第j区地域
累计数N
j
第j区地域热议度累积量R/m%
布拉德福常数
(a= N
j
/N
j
-1)
1426.80
2826.15  2.0 32224.38  2.75总数N= 34总数R=77.73均值a
3
= 2.375
表3  “地域热议度累积量”的布拉德福分布表(m= 5)
区号j 第j区地域
累计数N
j
第j区地域热议度累积量R/m%
布拉德福常数
(a= N
j
/N
j
-1)
1216.03
2315.21  1.50
3516.28  1.67
4715.67  1.40
51714.54  2.43
总数N= 34总数R=77.73均值a
5
= 1.749
2021·5(上)
《科技传播》6
《科技传播》
2021·5(上)
7
图1  “地域关键词热议度累积量”散点分布图
2.3.2  分段回归分析
英国学者布鲁克斯首次提出了布拉德福定律的数学公式,它是一个以核心区拐点为分界的分段函数。按
照上文分区结果,将核心区“地域累计数”n=4的对应点作为散点图曲线的拐点。将表1中的数据分为两部分,采用上文所述的三种曲线回归模型进行拟合,得到两段数学公式(见表5)。
经综合分析可知,乘幂回归模型在核心区的拟合优度最好,对数回归模型在非核心区的拟合优度最好,均高于表4。为此,分别取两区最优的拟合曲线公式,进而得到“地域关键词热议度累计量”的拟合曲线方程(式1)。将式1与布鲁克斯公式[6](式2)相比较,
可看出二者在形式上是完全一致的。
通过实证分析,可发现:1)地域热议度的区域分布符合布拉德福离散分布规律,即热议度高的地区,在微博热词的讨论中占据核心地位,且数量相对较少;2)式1在形式上虽与式2一致,但几个主要的特
征参数却具有明显的差异性。对照文献计
量学中布鲁克斯公式的参数[7],显然,参数α、K 的取值超出了传统观点对布鲁克斯公式的解释(见表6),即在网络环境下布拉德福定律表现出新特点。
表6  式1与式2相应参数对比
式1参数布鲁克斯公式(式2)参数相应参数是否符合α=9.884α=R (1)= 4差距较大β=0.72β总小于1
符合K=25.946当K足够大时,K=N=34
差距较大
S≈0.3746735
直线部分反向延长线与x轴
的交点
符合
3  热搜词句频次规律实证——基于齐普夫定律
3.1  研究方法与过程
齐普夫定律是用来描述词频的分布特征,其表达式为fr=C。其中,f 为频次,r 为等级序号,C 为常数[8]。该定律用来分析特定词的词频,而特定词通常能体现出事物的主题。本文利用该定律对韩剧《太阳的后裔》相关微博搜索热词进行实证分析。由于无法获取到全部热词,因此,使用新浪微博工具“知微事件博物馆”来分析话题热词的搜索频次,从而对其做出相应的排序和评价,并选取前20个频次较高的词句。
本文着重于对采集到的数据进行齐普夫图像描述和应用分析,按照以下步骤进行实证研究:首先,将原始数据依照“搜索频次”递减次序排列,并根据相关公式分别计算fr、Igr 与Lgf ;然后,根据统计数据绘制齐普夫定律描述图像;最后,按照该定律在科学评价中的作用分析,对相关结果进行讨论。
3.2  数据处理与分析
总体来看,表7中人物的搜索频次是较高的,其中“宋仲基”和“宋慧乔”分别位居一、二位。在这些热搜词句中,大多是男主与女主的温暖瞬间,其搜索频次也明显体现出了主创人员的人设。但是,表中序号和频次的乘积fr 差距较大,其中心数值
表4  三种回归模型曲线方程及确定系数R 2
回归模型线性回归模型y = a + bx
对数回归模型y = a+ blgx
乘幂回归模型y= ax b
曲线方程R (Ni)=24.903 +1.869 N (i)R (Ni)=22.621lg N (i) -1.324R (Ni)=12.082 N (i)0.565确定系数R 2
0.894
0.978
0.978
表5  核心区(非核心区)三种曲线方程及确定系数R 2
模型
回归模型线性回归模型y = a + bx
对数回归模型y = a + blgx
乘幂回归模型y = ax b
核心区
曲线方程
R (Ni)=4.555 + 5.655 N (i)R (Ni) = 12.016lg N (i) + 9.146R (Ni) = 9.884 N (i)0.72确定系数R 20.997
0.976
0.999
非核心区
曲线方程
R (Ni)=32.94 + 1.531 N (i)R (Ni)=25.946lg N (i) -11.062R (Ni) = 16.004 N (i)0.47确定系数R 2
0.914
0.993
0.976
2021·5(上)《科技传播》8
(常数)上下波动范围大,不同于相对波动幅度较
小的传统文献信息的常数C。这表明齐普夫定律在网络环境下仍适用,但也表现出不同于传统定律的特点。
由于热搜词句总数N 值的不确定,拟通过图像来进一步验证其是否符合该定律。按照齐普夫对数据的处理方式,根据表7中热搜词句的搜索频次与等级序号建立坐标系(横坐标为序号r,纵坐标为频次f),并利用SPSS 拟合得到一条双曲线(见图2),该曲线与齐普夫分布曲线大致相同。其中指数曲线回归模型拟合度最优,达0.977,最终拟合公式为:f (r)=352119.126e -0.4r 。
同时,以等级序号r 与频次f 的对数值Igr 与Lgf 为横纵坐标轴,绘制高频次对数散点图(见图3),则图2中的图像就变成了一条近似直线。并进行线性曲线拟合,拟合度达0.859,最终拟合公式为:f (r)=6.233-2.73r。除去相应的误差可发现:该剧的微博话题热搜词句的搜索量频次统计数据符合齐普
夫定律图像的描述。
图2  微博话题热搜词句频次分布曲线
图3  微博话题热搜词句频次分布对数曲线
4  话题老化趋势实证——基于文献老化规律
4.1  研究方法与过程
文献老化是指文献随时间流逝,其可用价值逐步减少。本文采用贝尔纳(J.D Bernal)在1958年提出的负指数老化模型[9]来量化“太阳的后裔”这一微博话题搜索量的老化速度,即:C (t)=Ke -at 。其中,t 为出版时间,C (t)为引用频率,K 为常数,a 为老化率。
首先,通过新浪微博数据分析工具“微指数”来采集“太阳的后裔”这一话题在该剧播放完结后两周内,即4月14日至4月28日的微博话题搜索量;然后,将原始数据按时间排序生成趋势图,观察搜索量的整体趋势;最后,通过SPSS 软件拟合曲线,计算该剧微博话题老化的“半衰期”,并验证该老化规律是否符合负指数老化模型。4.2  数据处理与分析
根据采集到的搜索量原始数据来看,该剧完结后,该话题在微博上的搜索量呈下降趋势,其中4月27日的搜索量有小幅度增加(见表8),原因在
表7  韩剧《太阳的后裔》微博话题前20位热搜词句
关键词word
频次Freq.(f)
排名Rank (r)
f*r 关键词word
经典词句频次Freq.(f)
排名Rank(r)
f*r 宋仲基410 5051410 505晒与宋仲基合照  3 2191135 409宋慧乔128 8232257 646宋仲基的毒  2 2581227 096你别吓唬她67 6533202 959强行撩妹  1 9641325 532晋久51 0004204 000不要碰到欧巴的脸  1 6891423646金智媛
41 0005205 000回韩国想做什么  1 6281524420是被你宣判的无期徒刑29 1826175 092宋仲基是大家的39816  6 368柳大尉中24 0667168 462宋仲基宋慧乔亲吻28517  4 845阿呆和阿瓜
23 6558189 240要快递还是要我26618  4 788在他怀里就这样睡了一晚19 8309178 470和宋仲基一样帅15019  2 850宋仲基扎头发
4 679
10
46 790
被优秀的男人吻过
140
20
2 800
说明:表中“频次”通过微博工具获得,其余数据通过计算得出。
《科技传播》
2021·5(上)
9
于微博上发布了一个花絮剪辑MV。在总共采集的15天微博话题搜索量中,第一、二、三天的搜索量之和占到了总搜索量的53%,由此可知,“ 太阳的后裔”这一微博话题的信息老化半衰期在2~3天。
表8  “太阳的后裔”微博话题日搜索量
日期搜索量(t)Iny
日期搜索量(t)
Iny 4.14830 23113.6295  4.22161 30811.99114.15837 35413.6380  4.23152 23811.93324.16837 35413.6380  4.24115 95011.66094.17445 10513.0061  4.2581 51611.30864.18303 84112.6243  4.2676 40611.24384.1922952812.3438  4.27170 83812.04854.20200 37312.2079  4.2864 472
11.07404.21
193 906
12.1751——
——
——
因为SPSS 软件中没有本文所需的负指数模型,因而对该模型进行变形:
C (t)=Ke -at
lnC (t)=lnK+lne -at 经变形整理可推出:lny=b+at
将数据进行数学变换,并使用SPSS 软件进行线性回归,得到图4所示结果。可知,拟合优度R 2为0.872,可见lny 与t 的拟合度较优,而且Sig 值为0.00,这说明二者之间的线性关系较为显著。因此,能够得出lny 与t 的函数关系符合该模型,拟合公式为:y=e -0.179t + 87.653
图4  “太阳的后裔”微博话题的SPSS回归性分析
通过实证分析结果,可发现:1)“太阳的后裔”这一微博话题搜索量的半衰期为2~3天左右,半衰期极其短暂,这说明网络热剧仅一时热,仅能在较短的时间段内吸引流量。2)从拟合出的模型上看,该剧的微博话题搜索量老化规律在统计意义上符合负指数模型即该模型在网络信息半衰期的测算中仍有一定的适用性。但由于网络信息快速传播、流量巨大等特点,其半衰期长短要远远小于传统文献信息的半衰期。
5  结论与启示
本文综合运用文献计量学三大经典定律,对热门韩剧《太阳的后裔》微博话题热度的地域热议分布特征、热搜词句频次规律和话题老化趋势进行实证分析,通过研究发现:
第一,《太阳的后裔》话题热度在地域中的分布具有明显的布拉德福分布特征;话题相关微博热搜词句的搜索频次符合齐夫定律图像描述;该微博话题搜索量的半衰期为2~3天。
第二,采用文献计量学定律模型及公式得出的实证分析结果,在统计意义上与经典模型较为吻合。这表明,在多元信息载体与传播渠道的网络环境下,网络信息的传播仍受到传统文献计量定律的支配。但同
时,部分特征参数在网络环境下发生了显著变化,超出了传统观点的解释。
未来研究的启示主要有两点:一是从研究的深度上,可以将文献计量学与网络计量学内容相结合,从话题增长趋势、地域人口分布特征等其他维度来进一步量化和揭示网络信息的传播特征和分布规律;二是从研究的广度出发,综合运用多种信息计量学定律,对多平台、多维度、多类型的网络信息进行实证分析,进一步探讨经典定律在网络环境下的适用性,为深度利用网络信息资源提供理论基础与方法。
参考文献
[1]田纯.基于洛特卡定律与布拉德福定律的用户社会化标签信
息分布规律研究[J].甘肃科技,2019,35(17):85-91.[2]杨磊.网络环境下布拉德福定律的有效性研究[J].科技情报
开发与经济,2015,25(24):115-118,135.
[3]上锟.微博热点话题中的齐普夫定律实证研究[D].西安:西
安电子科技大学,2016.
[4]邱均平.文献计量学(第二版)[M].北京:科学出版社,
2019:283-284.
[5]MatthewL. Wallace, Vincent Larivière, Yves Gingras.
Modeling a century of citation distributions[J].Journal of Informetrics, 2009,3(4).
[6]B.C.Brookes,王崇德,邓亚桥,等.情报学的基础(一)
[J].情报科学,1983(4):84-94.
[7]崔旭,邵力军.揭开布鲁克斯公式K、N关系之奥秘[J].情报
杂志,2003(9):43-42.
[8]Corral Álvaro, Serra Isabel. The Brevity Law as
a Scaling Law, and a Possible Origin of Zipf’s Law for Word Frequencies[J]. Entropy(Basel, Switzerland), 2020,22(2).
[9]Nemani Govinda Raju. Obsolescence of Literature
in Library and Information Science Research[J]. International Journal of Information Dissemination and Technology, 2018,8(3).