鸟鸣音频数据构建与识别研究—以南京市玄武湖、钟山风景区鸟类保护为例
摘要
鸟类是生态系统的重要组成部分,对鸟类活动及其分布的监测,为了解一个地区的生物多样性和气候变化提供了重要的依据。为了准确认定鸟类,通过借助现代科技对鸟鸣声进行识别便成为一个可行的方法。笔者希望建立一个数据量较大的鸟鸣声数据库,从而更好对鸟类进行保护,也能帮助打击违法犯罪。
一、绪论
(一)研究背景及意义
鸟类与人类的生活息息相关,它们不仅是我们生活中的一部分,也是地球生态系统不可或缺的一部分。研究表明,鸟类有助于维护当地生态平衡,尤其在控制农林鼠害和害虫方面,有助于保护当地生物链的完整性和稳定性。[1]以南京玄武湖为例,上世纪九十年代左右,由于过度捕猎,当地的鸟类数量锐减,玄武湖地区的生态环境质量收到一定的影响。然而,近年来的生态保护措施使得曾经的鸟类又重现踪迹,玄武湖也再次变得热闹非凡。因此,可以说鸟类为维
护当地生态系统发挥了重要作用。[2]
鸟类具有极高的研究价值。现在,几乎所有的鸟类物种都已经被确定,并且它们的种类和分布情况也已经被清晰地描述出来。研究鸟类科学能够推动生物学理论的发展。除了上述的研究领域,鸟类的研究还可以为我们提供更多的见解,从而推动理论的发展和完善。因此,对鸟类的认知、研究和保护已经成为当今全球最重要的学术和实践活动。
根据新南威尔士大学的研究表明,当今世界约有10000种鸟类。我国的鸟类就多达1300多种,超过了世界鸟类数量的八分之一。[3]为了准确认定鸟类,简单从外形特征分辨常常十分困难。在此情况下,借助现代科技,通过鸟鸣声进行识别便成为一个可行的方法。
近年来,随着声音识别技术的不断发展完善,鸟鸣声识别已经被越来越多人采用。[4]本文旨在阐述鸟鸣识别基本原理,并且收集当地的鸟类鸣声结合国际数据构建当地常见鸟类音频数据库,从而更好的进行识别研究。
(二)国内外研究现状
1、国外发展情况:
国外鸟鸣声数据库的发展历史可以追溯到20世纪初,当时欧洲和北美的鸟类学家开始记录和研究鸟鸣声。随着录音技术的进步,越来越多的研究者开始使用录音设备记录鸟鸣声,并将其储存起来。
1935年,美国雀类学家埃利奥特·库佩恩(Elliott Coues)出版了第一本鸟类声学手册,其中包括153种鸟的叫声录音。1950年代初,美国康奈尔大学由路易斯·伊克宾格(Louis Irby Davis)等人创建的鸟类声音工程(Cornell Lab of Ornithology)致力于收集和分类整理全球各地的鸟叫声。该组织在1992年发布的“鸟类声音图谱”(Bird Audio Spectrum)中收录了2700多种鸟的叫声,并在此基础上,开发了一系列支持鸟类声音识别技术的软件和 App。此外,澳大利亚鸟类学家弗雷德.温特(Fred Whittaker)也在20世纪50年代开始了鸟类声音数据库的建设。他记录了超过500种澳大利亚鸟的叫声,其中不少录音样本至今仍被视为珍贵的文化遗产。
在20世纪50年代到60年代,一些国际性的鸟类学研究组织和协会开始建立鸟鸣声数据库,比如英国的鸟类学会、美国的康奈尔鸟类实验室等。这些数据库的建立主要是为了保存和共享这些有价值的录音资料,以便更多的研究者能够使用它们进行科学研究。[5]
随着数字技术的发展,国外鸟鸣声数据库逐渐从以纸质或磁带为媒介的物理储存方式转变为
数字化储存方式,这大大方便了数据库的维护、管理和使用。比如美国康奈尔鸟类实验室的“鸟类声音存档”项目就将多达20万个鸟类声音样本数字化储存,提供给全球研究者随时访问。此外,一些基于互联网的鸟类声音数据库也开始兴起,比如欧洲鸟类声音档案库、Xeno-Canto和Macaulay Library等,这些数据库可以让用户在网上免费获取并下载鸟类声音样本,这极大地推进了鸟类学研究的发展。
2、国内发展情况:
鸟叫声音国内的鸟鸣声数据库发展起步相对较晚。1998年,中国科学院北京动物研究所,首次发表了一份鸟类声学研究文献,开始了中国鸟类声音数据库的构建。2005年,中国科学院西北高原生物研究所也在青海 Lake Donggeger建立了一座声音采集站,目前该数据库已经收录了近1000种鸟类以及其他动物的叫声。2008年,中国科学院动物研究所成立了“中国鸟类声音库”。该数据库收集了中国大陆地区超过1000种鸟类的声音。2012年,中国科学院沈阳应用生态研究所成立了“中国东北鸟类鸣声数据库”。该数据库收集了中国东北地区180多种鸟类的声音。
此外,中国鸟类资源库也在逐步完善鸟鸣声相关数据,该数据库也提供了包括鸟类叫声、形
态、习性等多种信息。
3、音频库建设标准
此处我们将参考《声纹信息采集技术规范》并结合现实中遇到的问题,详细列出不合格标准,供与参考。没有以下不合格指标的,样本视为有效。
音频库建设标准如下:
(1)采集内容无鸟鸣声,视为不合格,不予录入库内。
(2)采集环境存在严重混响,经降噪处理后依旧不清晰的,视为不合格。
(3)采集时鸟鸣时间过短,少于3秒的,视为不合格。
(4)采集时同时有多个鸟类鸣叫,视为不合格。
(5)采集时鸟鸣声过于模糊,无法分辨的,视为不合格。
(6)采集时出现其他动物干扰的,视为不合格。
(7)采集时鸟鸣声异于反常的,视为不合格。
(8)采集后经过预处理样本失真的,视为不合格。
(9)其他无法识别的情况等。
二、鸟声采集与音频库构建存在的问题
(一)与传统人声相比,鸟声采集仍具有诸多痛点与难点,主要表现在以下几个方面:
1、敏感性导致的样本信噪比过低
鸟类对人类活动以及陌生设备具有高度的警惕性会导致实际采集中录音、录像距离的增加,从而导致实时采集中声音与形象的不清晰,提高了优质样本采集的难度。
2、背景噪声的复杂性
鸟类生存环境中的噪声具有多样性和多变性,即使没有人为干扰,自然界中仍会存在风声、水流声、其他动物噪声等非人为噪声,致使样本的信噪比过低,鸟鸣音频信号的价值显著下降。
3、同一鸟类鸣叫声的多样性
鸟类的鸣叫声其实相当复杂,除了不同地理种的鸟类之间鸣叫声存在差异,同一地理种甚至同一个体的音段、音节的特征都有可能出现变化,增加了识别任务的工作量。
4、鸟类分布的地理特性
不同地理种的鸟类因环境因素影响,鸣叫特征呈现出不同程度的差异性,通常这些特征差异不大,但在有的特征点上偶尔会产生较大差异,从而形成对鸟类种属的错误判断。
5、时效性与变化
鸟类并不是每时每刻都在鸣叫,其鸣叫特点具有季节性和时间性,因此鸟鸣音频在全天候录音样本中占据的比例极低,这会导致单位采集到的鸟鸣音频成本的提高。