声监控

随着科学和计算机技术的发展,人机互动形式多种多样，语音识别技术取代传统的通过鼠标、键盘实现人机信息交流的模式，这是计算机、信号处理和人工智能等领域的重要课题。自动语音识别的任务是研究如何利用计算机模拟人类的听觉功能，从人的语音信号中提取出有用的声学特征和语言信息，进而确定语音信号的语言含义，实现人和机器之间的自然语言通信。语音识别技术开始渐渐走出实验室，在国防监听、远程会议、音频设备、移动通讯、身份鉴别、智能玩具、机器人等领域展现了广阔的应用前景，一些应用已非常贴近人们的生活。由于语音信号的不确定性，以及周围环境的不可控性，还鲜有十分可靠的语音识别系统大面积商用或民用的实例。从的语音识别理论的发展来看，非特定人的大词汇量和连续语音识别仍然是语音识别领域的技术难点。相对而言，非特定人中小词汇量的孤立词语音识别的理论和实践发展相对较成熟和完善，完全有可能应用于一些声环境相对稳定，噪声相对较小的场合，如室内的语音报警、声控家电及智能玩具等。

基本信息

中文名
声监控
外文名
acoustic monitoring
学科
生态环境
意义
环境污染

简介

这里的环境声（Environmental Sound）是指在人居环境中所接收到的各种声音。特别地，监控系统所感兴趣的多是人在紧急状况下发出的呼叫声，咳嗽声，巨大的撞击声等能起到警告作用的异音，其识别本质上属于孤立词识别的范畴。环境声监控和识别是语音识别中的分支方向，处于发展初期，还没有可应用于非特定人的监控和识别系统得到实际应用，而随着智能楼宇、大型社交活动场所的安防及重要场所的监控等方面的需求与日俱增，急需发展这方面的技术。在“十二五”安防产业发展的大趋势下，基于中小词汇量孤立词识别的报警声监控和识别系统将会在未来的几年内取得较快发展。

用途

本系统设计以银行、博物馆、居室、室内停车场等室内应用场景的监控为设计背景，针对室内典型的声音（如“着火啦”、“抢劫” 及玻璃破碎声等），利用语音信号处理和声目标分类识别等领域的研究成果（包括特征提取和分类识别等），以音频和视频监控的结合为应用目标，侧重于报警词识别系统的软件设计，最终将应用于报警声监控和自动识别硬件系统，为公安、消防等相关部门的决策提供关键信息。概括而言，本系统设计可在以下安防相关领域得到直接或推广应用：

1) 银行、博物馆等重要场所的防盗报警监控系统；

2) 智能楼宇安全防卫监控及访客自动识别系统；

3) 医院重症病人监控或远程室内老人、儿童活动监护；

4) 背街小巷内的盗抢事件监控。除了安防领域，该文涉及的核心技术在语音识别、说话人识别、智能家电、机器人等相关领域也具有一定的参考价值。

声监控系统关键问题分析

通过对特定应用场景的研究，本系统设计旨在将环境声识别的关键技术运用到这些场景中声音监控中。实际场景中，干扰噪声和混响往往是比较突出的问题，不同的场所这两个因素的影响程度不一，如何才能使环境声监控识别适应不同的声环境是系统研究的重点也是难点。具体的关键问题：

1) 干扰噪声下，系统自动检出有效语音段的问题，即端点检测问题。

2) 提取鲁棒的声音特征的问题，要求是能够最大程度地保留话者或者声音内容本身的特征而去除干扰声和通道噪声（如混响）带来的影响。

来源网络

3) 环境声的匹配识别问题，在保证正确率的前提下，提高识别的效率。

4) 特定声环境下（混响，多个声源等）声线索性能精度下降问题，如混响下双耳定位性能下降，导致引导摄像头监控效率降低。以上这些是典型的环境声识别与监控所面临的问题，每一个问题的解决都是极其复杂的，本系统设计只能在特定条件下做局部的改进。

1) 针对监控设备（录音设备）带来的噪声干扰，该文提出了一种基于临界带功率谱方差的端点检测方法，能够有效地在含噪语音中找到语音，用于系统对环境声的识别。

2) 提出一种智能音视频联合的监控思想，对声源先进行定位，利用定位信息引导摄像，提高了视频监控的视域范围，同时进行声音的识别。

3) 针对混响和干扰噪声的影响，提出一种基于分类的定位方法，用于上述系统中，提高了系统的鲁棒性。

声监控

基本信息

简介

用途

声监控系统关键问题分析

应用场景设计