韩华-远景-LOGO

Hanwha Vision SPS-A100M AI声音分类和声音方向检测

Hanwha-Vision-SPS-A100M-AI声音分类和声音方向检测产品

介绍

在隐形威胁面前,声音往往是一种被忽视却又强大的监控工具。传统的视频监控系统专注于视觉捕捉事件,而如今的安全环境已经发展到不仅能识别声音事件的类型,还能识别其确切来源。随着公共安全和资产保护范围的不断扩大,音频分析技术不仅能提供简单的辅助,还能为预防犯罪和快速响应事件做出贡献。
在此背景下,韩华愿景基于深度学习的声音分类技术提供了智能功能,可以准确识别特定的音频事件(例如预先训练的尖叫声和玻璃破碎声),并触发即时警报。此外,声音方向检测技术可以识别音频源的位置,不仅提供有关“声音是什么”以及“声音来源位置”的决定性信息。这两项技术协同作用,最大限度地提升了综合态势感知能力,为下一代安防系统树立了新的标杆。
本白皮书深入探讨了这些技术,为在不同环境中的最佳实施和使用提供了实用指导。

基于人工智能的音频分析技术

  1. 声音分类
    韩华视觉的声音分类技术建立在核心深度学习模型——卷积神经网络 (CNN) 之上。该技术首先将抽象的声音信息转化为视觉形式,即声谱图1。
    声谱图就像一个声音的“指纹”,清晰地展现特定声音的独特模式。CNN 擅长自动学习和识别这些声谱图中人耳通常难以分辨的细微声学特征和模式。这一过程能够准确识别和分类各种声音事件,包括尖叫声、玻璃破碎声、汽车喇叭声和轮胎打滑声。
    一旦检测到并分类了声音,系统就会自动从音频流中提取数据。由于音频数据已经过预处理,并且amp然后,将分类后的声音生成音频片段 file,包含元数据,方便下载和重新view.
    该技术适用于部分 Hanwha Vision 产品。
  2. 声音方向检测
    韩华视觉的声音方向检测技术能够识别并通知用户特定音频事件的方向,从而实现快速响应。该技术通过测量到达时间差来确定方向。
    当声音信号到达多个物理上分离的麦克风时,其时差 (TDoA) 会发生变化。
    TDoA 算法的工作原理是分析声音到达每个麦克风所需时间的相位差,从而估算到声源的实际距离。然后,该信息用于计算声源的角度。如图 1 所示,一个由麦克风 (MIC1、MIC2、MIC3、MIC4) 呈圆形排列的多麦克风系统可以确定声源与每个麦克风之间的距离差 (d1、d2、d3、d4)。根据这些距离差计算到达时间差是 TDoA 算法的核心。

2.1. 声音分类 韩华视觉的声音分类技术基于核心深度学习模型:卷积神经网络 (CNN)。该技术首先将抽象的声音信息转化为视觉形式,即声谱图1。声谱图如同声音的“指纹”,清晰地展现特定声音的独特模式。CNN 擅长自动学习和识别声谱图中人耳通常难以分辨的细微声学特征和模式。这一过程能够准确识别和分类各种声音事件,包括尖叫声、玻璃破碎声、汽车喇叭声和轮胎打滑声。一旦检测到并分类出声音,系统就会自动从音频流中提取数据。由于音频数据已经过预处理,并且amp然后,将分类后的声音生成音频片段 file,包含元数据,方便下载和重新view。该技术适用于部分 Hanwha Vision 产品。 2.2. 声音方向检测 Hanwha Vision 的声音方向检测技术可识别并通知用户指定音频事件的方向,从而实现快速响应。该技术通过测量声音信号到达多个物理上分离的麦克风时的到达时间差 (TDoA) 来确定此方向。TDoA 算法通过分析声音到达每个麦克风所需时间的相位差来工作,从而估算到声源的实际距离。然后,该信息用于计算声源的角度。如图 1 所示,一个多麦克风系统,其中麦克风 (MIC1、MIC2、MIC3、MIC4) 排列成一个圆圈,可以确定声源和每个麦克风之间的距离差 (d1、d2、d3、d4)。根据这些距离差计算到达时间差是 TDoA 算法的核心。图2直观地展示了声音信号到达两个麦克风的时间差(τij)(棕色和蓝色波形)。通过精确测量这些到达时间差,系统可以准确地三角测量出声源的方向。 Hanwha-Vision-SPS-A100M-AI-声音分类和声音方向检测 (3)

声音方向检测过程分为四个主要步骤:

  1. 信号采集:通过多个麦克风同时采集声音信号。
  2. 信号处理:使用专门的算法分析收集到的信号。
  3. 方向估计:根据处理后的信号估计声音的方向。
  4. 结果输出:将最终检测到的方向显示为方位角。

该技术适用于支持多个麦克风的韩华视觉产品,例如 Audio Beacon(SPS-A100M)和某些配备 Wisenet 9 SoC 的摄像头。

Hanwha-Vision-SPS-A100M-AI-声音分类和声音方向检测 (4)

安装和环境:最佳性能指南

韩华Vision AI音频解决方案的有效性与其安装环境密切相关。通过积极考虑以下几点,您可以最大限度地发挥系统的潜力并确保其稳定性能。

选择最佳安装位置
为了实现可靠的声音分类和方向检测性能,建议满足以下条件:
声音分类:当产品与声源之间的距离至少为 2 米时,系统运行最可靠。此距离取决于声源的高度。如果距离太近(2 米以内),即使是看似低音量的声音(例如拍手声)也可能变得过大,从而导致误报。室内天花板安装是声音分类的理想方法,因为它可以最大限度地减少声反射,并能够在较大范围内实现均匀的声音检测。

Hanwha-Vision-SPS-A100M-AI-声音分类和声音方向检测 (5)声音方向检测:为了实现精确的方向检测,建议至少留出 6.0 米宽、6.0 米长的最小空间。这可以最大限度地减少声音反射和混响的影响,并确保有足够的空间进行多个麦克风之间的信号分析。 Hanwha-Vision-SPS-A100M-AI-声音分类和声音方向检测 (6)

保持适当的距离和入射角:事件声源与产品之间的距离和角度对于检测精度至关重要。如果事件声的入射角过大(超过 20 度)或距离过短,检测精度可能会降低。下表根据产品的安装高度提供了建议的最小距离。

产品安装高度 最小方向检测距离
2.3米 ≥2.2米
2.5米 ≥2.7米
2.7米 ≥3.3米
2.9米 ≥3.8米
3.1米 ≥4.4米
3.3米 ≥4.9米
3.5米 ≥5.5米
3.8米 ≥6.3米
4m ≥6.9米
5m ≥9.6米

确保声音路径清晰:声源和产品之间的物理障碍物(例如墙壁、玻璃或厚窗帘)可能会削弱或扭曲信号。为了获得最佳性能,请确保声音路径清晰、直接。

有效声音检测和分类的环境分析
为了准确检测和分类声音,请考虑以下声学条件和周围环境因素。

声音类型 dB阈值 预测距离
尖叫 >70分贝 2米~20米
玻璃破碎、汽车喇叭声、轮胎打滑 >80分贝 2米~16米

例如amp例如,当尖叫声的音量高于 70dB 时,可以准确分类并定向探测。事件声音的音量也必须明显高于周围的背景噪音(建议至少高出 30dB)。为了实现准确的测量和分类,理想情况下,背景噪音不应超过 60dB,以确保清晰区分事件噪音和环境噪音。
由于环境噪声会影响性能,因此最好提前分析以下内容:

  • 室外环境:注意自然噪音(风、雨、雷)和人工声音(交通、撞击、汽车颠簸)。在不可预测的环境中,全面的分析可以帮助您选择最佳安装位置。
  • 室内环境:声音反射和混响可能非常明显,具体取决于材料(墙壁、天花板、地板)和房间大小。类似于目标事件的声音,例如气球爆裂或重箱掉落,可能会产生混响,从而导致误报。安装时应考虑室内空间的声学特性。

配置声音分类 dB 阈值
为了优化声音分类功能,您可以配置 dB 阈值以适合您的特定环境。

  • 在嘈杂的环境中,将阈值设置得更高以减少误报。
  • 在事件微妙的安静环境中,将阈值设置得较低,以避免错过重要警报。
  • 检查平均背景噪音 dB 后,建议设置比该平均值高至少 55dB 的阈值。

Hanwha-Vision-SPS-A100M-AI-声音分类和声音方向检测 (7)如图 6 所示,dB 阈值可以通过滑块或数字输入框直观地调整,直接影响实时检测灵敏度。该图直观地显示了声音 dB 随时间的变化(黑线)和配置的阈值(灰线),方便用户轻松查看声音事件(橙色峰值)何时超过阈值。

声向校准和系统配置
韩华视觉产品以音频片段的形式提供事件,其中包括声音分类和方向检测结果。

Hanwha-Vision-SPS-A100M-AI-声音分类和声音方向检测 (1)如图7所示,声音分类结果以直观的图标显示在底部,同时显示声音方向检测结果。“方向(N+301.8∘)”表示声源位于北(N)顺时针方向301.8∘处。
附带的“置信度 (0.74)”值表示置信度为 74%。该值与声压级 (52dB) 相结合,可帮助用户准确评估情况并快速做出反应。
系统的声音方向信息可能会随着时间的推移或由于安装原因而偏离真北方向。由于准确的方向信息至关重要,因此根据需要校准北参考点至关重要。校准方法如下:

  1. 安装产品时应面向罗盘指示的正北方向。
  2. 在产品菜单中,导航至[系统] > [产品信息] > [安装模式],然后直接输入从罗盘北到相机参考点顺时针测量的角度。
  3. 使用 Wisenet 安装工具中包含的指南针功能,可以进行更方便、更准确的初始设置。

 复杂声学环境的技巧

  • 复杂的声学环境:在同时存在多种声音的环境中,AI 模型可能会将它们归类为单一声音,或者进行错误分类。这是一种自然现象;全面分析系统提供的信息将有助于确保准确的态势感知。
    环境分析助力精准报警:声音分类模型可能会针对与事件声音相似但不属于分类类别的声音生成警报,例如金属物体摩擦、动物鸣叫、乐器或其他突发的强烈噪音。了解模型的这一特性,可以帮助您预测并应对这些异常声音引发的警报,从而有效减少不必要的混乱。

结论

通过超越视觉观察的局限性,韩华光学的 AI 音频解决方案创建了一个真正全面的预警系统,可以智能地分析声音。
本白皮书可作为实用指南,帮助您针对特定环境实施和优化技术——从初始安装到微调以实现最佳性能。
随着安全挑战的不断演变,韩华光学始终致力于提升其音频分析能力,确保在任何情况下都能提供更稳定、高效和主动的安全体验。

韩华远景

  • 13488 韩华愿景研发中心,
  • 京畿道城南市盆唐区板桥路319街6 www.HanwhaVision.com
  • 版权所有 ⓒ 2025 Hanwha Vision。保留所有权利。

文件/资源

Hanwha Vision SPS-A100M AI声音分类和声音方向检测 [pdf] 用户手册
SPS-A100M AI 声音分类和声音方向检测, SPS-A100M, AI 声音分类和声音方向检测, 分类和声音方向检测, 声音方向检测, 方向检测, 检测

参考

发表评论

您的电子邮件地址不会被公开。 必填字段已标记 *