交流园地

>> 返回列表

基于关键词识别的黑广播识别方法研究

2019-06-20

由于无线电广播技术自身的开放性,时常有出于不同目的用户,在批准发射的频率之外,擅自占据频段进行广播发射(俗称黑广播,即非法广播)。在这之中,出于经济目的非法广播发射尤为明显,其内容以售卖假冒伪劣产品居多,严重扰乱经济秩序。另外,即便是一些非主观恶意的私占频段发射(如无线电爱好者自行搭建平台),也会扰乱正常电子通讯的运转,在某些情况下甚至会干扰关键性通讯设备(如飞机飞航通讯频段),引发严重的安全隐患。因此,进行有效的黑广播自动识别,进而便于无线电电磁频谱管控是一项意义重大的课题。

传统的黑广播识别主要是基于人工收听并识别的方法,具有成本高、效率低、操作人员疲劳易引发失误等缺点。现有语音识别模型通常针对整句识别、语义判定而设计的,其大部分只提供线上使用功能,无法离线使用,可移植性差,且在广播大噪声的情况下识别成功率也很低,不适用于稳健高效地黑广播自动识别。

针对现有技术中的上述不足,本文提供一种基于关键词识别的无线电识别方法,采用的技术方案为(图1):

一、建立声学模型,将声音信号转换为音素;

二、建立语言模型,进一步选出最有可能的音素组合,输出为文字;

三、根据转换的文字提取关键词,判断该无线电广播是否合法。

1

1 基于关键词识别的黑广播识别方法流程


第一步,建立声学模型,将声音信号转换为音素。音素[1]phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素 音素分为元音、辅音两大类。声学模型基于马尔科夫-高斯混合(HMM-GMM)模型,相较于以神经网络为基础的声学模型,此类模型具有较强的可解释性,同时也适合小样本训练的特点。马尔科夫-高斯混合模型[2]同时融合了隐马尔可夫链(Hidden Markov Model, HMM)和高斯混合模型[3](Gaussian Mixture Model, GMM),其中,马尔可夫链用来表征系统在某一时刻的状态,在声学模型中即可能发声的音节;高斯混合模型则用来建模各时刻的声学波形,并通过各种声学发声波形与马尔可夫链的关系推测最可能的对应发音。

具体地,对于高斯混合模型,可以用如下的表达式来表征:

2


其中x表示某一个音节;p(x)为输出某一个音节的概率;P(m)为对应高斯概率密度函数的权值;μmσm²是对应的高斯分布的参数;m为子模型的索引,即第m个子模型;M为总共的子模型数量;N·)为多元高斯分布;I为对应数据维度的单位矩阵;P(x|m)为对于第m个模型,输出某一个音节的概率。

而隐马尔可夫链的推导公式则以以下两个前进公式为核心:

3


式中,S表示各时刻状态,x则表示表征声学模型波形的随机变量。所以,第二个公式为对各帧的特征信号进行建模的概率密度函数,即有时我们所说的发射函数(emission function。在声学信号建模中,我们令这个函数遵从高斯混合模型,从而得到我们的HMM-GMM总体模型;而第一个公式则反映的是隐状态之间的变化,状态之间的转移可以使用动态规划(Dynamic Programming)的方法计算。

  对于模型的参数自适应调整,我们将使用最大后验概率[4]的方法,其基础公式为:

4


其中,P(λ)为先验概率;P(O|λ)为似然函数,即表征数据在特定的模型设定下似然程度的度量;λ为模型相关的参数,而λMAP则是经过最大后验概率调整后的模型相关参数。带入相关的模型,我们可以得到具体地参数自适应调整公式:

经过更新的各高斯混合模型中的均值:

5

经过更新的模型各高斯元权重:

6


具体操作为,截取50-1003-5秒的广播录音,其内容需要较为清晰,并存储为.wav格式;然后在与广播录音相同的路径下,建立句子描述文件(.transcript)、录音匹配文件(.field)和改进词典(.dic)。其中,句子描述文件记录了按词组拆分的句子,需要人工加入空格断句;录音匹配文件记录各句子对应的录音文件名(如RadioRecord1);而辞典则记录了录音匹配文件中每个词组的发音。在完成了上述工作后,将所有的.wav文件转为mfc文件;而后,将原模型中的参数文件转换为文本;最后,统计所有的音频文档的信息,并根据句子描述文件、录音匹配文件和辞典分别进行匹配。在完成了上述操作后,可以使用最大后验概率的方法对基础模型的参数进行调整。

第二步,根据词典及语言模型生成器建立语言模型,将样本词作为提取条件,提取与样本词相同的词作为关键词,具体步骤为:

1、建立文本文件,在文本文件的每一行中加入样本关键词;

2、通过在线语言模型生成工具对文本文件进行语言模型及词典的生成,完成语言模型的建立;

3、通过语言模型提取所识别文字中的关键词。

第三步,根据专家系统将样本词进行组合得到判断该无线电广播内容是否合法的判定条件,将关键词不符合判定条件的无线电广播作为非法广播,将关键词符合判定条件的无线电广播作为正常广播[5]

本方法基于人工智能发展的成果进行综合改进,使得无线电识别可以实现自动化,极大的节省了成本、提升了效率;本方法针对无线电广播信号的特点,实现可定制化,能够最大化的满足不同需求;本方法可以离线使用,特别适合于需要保密的项目中;并且能在存在背景音乐或其他噪声的情况下进行识别,便于应用于更广泛的场景当中。

参考文献

韩军.基于DBF的汉语方言自动辨识[J].电声技术,2017,41(Z1):120-124.

靳双燕. 基于隐马尔可夫模型的语音识别技术研究[D].郑州大学,2013.

梁岩,鲍长春,夏丙寅,何玉文,周璇,李娜.基于高斯混合模型的压缩域语音增强方法[J].电子学报,2012,40(10):2031-2038.

李婉玲,张秋菊.基于联合最大后验概率的语音增强算法[J].计算机系统应用,2018,27(12):163-168.

[5]  Sphinx reference manual [EB/OL]. http://www.sphinxsearch.com/docs/current.html