Mel-frequency cepstral coefficients(MFCCs)和其它特征的组合称为 MSFBank,是一种通过离散余弦变换和限制滤波器组被用来提取音频的频率图特征的技术。MFCCs是一种常见的音频处理算法,它根据人耳的听觉特性分析声音特征,从而实现自动识别不同语音,并且可用来建立语音识别系统。
MSFBank是一种频谱图特征提取方法,它使用了一种称为节点分布函数(NDF)的函数来描述声音的波形,这一函数由一系列等间距并行滤波器组的输出构成。它使用了一系列在频率上某种方式特定分布(特别是在活动噪声区域)的NDF节点,输出的频谱图包含整个频谱范围所有频率。
该方法还可以用离散余弦变换(DCT)转换为MFCCs,包括语音信号的频率幅值量化,即把音频信号的波形投影到一系列正弦函数上,并在每一个余弦函数上取样,从而提取出一系列特征值的MFCCs系统组,来表达人类语言的特性,并且信息的失真度又能比较小。MFC Banks可以用来表示语音的变化特性,以及语音数据的统计纹理,有利于识别的准确性和压缩方面。
MSFBank最大的优点之一是它需要很少的处理时间,而且它可以从间隔数据中提取有用信息。其核心思想在于将声音信号分解为一系列特定类型的频谱图,这种技术可以被用来提取信号的频域特征。因为它可以只使用几个特征,就能够准确地获得语音的信息。在这方面,它有着不错的表现,并有可能在语音识别领域得到更多的应用。