当前位置:网站首页 > 技术博客 > 正文

python处理语音信号



Mel频率倒谱系数(MFCC)的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望获得好的语音特性。

 

python读取语音调用wave模块

nchannels: 声道数 1

sampwidth:量化位数 2

framerate:采样频率 8000

nframes:采样点数 19000

在这里插入图片描述

预加重的目的是为了补偿高频分量的损失,提升高频分量,预加重的滤波器常设为

变换后:

 

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pfA54HWO-1576392559693)(C:UsersjhAppDataRoamingTypora	ypora-user-images1576388987768.png)]

分帧处理:由于语音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看做稳态信号,可用处理稳态信号的方法来处理。同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在相邻两帧之间互相有部分重叠。

加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。语音信号x(n)经预处理后为xi(m),其中下标i表示分帧后的第i帧。

 
 
 

​ 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的。在语音特征的提取上,人类听觉系统做得非常好,它不仅能提取出语义信息, 而且能提取出说话人的个人特征,这些都是现有的语音识别系统所望尘莫及的。如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率。

​ 梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。

将普通频率转化为mel频率的公式为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BJXSCmBI-1576392559694)(C:UsersjhAppDataRoamingTypora	ypora-user-images1576392519332.png)]

将mel频率转化为普通频率公式为:

梅尔滤波器组,每个滤波器的传递函数为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RT9e3Hab-1576392559694)(C:UsersjhAppDataRoamingTypora	ypora-user-images1576390569317.png)]

每个滤波器在mel频率上是等带宽的。

中心频率f(m)可以表示为:

这里我采用m=24个滤波器

 

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZkVrw9aq-1576392559695)(C:UsersjhAppDataRoamingTypora	ypora-user-images1576391540230.png)]

具体过程可参考:

[梅尔滤波器组的分析与设计思路]: https://blog.csdn.net/tengfei0973/article/details/

 

因为语音信号特征主要集中在低频部分,所以一般选用每一帧信号的前12个滤波器作为MFCC参数。

MFCC参数主要用来做语音识别和端点检测。

总代码:

 

输出结果:一个146×12的矩阵 146代表帧数,12代表每帧的MFCC系数

[[ 4.e+01 5.e+01 2.e+01 … -1.e+01
-2.e+01 -3.e+01]
[-7.0e+00 -5.e+00 -4.e+00 … 3.e+00
4.e+00 6.e+00]
[-1.e+01 -1.e+01 -9.e+00 … -8.e+00
-1.e+01 -1.e+01]

[-2.e-01 -1.e-01 -5.e-01 … -1.e-01
-2.e-02 -6.e-02]
[-1.e-01 -2.e-01 -1.e-01 … 4.e-02
-1.e-02 2.e-02]
[-1.0e-01 -6.e-02 -1.e-01 … 1.e-01
-7.e-02 8.e-02]]

MFCC提取流程图:

img


                            

  • 上一篇: 网页性能测试
  • 下一篇: 移位运算求值
  • 版权声明


    相关文章:

  • 网页性能测试2025-01-18 15:30:02
  • Debian8下载2025-01-18 15:30:02
  • ifconfig-lo2025-01-18 15:30:02
  • 敏捷宣言包括2025-01-18 15:30:02
  • 灰度发布什么意思2025-01-18 15:30:02
  • 移位运算求值2025-01-18 15:30:02
  • mipi接口三种模式的区别2025-01-18 15:30:02
  • fstream ifstream2025-01-18 15:30:02
  • 自动化测试视频教程2025-01-18 15:30:02
  • orm框架的基本原理2025-01-18 15:30:02