The audio file is recognized and classified from the above two aspects. considering that there will be some misjudgment, the recognition category is set to three categories: male voice, female voice and manual recognition, and the judged voice is stored in the corresponding category file for later manual correction.

2 代码

（1）主函数

%================================================
%&#x4F5C;&#x8005;&#xFF1A;Uestc-Sl
%&#x521B;&#x5EFA;&#x65E5;&#x671F;&#xFF1A;2021.04.19
%&#x7EF4;&#x62A4;&#x65E5;&#x671F;&#xFF1A;2021.04.19
%&#x529F;&#x80FD;&#x63CF;&#x8FF0;&#xFF1A;&#x5C06;&#x526A;&#x5207;&#x58F0;&#x97F3;&#x4E0E;&#x5224;&#x65AD;&#x7537;&#x5973;&#x58F0;&#x529F;&#x80FD;&#x76F8;&#x7ED3;&#x5408;&#xFF0C;&#x5B9E;&#x73B0;&#x526A;&#x5207;&#x3001;&#x8BC6;&#x522B;&#x3001;&#x5206;&#x7C7B;&#x5B58;&#x50A8;&#x4E00;&#x7CFB;&#x5217;&#x529F;&#x80FD;
%&#x8C03;&#x7528;&#x51FD;&#x6570;&#xFF1A;judge.m
%&#x4F7F;&#x7528;&#x6D41;&#x7A0B;&#xFF1A;&#x70B9;&#x51FB;&#x8FD0;&#x884C;--->&#x9009;&#x62E9;&#x539F;&#x59CB;&#x97F3;&#x9891;&#x6587;&#x4EF6;--->&#x9009;&#x62E9;&#x526A;&#x5207;&#x53CA;&#x8BC6;&#x522B;&#x5206;&#x7C7B;&#x540E;&#x7684;&#x6587;&#x4EF6;&#x8F93;&#x51FA;&#x76EE;&#x5F55;---->&#x526A;&#x5207;&#x97F3;&#x9891;
%         ----->&#x8BFB;&#x53D6;&#x526A;&#x8F91;&#x7684;&#x97F3;&#x9891;&#x5E76;&#x8BC6;&#x522B;---->&#x6839;&#x636E;&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#x5C06;&#x8BE5;&#x8BED;&#x97F3;&#x5B58;&#x5165;&#x5BF9;&#x5E94;&#x5206;&#x7C7B;&#x6587;&#x4EF6;&#xFF0C;&#x4EE5;&#x4FBF;&#x4EBA;&#x5DE5;&#x6821;&#x5BF9;---->&#x7ED3;&#x675F;
%&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#x6587;&#x4EF6;&#x5939;&#x53CA;&#x76EE;&#x5F55;&#x7ED3;&#x6784;     &#x6307;&#x5B9A;&#x8DEF;&#x5F84;----> interval_2_0?-1 ---> &#x526A;&#x5207;&#x597D;&#x7684;&#x97F3;&#x9891;
%                                                         --->&#x7537;&#x58F0;
%                                                         --->&#x5973;&#x58F0;
%                                                         --->&#x9700;&#x4EBA;&#x5DE5;&#x8BC6;&#x522B;
%&#x5907;&#x6CE8;&#xFF1A;
%&#x5176;&#x4ED6;&#xFF1A;&#x53EF;&#x8003;&#x8651;&#x5F15;&#x5165;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#xFF0C;&#x6784;&#x5EFA;&#x66F4;&#x9AD8;&#x7EF4;&#x5EA6;&#x7684;&#x5411;&#x91CF;&#xFF0C;&#x63D0;&#x9AD8;&#x57FA;&#x4E8E;&#x5224;&#x65AD;&#x5E45;&#x503C;&#x548C;&#x57FA;&#x97F3;&#x9891;&#x7387;&#x5224;&#x65AD;&#x7684;&#x51C6;&#x786E;&#x6027;
%================================================

 clear;
 clc;
 [file1,PathName,FilterIndex] = uigetfile('.wav','Select the M-file');
 file=strcat(PathName,file1);
 outfilePath=uigetdir;
 %======================&#x521B;&#x5EFA;&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#x6587;&#x4EF6;=========================
 new_folder0 = strcat(outfilePath,'\','interval_2_',file1(1:4)); % &#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x52A0;&#x524D;&#x7F00;&#x7684;&#x540C;&#x540D;&#x6587;&#x4EF6;&#x5939;&#xFF0C;&#x4FDD;&#x5B58;&#x5904;&#x7406;&#x540E;&#x7684;&#x6570;&#x636E;
 mkdir(new_folder0);
 new_folder1 = strcat(new_folder0,'\','&#x526A;&#x5207;&#x597D;&#x7684;&#x97F3;&#x9891;');
 mkdir(new_folder1);
 new_folder2 = strcat(new_folder0,'\','&#x7537;&#x58F0;');
 mkdir(new_folder2);
 new_folder3 = strcat(new_folder0,'\','&#x5973;&#x58F0;');
 mkdir(new_folder3);
 new_folder4 = strcat(new_folder0,'\','&#x9700;&#x4EBA;&#x5DE5;&#x8BC6;&#x522B;');
 mkdir(new_folder4);
 %=============================================================

 [x,fs]=audioread(file); % &#x8BFB;&#x5165;&#x58F0;&#x97F3;&#x6587;&#x4EF6;
 data=x(:,1);            % &#x53D6;&#x5355;&#x58F0;&#x9053;
 len=length(data);       % &#x83B7;&#x53D6;&#x5E8F;&#x5217;&#x957F;&#x5EA6;&#x548C;&#x6DF1;&#x5EA6;
 timeInterval=2;         % &#x63D0;&#x53D6;&#x7684;&#x65F6;&#x95F4;&#x95F4;&#x9694;&#xFF08;s&#xFF09;

for i=1:ceil(len/fs)
    start_time = timeInterval*(i-1);
    end_time =timeInterval*i;
     if end_time*fs <=len y_new="x((fs*start_time+1):fs*end_time,1);" outfilename="strcat(new_folder1,'\',num2str(i),'.wav')" audiowrite(outfilename,y_new,fs); %将分割好的音频存入指定文件 [ansnum]="judge(OutFileName);" if ansnum="=0" %男声 outfilename2="strcat(new_folder2,'\',num2str(i),'.wav');" audiowrite(outfilename2,y_new,fs); end %女声 outfilename3="strcat(new_folder3,'\',num2str(i),'.wav');" audiowrite(outfilename3,y_new,fs); %需人工识别 outfilename4="strcat(new_folder4,'\',num2str(i),'.wav');" audiowrite(outfilename4,y_new,fs); < code></=len>

（2）子函数judge.m

%&#x8FD4;&#x56DE;&#x503C; 0 &#x7537;&#x58F0;
%       1 &#x5973;&#x58F0;
%       2 &#x9700;&#x4EBA;&#x5DE5;&#x8BC6;&#x522B;
function [ansnum]=judge(filename)

    [x1,fs1]=audioread(filename); % &#x8BFB;&#x5165;&#x58F0;&#x97F3;&#x6587;&#x4EF6;
     data1=x1(:,1);            %&#x53D6;&#x5355;&#x58F0;&#x9053;

    %======&#x57FA;&#x97F3;&#x9891;&#x7387;&#x63D0;&#x53D6;======
    N=length(data1);
    [~,index]=max(data1);          % &#x8FD4;&#x56DE;&#x6700;&#x5927;&#x503C; &#x6700;&#x5927;&#x503C;&#x7D22;&#x5F15;
    timewin=floor(0.015*fs1);

    %&#x907F;&#x514D;&#x6EA2;&#x51FA;
    [a,ind] = sort(data1);
    count=1;
    while index+timewin>N
         a(end)=[];
         count=count+1;
         [~,index]=max(a);
    end
    temp=index-timewin;
    if temp<0 temp="1;" end xwin="data1(temp:index+timewin);" [y,~]="xcov(xwin);" ylen="length(y);" halflen="(ylen+1)/2" +30; yy="y(halflen:" ylen); [~,maxindex]="max(yy);" fmax="fs1/(maxindex+30);" disp([filename,'基音频率为 ', num2str(fmax), ' hz']) %="===============&#x8003;&#x8651;&#x5E45;&#x503C;&#x4FE1;&#x606F;======" mean="0;" for i="1:N" if data1(i)>0
        mean=mean+data1(i);%&#x53EA;&#x8BA1;&#x7B97;&#x6B63;&#x503C;&#x8303;&#x56F4;&#x5185;&#x7684;&#x5E73;&#x5747;&#x5E45;&#x503C;
        end
    end
    mean=mean/N

    %======&#x901A;&#x8FC7;&#x57FA;&#x97F3;&#x9891;&#x7387;&#x3001;&#x5E45;&#x503C;&#x5927;&#x5C0F;&#x5224;&#x65AD;&#x7537;&#x5973;&#x58F0;======
    if mean>=0.001 && fmax<160 disp([filename,' 是男声文件']); ansnum="0;" else if fmax<160 && fmax>100 ;
            disp([filename,' &#x9700;&#x4EBA;&#x5DE5;&#x8BC6;&#x522B;']);
            ansnum=2;
         else
            disp([filename,' &#x662F;&#x5973;&#x58F0;&#x6587;&#x4EF6;']);
            ansnum=1;
         end;
    end;
    </160></0>

3 代码运行结果

图3.1 输出结果文件夹

图3.2 判定为”男声”音频文件夹

图3.3 判定为”女声”音频文件夹

图3.4 判定为”需人工识别”音频文件夹

每次处理输入的语音时，首先会创建一个文件夹用于存处理完成后的数据，文件夹命名为”interval_2_”+输入文件名的前四个字符，并在该文件夹下创建四个文件夹：剪切好的音频、男声、女声、需人工识别。随后会自动分割录音音频为2s一段的音频，并存入”剪切好的音频”文件夹，然后对剪切好的语音进行识别并存入对应文件夹。

4 结论

根据我的人工校对，发现《男声》的准确率接近100%，召回率(正常情况下)在80%左右，达到了预期的效果。在这些分类声音的基础上，进行人工校对和分类，大大提高了音频剪辑的效率，所以与大家分享，希望能给能用的朋友带来帮助。

[En]

According to my manual proofreading, I found that the precision of “male voice” is nearly 100%, and the recall rate is about 80% (under normal circumstances), which has achieved the desired results. On the basis of these classified sounds, manual proofreading and classification is carried out, which greatly improves the efficiency of audio clipping, so I share it with you, hoping to bring help to friends who can use it.

5 参考资料

【1】http://www.voidcn.com/article/p-hsevylyj-nx.html

【2】https://blog.csdn.net/qq_31821675/article/details/79973532?utm_medium=distribute.pc_relevant_download.none-task-blog-baidujs-4.nonecase&depth_1-utm_source=distribute.pc_relevant_download.none-task-blog-baidujs-4.nonecase

【3】https://blog.csdn.net/weixin_29813667/article/details/113902853

【4】https://ww2.mathworks.cn/help/matlab/ref/mkdir.html

Original: https://blog.csdn.net/qq_38719138/article/details/116207726
Author: automan2019
Title: 语音识别之男女声分类（从一段对话中分离男声）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513070/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch深度学习（六）：Softmax函数实现多分类

### 回答1： PyTorch 实现 softmax 多分类_的步骤如下： 1. 导入必要的库和数据集。 2. 定义模型结构，包括输入层、隐藏层和输出层。 3. 定义损失 _函数…

人工智能 2023年7月21日
00104
【附源码】Python计算机毕业设计企业物资管理系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月28日
0048
AE自动曝光

目录简述：影响因素： AE统计模块： AE算法模块： AE算法要求： AE工作流程：曝光表： AE常见问题：目标亮度：简述： AE（auto exposure），即自动曝…

人工智能 2023年5月26日
0096
通过Python实现手势识别及目标检测的一些感想

※说明：文章中出现的代码均非原创，仅作引用说明使用。第一次写粗制滥造的屑博客，后续还会进行修改（如果能改的话）。关于手势识别概要手势识别，即为向程序输入图形（图片、视频、实…

人工智能 2023年7月12日
0052
离线语音空调插座设计应用案例

1 概述 ¶ 随着科技的进步，市场上出现大量带语音、手机APP可控制的产品，由此可看出客户对产品的功能要求也越来越高，追求舒适的体验感，特别是对操控性的要求越来越高。目前空调产品的…

人工智能 2023年5月25日
0072
【毕业设计】天气预测与数据分析系统 – 机器学习 python

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0075
运筹学动态规划矩阵连乘

public class Utils { public static void matrixChain(int[] p, int[][] m, int[][] s) { int n…

人工智能 2023年6月29日
0066
小红书程序员七夕礼物 – 微信每日早安推送简单部署一键启动

更新：仓库wechat-push中介绍一种无需服务器的部署方式，注册使用码云流水线自动发送消息。没有服务器不会编程的小伙伴，推荐大家使用这种方式。本文来自小红书大佬七夕节的礼物…

人工智能 2023年5月30日
0078
BERT和GPT模型简介

引言从现在的大趋势来看，使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。从之前 AI2 的 ELMo，到 OpenAI 的 fine-tune transformer，…

人工智能 2023年5月31日
0080
Pandas学习笔记

声明：本文为借鉴其他帖子总结出来的学习笔记，不作它用。 Pandas pandas是基于numpy数组构建的，是python中基于numpy和matplotlib的第三方数据分析库…

人工智能 2023年7月7日
0076
【OpenCV】cv2.putText()函数用法

文章目录 cv2.putText()函数用法 * 参数字体选择例如 cv2.putText()函数用法 cv2.putText(image, text, org, font, …

人工智能 2023年6月18日
0081
机器学习（十五）异常检测

Log 2022.03.10开始第十五章的学习，先开个头，看样子肯定还要花不少时间。咱家这两天成中高风险区了，不出意外的话以后要待在宿舍上网课了。2022.03.11把书本从研究院…

人工智能 2023年6月15日
0044
基于 Python 的全国空气质量监测与可视化分析平台

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 项目背景空气质量优劣程度与一个城市的综合竞争力密切相关,它直接影响到投资环境和居民健康,因此越…

人工智能 2023年6月16日
0087
串口一直进空闲中断（并不是空闲就会一直中断）清中断标志位没用

1.空闲中断是接受数据后出现一个byte的高电平(空闲)状态,就会触发空闲中断.并不是空闲就会一直中断,准确的说应该是上升沿（停止位）后一个byte，如果一直是低电平是不会触发空闲…

人工智能 2023年6月29日
0082
YOLOv5 的 Android 部署，基于 tflite

环境 window 10 64bit yolov5 v6.2 torch1.7.1+cuda101 tensorflow-gpu 2.9.1 前言前文借助NCNN，在Andro…

人工智能 2023年7月28日
0083
DenseNet讲解（Tensorflow-2.6.0实现结构）

文章目录 * – 1.论文地址 – 2.DenseNet结构 – 3.ResNet与DenseNet的对比 – + （1）ResNe…

人工智能 2023年5月23日
00129

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音识别之男女声分类（从一段对话中分离男声）

（1）主函数

（2）子函数judge.m

大家都在看