本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。
本文档编写日期2013-04-231、为什么要训练?sphinx4目前的版本中仅提供了英文等语音识别库。
中文的库是PTM或semi类型的,在java版sphinx中无法使用。
2、Sphinx的训练指哪些内容?在Sphinx中有语言模型、声学模型等概念,如果你不想了解这些,请参考以下内容:a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注这个文件就是zh_broadcastnews_utf8.dic(下称这类文件为发音字典),在sphinx网站上可以下载,我们也包含了它。
下面是该文件的片断,它用类似拼音的方式标注了每个字或词的发音。
昌chang昌北changbei昌必changbi昌都changdu昌赫changhea2、需要告诉sphinx我们经常使用的字、词是哪些,它们出现的频率如何由于开放式语音识别尚难实现,所以sphinx实际上只能较好的处理相对小的语言集合。
因此,针对特定的领域,告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。
a3、需要告诉sphinx每个字、词的真正读音发音字典告诉sphinx每个字的标准读音,但面对的说话人往往不会以标准读音来朗读。
因此sphinx需要学习说话人的“口音”。
如果训练时的读者发音比较标准,则sphinx能“举一反三”,识别其他不那么标准的读者的语音。
推荐的做法是训练一些典型的口音:标准男、女声,童音,最后再考虑特定用户的口音。
3、如何准备训练内容所需的原料?需要准备两大内容:1)文本语料文件,2)语料录音文件。
文本语料文件给出2.a2中需要的内容,在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。
它以行为单位,给出了150个中文句子。
语料录音文件是根据文本语料文件,朗读它的每行/句话,保存到每一个语音文件即可。
语料文件中的语句应该尽量选择领域相关的,在覆盖领域内名词的前提下,覆盖尽可能多的通用词汇。
4、训练环境及注意事项本文的训练软硬件如下:硬件:T60P笔记本,机器自带录音设备;
操作系统为Win732位。
软件:Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip,用于编写java版的识别软件所需的库 脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip,可进行录音和声音文件处理(如降噪),免费软件 FairStars.zip,可进行批量录音(V3.5绿色版) 文本编辑软件UltraEdit,UltraEdit-32.rar绿色版注意: 文件格式 语料文件必须使用UltraEdit进行编辑, 在编辑后,使用文件-转换-ASCII转UTF-8(UNICODE编辑),指定文件中的中文使用utf8编码。
在保存前,设置格式如下: 换行符:UNIX终束符-LF 指定文件中的回车/换行符为编码0A的换行符 格式:UTF-8-无BOM 每个文件的末尾必须有一个回车! 这个回车将在保存时被替换为编码0A的换行符,训练脚本需要这个符号来确认文件的结束。
录音文件 如果你不希望去编辑训练中的配置文件,则在使用FairStars录音时作如下设定: 进入菜单和对话框选项-显示录音选项-编码-WMA, 设定:采样率(16000Hz)、通道(单声道)、比特率(16Kbps)5、训练步骤下面逐步从零开始进行训练5.1软件环境的安装将本文档所在的文件夹解压或拷贝到d:\,即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi;
2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下
2023/8/14 6:38:31 53.17MB sphinx 中文 语音 训练
1
声纹识别技术,形象的说法就是说话人识别技术。
它是根据人在说话时产生的波形,以及波形中反映人类心理和生理的特征参数来判断说话人的身份的技术。
本文所研究的是与文本有关的说话人确认系统。
比较了基于声道的线性预测倒谱系数(LPCC)和基于听觉特性的MEL频率倒谱系数(MFCC)参数特征,得出MFCC对环境存在更高的鲁棒性。
并运用了隐形马尔可夫模型(HMM)在MATLAB上实现了语音数字的识别仿真。
本实验系统的识别率达到了90%,验证了HMM模型识别的准确性。
1
这项与事件相关的潜能(ERP)研究检查了语音识别中上下文相关说话者标准化的时间过程。
我们发现三个ERP组件,即N1(100-220毫秒),N400(250-500毫秒)和后期正向组件(500-800毫秒),它们被推测涉及(a)听觉处理,(b)说话者标准化和词汇检索,以及(c)决策过程/词汇选择。
说话人标准化可能发生在N400的时间窗口中,并且与词汇检索过程重叠。
与非语音上下文相比,无论语音上下文是否具有语义内容,它们都使收听者能够调整到讲话者的音调范围。
以这种方式,语音上下文在潜在的候选词的激活过程中诱导了更有效的说话者归一化,并导致在语音单词识别中更准确地选择了预期的单词。
2023/8/5 2:54:19 1024KB Talker normalization; Tone perception;
1
对于一家企业来说,其能源消耗是其企业管理中一个重要组成部分,对于企业的正规化管理和健康成长都至关重要。
通过对能源计量数据的应用分析,测算、评价可以找出生产与管理中的各类问题,以利采取有效办法,用数据说话,认真解决提高能源利用率,降低成本,走科技含量高、能源消耗低、资源节约型的工业化道路,以最小的资源消耗去创造最大的经济效益。
对于企业用能情况的使用,应当针对企业不同员工进行级别的划分,不同级别有其相应的操作权限。
本文设计设置三种级别的员工用户,分别是游客用户、普通用户和管理员用户,分别可以对用能信息进行查阅、查阅填报和查阅整理发布的相应操作。
本文设计基于WEB技术搭建企业用能信息在线填报系统,在ASP.NET动态WEB应用程序开发平台上使用C#语言进行设计,方便任何用户在任何能接入企业内部网络的计算机上,使用浏览器就能完成相应查阅、填报和管理操作
2023/7/30 2:10:02 65KB 企业用能
1
准备考南京邮电大学复试的同学可以看看综合面试3个问题100分基本只要说话60分到手也就是别人90多分自己60多分的区别差距还是有的基本上回答不出2个也凉凉多看看吧
2023/7/15 20:21:36 6.34MB 南邮 通院 通信
1
《C专家编程》,英文名《ExpertCProgramming》,作者:【美】PetervanderLinden,翻译:徐波。
出版社:人民邮电出版社,ISBN:9787115171801。
PDF格式,大小7.6MB。
内容简介:《c专家编程》展示了最优秀的c程序员所使用的编码技巧,并专门开辟了一章对c++的基础知识进行了介绍。
  书中c的历史、语言特性、声明、数组、指针、链接、运行时、内存以及如何进一步学习c++等问题进行了细致的讲解和深入的分析。
全书撷取几十个实例进行讲解,对c程序员具有非常高的实用价值。
  本书可以帮助有一定经验的c程序员成为c编程方面的专家,对于具备相当的c语言基础的程序员,本书可以帮助他们站在c的高度了解和学习c++目录:第1章 c:穿越时空的迷雾  1.1 c语言的史前阶段  1.2 c语言的早期体验  1.3 标准i/o库和c预处理器 1.4 k&rc 1.5 今日之ansic 1.6 它很棒,但它符合标准吗  1.7 编译限制 1.8 ansic标准的结构  1.9 阅读ansic标准,寻找乐趣和裨益  1.10 “安静的改变”究竟有多少安静  1.11 轻松一下——由编译器定义的pragmas效果 第2章 这不是bug,而是语言特性  2.1 这关语言特性何事,在fortran里这就是bug呀  2.2 多做之过 2.3 误做之过  2.4 少做之过  2.5 轻松一下——有些特性确实就是bug  2.6 参考文献 第3章 分析c语言的声明 . 3.1 只有编译器才会喜欢的语法  3.2 声明是如何形成的  3.3 优先级规则  3.4 通过图表分析c语言的声明  3.5 typedef可以成为你的朋友  3.6 typedefintx[10]和#definexint[10]的区别  3.7 typedefstructfoo{...foo;}的含义  3.8 理解所有分析过程的代码段  3.9 轻松一下——驱动物理实体的软件 第4章 令人震惊的事实:数组和指针并不相同  4.1 数组并非指针  4.2 我的代码为什么无法运行  4.3 什么是声明,什么是定义  4.4 使声明与定义相匹配  4.5 数组和指针的其他区别  4.6 轻松一下——回文的乐趣 第5章 对链接的思考  5.1 函数库、链接和载入  5.2 动态链接的优点  5.3 函数库链接的5个特殊秘密  5.4 警惕interpositioning  5.5 产生链接器报告文件  5.6 轻松一下——看看谁在说话:挑战turing测验 第6章 运动的诗章:运行时数据结构  6.1 a.out及其传说  6.2 段  6.3 操作系统在a.out文件里干了些什么  6.4 c语言运行时系统在a.out里干了些什么  6.5 当函数被调用时发生了什么:过程活动记录  6.6 auto和static关键字  6.7 控制线程  6.8 setjmp和longjmp  6.9 unix中的堆栈段  6.10 ms-dos中的堆栈段  6.11 有用的c语言工具 6.12 轻松一下——卡耐基-梅隆大学的编程难题 6.13 只适用于高级学员阅读的材料第7章 对内存的思考第8章 为什么程序员无法分清万圣节和圣诞节第9章 再论数组 第10章 再论指针 第11章 你懂得c,所以c++不在话下附录a 程序员工作面试的秘密附录b 术语表
2023/7/15 18:17:40 7.48MB C专家 C专家编程 C精通 C深入
1
本资源是基于MATLAB的说话人识别系统,是基于HMM模型的,具有很高的识别效率,大家可以放心使用本资源是基于MATLAB的说话人识别系统,是基于HMM模型的,具有很高的识别效率,大家可以放心使用
2023/7/3 7:34:35 1.07MB MATLAB HMM 隐马尔科夫 说话人识别
1
html5制作手机微信聊天语音发送话筒录音动画效果。
手指按住说话,松开结束语音发送特效。
内含源码及图片素材
2023/6/12 11:24:55 28KB 微信 语音 说话 手机
1
该文件包含GMM-UBM模型和基于ivector的GMM-UBM模型。
与其他MSR工具箱不同的是,在计算指标部分添加了AUC和EER。
直接运行demo_gmm_ubm_artificial.m或者demo_ivector_plda_artificial.m即可。
2023/6/10 14:49:23 1.79MB 说话人识别
1
该压缩包中包含一个完整的语音识别程序,代码使用matlab实现,使用了经典的GMM,HMM模型。
附件中还包含完整的说明文档,介绍了一些基本原理,和该源码的使用方法。
是语音识别入门必读源码之一。
该源码只需要很小的改动就可以用来做说话人识别。
:}
2023/6/5 8:36:53 2.25MB GMM HMM 语音识别 高斯混合模型
1
共 85 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡