本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。
本文档编写日期2013-04-231、为什么要训练?sphinx4目前的版本中仅提供了英文等语音识别库。
中文的库是PTM或semi类型的,在java版sphinx中无法使用。
2、Sphinx的训练指哪些内容?在Sphinx中有语言模型、声学模型等概念,如果你不想了解这些,请参考以下内容:a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注这个文件就是zh_broadcastnews_utf8.dic(下称这类文件为发音字典),在sphinx网站上可以下载,我们也包含了它。
下面是该文件的片断,它用类似拼音的方式标注了每个字或词的发音。
昌chang昌北changbei昌必changbi昌都changdu昌赫changhea2、需要告诉sphinx我们经常使用的字、词是哪些,它们出现的频率如何由于开放式语音识别尚难实现,所以sphinx实际上只能较好的处理相对小的语言集合。
因此,针对特定的领域,告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。
a3、需要告诉sphinx每个字、词的真正读音发音字典告诉sphinx每个字的标准读音,但面对的说话人往往不会以标准读音来朗读。
因此sphinx需要学习说话人的“口音”。
如果训练时的读者发音比较标准,则sphinx能“举一反三”,识别其他不那么标准的读者的语音。
推荐的做法是训练一些典型的口音:标准男、女声,童音,最后再考虑特定用户的口音。
3、如何准备训练内容所需的原料?需要准备两大内容:1)文本语料文件,2)语料录音文件。
文本语料文件给出2.a2中需要的内容,在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。
它以行为单位,给出了150个中文句子。
语料录音文件是根据文本语料文件,朗读它的每行/句话,保存到每一个语音文件即可。
语料文件中的语句应该尽量选择领域相关的,在覆盖领域内名词的前提下,覆盖尽可能多的通用词汇。
4、训练环境及注意事项本文的训练软硬件如下:硬件:T60P笔记本,机器自带录音设备;
操作系统为Win732位。
软件:Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip,用于编写java版的识别软件所需的库 脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip,可进行录音和声音文件处理(如降噪),免费软件 FairStars.zip,可进行批量录音(V3.5绿色版) 文本编辑软件UltraEdit,UltraEdit-32.rar绿色版注意: 文件格式 语料文件必须使用UltraEdit进行编辑, 在编辑后,使用文件-转换-ASCII转UTF-8(UNICODE编辑),指定文件中的中文使用utf8编码。
在保存前,设置格式如下: 换行符:UNIX终束符-LF 指定文件中的回车/换行符为编码0A的换行符 格式:UTF-8-无BOM 每个文件的末尾必须有一个回车! 这个回车将在保存时被替换为编码0A的换行符,训练脚本需要这个符号来确认文件的结束。
录音文件 如果你不希望去编辑训练中的配置文件,则在使用FairStars录音时作如下设定: 进入菜单和对话框选项-显示录音选项-编码-WMA, 设定:采样率(16000Hz)、通道(单声道)、比特率(16Kbps)5、训练步骤下面逐步从零开始进行训练5.1软件环境的安装将本文档所在的文件夹解压或拷贝到d:\,即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi;
2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下
2023/8/14 6:38:31 53.17MB sphinx 中文 语音 训练
1
3500字简繁体对照表,表格清晰有条理有按拼音、笔画两种排序,且可以直接打印
2023/8/11 9:40:05 271KB 简繁体对照表
1
字典数据库,含15万余个字项目。
字典中含字形、拼音、部首、五笔、笔画和解释等数据项汉语字典字典
2023/8/10 6:13:47 32.28MB 字典 数据库
1
在一个项目总ComboBox中有很多项目,用户查找非常麻烦,系统自带的快速定位是匹配首字母,使用起来非常不方便。
网上找了很多,都是基于Items.Add()的方式,这种方式不支持数据源的键值对应。
所以自己写了一个,发上来给大家分享!
2023/8/8 10:20:12 68KB Socg ComboBox 智能过滤 拼音首字母
1
主要内容有C#开发环境的使用、C#语言基础应用、字符串处理技术、数组和集合的使用、面向对象编程技术、数据结构与算法、Windows窗体基础、特色窗体界面、窗体控制技术、MDI窗体和继承窗体、Windows常用控件的使用、Windows不错控件的使用、DataGridView数据控件、自定义用户控件、文件基本操作、文件夹基本操作、文件流操作、加密、解密及解压缩文件、C#与Word互操作、高效应用Excel、基本图形绘制、图像处理技术、常用图表应用、动画处理技术、音频与视频控制。
配书光盘附带了实例的源程序和部分视等第1篇C#编程基础篇第1章C#开发环境的使用21.1VisualStudio开发环境的安装与配置3  实例001配置合适的VisualStudio2008开发环境3  实例002设置程序代码行号4  实例003使开发环境全屏显示5  实例004根据需要创建所需解决方案61.2VisualStudio开发环境的使用7  实例005为程序设置版本和帮助信息7  实例006设置Windows应用程序启动窗体8  实例007统一窗体中控件的字体设置9  实例008通过“格式”菜单布局窗体101.3快速开发项目必备10  实例009为项目添加DLL文件引用10  实例010为项目添加已有类11  实例011为项目添加第三方控件12实例012为项目添加已有窗体13第2章C#语言基础应用152.1代码的注释16  实例013对单行代码进行注释16  实例014快速对多行代码进行注释17  实例015使用“///”标记给代码段添加说明182.2运算符的使用20  实例016使用引号运算符进行赋值20  实例017使用算术运算符开发简单计算器21  实例018使用“^”运算符对数字进行加密22  实例019巧用位移运算符获取汉字编码值24  实例020使用条件运算符判断指定年份是不是闰年25  实例021使用流程控制语句报销业务花销262.3关键字的使用27  实例022使用checked关键字处理“溢出”错误27  实例023使用typeof关键字获取类的内部结构28  实例024使用using关键字有效回收资源29  实例025使用is关键字检查对象是否与给定类型兼容30  实例026使用as关键字将对象转换为指定类型322.4流程控制语句的使用34  实例027小明去学校和医院分别要走哪条路34  实例028利用条件语句判断用户登录身份35  实例029判断指定月份属于哪个季节36  实例030使用switch语句更改窗体颜色37  实例031循环向控制台中输入内容38  实例032递归算法的经典面试题39  实例033制作一个数字猜猜看小游戏40实例034使用goto语句在数组中搜索指定图书42第3章字符串处理技术443.1字符及字符串转换45  实例035将字母全部转换为大写或小写45  实例036字母与ASCII码的转换46  实例037汉字与区位码的转换48  实例038将汉字转换为拼音493.2常用字符及字符串操作50  实例039根据标点符号对字符串进行分行50  实例040判断用户输入的用户名是否正确51  实例041将字符串的每个字符进行颠倒输出52  实例042去掉字符串中的所有空格54  实例043从字符串中分离文件路径、文件名及扩展名55  实例044获取字符串中汉字的个数57  实例045批量替换某一类字符串58  实例046对字符串进行加密与解密593.3常用数字处理技术61  实例047判断输入的货币值是否为数字61  实例048对计算结果进行四舍五入62  实例049商品金额的大小写转换63  实例050设置货币值中使用的小数位数64  实例051格式化输入数据为货币格式65  实例052开发一个进制转换器663.4日期时间格式的数据处理67  实例053动态获得系统当前日期和时间67  实例054手动设置系统日期时间69  实例055根据生日自动计算员工年龄70  实例056根据年份判断十二生肖71  实例0
2023/8/8 8:05:57 66B .net c#
1
测绘程序集成软件是一款与测绘有关的辅助软件,增强(CASS、地籍、GIS)等实用功能程序版面键盘命令:W:创建临时块I:生成临时块A:面积计算O:目标为当前S:CASS配属性Z:地籍录入"K:插入图框40M:插入图框50C:CASS菜单地物快速搜索:在浮动窗状态下,输出地物拼音首字符可快速查找CASS地物。
地形图分幅:增加支持2007版图式的地形图分幅图框。
2023/8/6 13:36:41 817KB cad
1
框架特色:1、基于ASP.NETMVC4.0+WebAPI+EasyUI+Knockout的架构设计开发2、采用MVC的框架模式,具有耦合性低、重用性高、生命周期成本低、可维护性高、有利软件工程化管理等优点3、采用WebAPI,客户端完全摆脱了代理和管道来直接进行交互4、采用EasyUI前台UI界面插件,可轻松的打造出功能丰富并且美观的UI界面5、采用Knockout,,提供了一个数据模型与用户UI界面进行关联的高层次方式(采用行为驱动开发)6、数据访问层采用强大的Fluentdata完美地支持多数据库操作7、封装了一大部分比较实用的控件和组件,如自动完成控件、弹出控件、拼音模糊输入控件、日期控件、导出组件等
2023/8/4 5:53:01 33.8MB WebAPI mvc4.0 EasyUI 权限管理源码
1
C语言实现把汉字转换为拼音源代码,测试程序都有我把他用在公司的通讯录服务器上,运行稳定
2023/7/31 23:15:57 1.44MB C 汉字 拼音
1
安装说明:a.下载万能拼音(WN.rar)程序,双击,弹出对话框,点击右上角“OK”。
b.双击“Wnpy.ARMV4.CAB”(如果弹出不支持的系统版本窗口,直接点“是”),看到弹出安装窗口,直接点击右上角“OK”即可。
c.在输入汉字时,点击右下角的键盘图标,选择相应的输入法。
1
freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zipICTCLAS源码结构Codes│ICTCLAS_WIN.cppWindows界面的程序│ICTCLAS_Win.dsp│ICTCLAS_WIN.dsw│ICTCLAS_WIN.h│ICTCLAS_Win.exe可执行程序│ICTCLAS_WinDlg.cpp│ICTCLAS_WinDlg.h│resource.h│StdAfx.cpp│StdAfx.h│log.txt日志│ICTCLAS_Win.rcWindows界面的资源│├─Utility共用函数模块│ContextStat.cpp│ContextStat.h│Dictionary.cpp│Dictionary.h│Utility.h│Utility.cpp│├─Unknown未登录词识别模块│UnknowWord.cpp│UnknowWord.h│├─TagHMM标注模块│Span.cpp│Span.h│├─Segment词语切分模块│DynamicArray.h│NShortPath.cpp│NShortPath.h│Queue.cpp│Queue.h│SegGraph.cpp│Segment.cpp│Segment.h│DynamicArray.cpp│SegGraph.h│├─Result结果生成模块│Result.cpp│Result.h│├─Data概率数据文件│lexical.ctx│BigramDict.dct│coreDict.dct│nr.dct│nr.ctx│ns.ctx│ns.dct│tr.dct│tr.ctx│└─resWindows界面的资源
1
共 222 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡