以建立维吾尔语连续音素识别基础平台为目标,在HTK(基于隐马尔可夫模型的工具箱)的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。
1
SRILM源代码阅读笔记。
主要针对SRILM的ngram的训练,即ngram-count。
7个文件:1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具);
2.ngram-count.jpg:从语料训练出模型的主要流程;
3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度;
4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程;
5.ngram.read.jpg:与训练无关,读取ARPA格式的语言模型的过程;
6.SRILM.uml:以上5个文件的原始图,以StarUML绘制(利用StarUML可直接编辑)7.SRILM.vsd:ngram-count相关的主要数据结构的内存布局+ngram条件概率计算公式的参数说明,以visio绘制(利用visio可直接编辑)
2024/7/15 8:41:17 4.87MB SRILM 源代码 分析 ngram
1
测量语言模型中的社会偏见贡献者对应于:()WuChiyu()概括TLDR:我们设计了一个基准套件,以测试预训练语言模型中是否存在代表性的社会偏见。
我们的指标捕获了单词和句子级别的偏见,并返回了在公平性和性能之间取得平衡的整体评分。
动机随着机器学习方法被部署在诸如医疗保健,法律系统和社会科学等现实世界中,至关重要的是要认识到它们如何在这些敏感的决策过程中形成社会偏见和成见。
在这样的现实世界中,部署大规模的预训练语言模型(LM)可能会表现出不良的代表性偏见,而这种偏见可能是危险的-刻板印象产生的有害偏见会传播涉及性别,种族,宗教和其他社会建构的负面概括。
为了提高LM的公平性,我们在提出新的基准和度量标准之前,仔细定义了代表偏见的几种来源。
该存储库包含一组工具,用于对LM中的社会偏见进行基准测试。
相关工作最近的工作集中于定义和评估社会偏见[1,2]以及其
2024/5/24 12:49:52 4KB
1
统计自然语言处理第二版宗成庆pdf是一本经过第二次更新的统计自然语言方面的教材。
自然语言作为人类思想情感最基本,最直接,最方便的表达工具,无时无刻不充斥在人类社会的各个角落。
小编推荐的这本统计自然语言处理全面介绍了统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
2024/2/2 9:26:17 16.87MB 自然语言处理 nlp
1
用RNN实现的一个语言模型(实现的是可以自主生成歌词,用的是周杰伦的一些歌词,但由于是自己从网上下来的,前期预处理不是很好,每个人也可以用诗歌等训练,来生成诗歌)
2023/11/13 16:15:26 72KB w'w'w'
1
sphinx4需要使用连续的声学模型,官网上下载下来的中文声学模型全是半连续的,这里提供能够在sphinx4中使用的中文声学模型
2023/11/1 4:50:15 13.69MB sphinx4 中文命令词 java 语音识别
1
七月在线TensorFlow框架实战,包含授课课件和部分源码,Jupyter打开。
计算机视觉:分类,识别,无人驾驶,图像搜索等自然语言处理:语言模型、机器翻译、词性标注、实体识别、情感分析等
2023/9/13 21:41:06 5.87MB TensorFlow
1
本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。
本文档编写日期2013-04-231、为什么要训练?sphinx4目前的版本中仅提供了英文等语音识别库。
中文的库是PTM或semi类型的,在java版sphinx中无法使用。
2、Sphinx的训练指哪些内容?在Sphinx中有语言模型、声学模型等概念,如果你不想了解这些,请参考以下内容:a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注这个文件就是zh_broadcastnews_utf8.dic(下称这类文件为发音字典),在sphinx网站上可以下载,我们也包含了它。
下面是该文件的片断,它用类似拼音的方式标注了每个字或词的发音。
昌chang昌北changbei昌必changbi昌都changdu昌赫changhea2、需要告诉sphinx我们经常使用的字、词是哪些,它们出现的频率如何由于开放式语音识别尚难实现,所以sphinx实际上只能较好的处理相对小的语言集合。
因此,针对特定的领域,告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。
a3、需要告诉sphinx每个字、词的真正读音发音字典告诉sphinx每个字的标准读音,但面对的说话人往往不会以标准读音来朗读。
因此sphinx需要学习说话人的“口音”。
如果训练时的读者发音比较标准,则sphinx能“举一反三”,识别其他不那么标准的读者的语音。
推荐的做法是训练一些典型的口音:标准男、女声,童音,最后再考虑特定用户的口音。
3、如何准备训练内容所需的原料?需要准备两大内容:1)文本语料文件,2)语料录音文件。
文本语料文件给出2.a2中需要的内容,在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。
它以行为单位,给出了150个中文句子。
语料录音文件是根据文本语料文件,朗读它的每行/句话,保存到每一个语音文件即可。
语料文件中的语句应该尽量选择领域相关的,在覆盖领域内名词的前提下,覆盖尽可能多的通用词汇。
4、训练环境及注意事项本文的训练软硬件如下:硬件:T60P笔记本,机器自带录音设备;
操作系统为Win732位。
软件:Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip,用于编写java版的识别软件所需的库 脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip,可进行录音和声音文件处理(如降噪),免费软件 FairStars.zip,可进行批量录音(V3.5绿色版) 文本编辑软件UltraEdit,UltraEdit-32.rar绿色版注意: 文件格式 语料文件必须使用UltraEdit进行编辑, 在编辑后,使用文件-转换-ASCII转UTF-8(UNICODE编辑),指定文件中的中文使用utf8编码。
在保存前,设置格式如下: 换行符:UNIX终束符-LF 指定文件中的回车/换行符为编码0A的换行符 格式:UTF-8-无BOM 每个文件的末尾必须有一个回车! 这个回车将在保存时被替换为编码0A的换行符,训练脚本需要这个符号来确认文件的结束。
录音文件 如果你不希望去编辑训练中的配置文件,则在使用FairStars录音时作如下设定: 进入菜单和对话框选项-显示录音选项-编码-WMA, 设定:采样率(16000Hz)、通道(单声道)、比特率(16Kbps)5、训练步骤下面逐步从零开始进行训练5.1软件环境的安装将本文档所在的文件夹解压或拷贝到d:\,即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi;
2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下
2023/8/14 6:38:31 53.17MB sphinx 中文 语音 训练
1
自然语言处理,对联系统,语料库为全唐诗,采用马尔科夫语言模型
2023/8/10 12:39:55 8.35MB 对联系统
1
本项目利用python实现N-gram语言模型,采用的平滑算法是Kneser-Ney平滑。
2023/6/6 9:20:31 11.36MB language mod N-gram KN平滑
1
共 12 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡