OntoNotes5.0的中文部分包括250K字的新闻专线数据,270K字的广播新闻和170K的广播会话。
新闻专线的数据来自中国树库5.0。
250K包括100K的新华新闻数据(chtb_001.fid到chtb_325.fid)和来自Sinorama新闻杂志的150K数据(chtb_1001.fid到chtb_1078.fid)。
广播新闻数据是来自TDT4的274K字,并且是从LDC为自动内容提取(ACE)程序注释的数据中选择的。
已将这些文件的编号chtb_2000.fid分配给chtb_3145.fid。
广播对话数据是170K字,取自LDC的GALE数据。
50K的原始中文数据也用英文注释,另外55K的中文数据代表原始英语广播对话翻译成中文。
Web数据包括215K令牌,其中15K来自P2.5评估,86K来自Dev09数据。
此外,110K的Web数据由40K并行中文源数据和70K并行英文原始数据组成。
电话会话语料库包括大约100K的中文CallHome数据,用解析,命题,名称和共同参考信息注释。
2024/12/4 15:47:12 67.81MB conll Ontonotes
1
利用JSoup对新浪新闻网页源码进行解析,提取新闻数据到APP中,可以实现对新闻的实时刷新
2023/12/27 6:45:30 20.11MB Android
1
NewsKart-新闻-Android-应用程序新闻应用程序这是一个Android应用程序,它使用googleNewsAPI,并将其解析为JSON结果,该结果还用于更新UI上的新闻列表。
XML中使用的列表是“回收者视图”。
用户可以选择搜索此感兴趣的新闻。
用户可以浏览十种不同类别的新闻部分。
该应用程序使用JobScheduler每4小时刷新一次新闻数据。
维护新闻数据库(SQLite数据库),以供用户离线阅读其感兴趣的新闻。
如果有新新闻可供阅读,则会向用户发送推送通知。
1
这是本人自己爬取的今日头条新闻数据。
包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。
每个类别有2000左右的数据。
包含有新闻的题目,正文。
还有一些类别中包含了新闻的发布时间,新闻来源等信息。
2023/9/14 19:21:15 16.56MB 中文新闻 语料库
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡