德语句子的自动复杂度评估团队成员里奥·阮·拉乌尔·贝格·康拉德·斯特劳布·蒂尔·诺彻邮件地址现有代码片段利用的图书馆运行代码(稍后将设置主入口点)下载数据集:pythondownload_data.py项目状态数据分析我们的主要数据源是TextComplexityDE19数据集(),其中包含1000个德语句子,由外语学习者在7点Likert量表上标记为A级和B级,其中1表示低复杂度,高可读性句子,而7则相反。
其中900个句子来自23篇德国Wikipedia文章,其余100则来自LeichteSprache。
数据集中的每个句子至少由5个人标记,数据集中提供了它们的平均评分。
除了复杂性/可读性之外,还收集了句子的可理解性和词汇难度得分。
图:饼图显示(四舍五入的)评级分布。
评级不是平均分配的,因为平均没有句子收到7,而很少有人得到6。
在句子的
2024/7/20 18:14:15
148KB
Python
1