为了弥补国内在中文情感挖掘方面的语料的匮乏,谭松波收集整理了一个较大规模的酒店评论语料。
语料规模为10000篇。
语料从携程网上自动采集,并经过整理而成。
为了方便起见,语料被整理成4个子集:1.ChnSentiCorp-Htl-ba-2000:平衡语料,正负类各1000篇。
2.ChnSentiCorp-Htl-ba-4000:平衡语料,正负类各2000篇。
3.ChnSentiCorp-Htl-ba-6000:平衡语料,正负类各3000篇。
4.ChnSentiCorp-Htl-unba-10000:非平衡语料,正类为7000篇。
2024/3/24 6:03:01
3.81MB
酒店评价语料
1