本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。
针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。
通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因而不需要采取主成分回归分析。
通过系统聚类分析,我们得到了聚类图,从中得出了主演人物之间的关系。
通过层次划分,我们将样本一划分为两层,样本二划分为两层,样本三划分为两层。
最后通过matlab编程统计样本中虚词的频数,并且分别对样本中虚词总体和各个虚词进行统计,运用计算风格学理论,我们得出前八十回与后四十回作者的行文风格存在差异。
针对问题二,我们对聚类分析、层次划分、行文风格进行了检验。
对于聚类分析的结果,我们与从对文本概述的文学概括分析得到的人物关系进行比较检验,验证了聚类分析结果是可靠性。
对于层次分析,我们通过用Excel对数据做出折线图,对图形进行分析,得出与用层次分析算法得出的相同的人物关系结论。
针对问题三,我们计算了各个样本中主要人物的比重,做出了折线图,从图中我们得出了文本结构一致性的结论,体现了三个样本的相同性。
通过计算同一个人物在不同样本中的频数(以黛玉为例),我们得出各个样本由于主题思想的不同主要人物也有差异。
2022/9/6 19:12:32
1.45MB
数学建模
1