我将运用语言对红楼梦著作进行文本分词和词频统计,从高频词汇和虚字两个研究角度,来分析红楼梦前八十回与后四十回在文本特征上的差异性。
首先,我们率先研究高频词汇。
在红楼梦的高频词汇中,我首先将人名、地名、称谓等剔除掉,以及对“一个”“一面”等表数量的没有实际意义的词汇进行剔除。
于是,我们得到了65个高频词汇进行文本研究,现制作统计表格。
如下图!
短视频中,贴出一张统计表。
高频词汇研究对象表
1,什么2,我们3,那里4,姑娘5,你们63,家里64这话65到底。
短视频解读继续:
我的研究分组方案如下,一至三十回第一组,十六至四十五回第二组,三十一至六十回第三组,以此类推,一共将红楼梦分成7组。
运用语言,对各组进行分词,对高频词汇研究对象进行词频统计。绘制高频词汇频数变化折线图。
如下图所示!
话音落,短视频里,贴出了运用语言绘制出的高频词汇频数变化折线图一个带有、坐标的七条折线的统计表。
而此时,网友们全看傻了。
“懵逼了,这些都啥意思啊?”
“这能代表啥啊,根本看不懂啊!”
“诗人你到底啥意思,请你明说行么?”
“我感觉看了你的视频,受到了侮辱!”
“你高估我们了!”
短视频开始对这一折线图进行讲解:
我们可以发现折线图有明显的锯齿形,那么就表明高频词汇在各分组有明显的波动诸如16没有、21听见、26回来、34心里、51那些、65到底等词汇,当第六组和第七组出现波峰的时候,其他组却出现了波谷
而在42不过、61姊妹等词汇,当第六组和第七组出现波谷的时候,其他组却出现了波峰这就说明第六组和第七组的折线图与其他组的折线图有明显的相反的走势
弹幕疯狂抗议:
“求你了别说了,听不懂啊,能直接告诉我结论么?”
“你让数学常年不及格的我,如何理解你的高深莫测?”
“直接说结论吧,真听不懂!”
从部分高频词汇角度分析,前八十回和后四十回词频有较显著的差异性,于是我得出初步结论,前八十回和后四十回,作者并不是同一个人。
完成了高频词汇的分析后,下面,我们对虚字进行分析。
虚字,是指不能单独成句,意义比较抽象,而具有一定语法意义的字或词。古典小说中的虚字是构成句子必不可少的成分,其使用不受故事情节的制约,仅与作者的写作习惯有关。
我们对44个虚字作为研究对象,44个虚字如下之、其、或、亦、方、于偏、儿。
在研究之前,首先我对监督学习作简单介绍,监督学习分为回归分析与分类分析两大类别,本文应用了分类分析。所谓分类是通过分析已知数据,构造一个分类函数或者分类模型即分类器,利用该模型将数据库中数据映射到某一给定类别中
接下来,我将运用监督学习中的朴素贝叶斯法和神经网络对红楼梦各回作分类研究,并根据分类准确度分析前八十回和后四十回的差异性!
富旦大学。
张教授身边,人越聚越多。
“他说的这是啥啊?”
“我怎么全程都听不懂?”
“什么是朴素贝叶斯法?是数学么?”
“神经网络啥意思?生物学?还是计算机?”
“这确定是,在考证红楼梦后四十回是伪作么?”
“张教授,你能看懂他说的是啥么?”
“张教授?”
在场的所有教授都傻了,全都看不懂啊。
什么朴素贝叶斯法,什么神经网络,又什么折线图啊,这些文学方面的大教授们,哪懂这些?
用数学、计算机技术等,去研究文史问题,他们闻所未闻啊。
文娱:开局盘点十大分手诗词提示您:看后求收藏(百发小说网http://www.baifabohui.com),接着再看更方便。