国学网-国学经典大师!

国学网-国学经典-国学大师-国学常识-中国传统文化网-汉学研究

当前位置: 首页 > 传统文化 > 教育 > 教育相关 >

学生挖掘99个高频词汇 随便输数字就可写宋词(2)

http://www.newdu.com 2018-01-06 武汉晚报 佚名 参加讨论

    在大量评论后面,一位名叫“达芬奇的鸡蛋”发现,利用这些“高频词汇”的代码,可以随意拼凑出一首首宋词来。比如用“圆周率”的数字排序,结果就是:回首明月(一看就是抒情诗)
    悠悠心事空
    西湖何事寂寞中
    风吹斜阳匆匆
    芳草平生斜阳
    风吹寂寞今日
    一枝富贵年年
    断肠长安不知
    一时间,众多网友用自己的身份证号码、各种数字组合来“写宋词”。如网友“叶绿彘”的“作品”是:“东风何处?人间风流。归去春风,西风归来。江南相思,梅花千里。回首明月,多少如今?阑干年年万里,一笑黄昏当年……”
    记者用多位同事的身份证号码、生日号码等,套用这些代码,果然也能产生出一首首有模有样的“宋词”。
    原意不是为了“写词”
    看到帖子被大量转发,“yixuan ”在自己的博客上又写了一篇解释,他说,“自动写词机”并不是我的创意,也不是我的初衷。
    “yixuan ”说:“我学的专业是统计和精算,平时会和各种类型的数据打交道,之前写那篇博文也是出于兴趣,想利用学到的专业知识来对一些实际问题进行分析。”
    他说,很多人肯定都会提到“自动写词机”,就比如拿生日、QQ、物理常数等套用里面的排序来“写词”。但我想说的是,这其实不是我的创意,也不是我写那篇博文的初衷。如果大家看过那篇转帖,就会发现大家开始“狂欢”是因为“达芬奇的鸡蛋”的创意,而词频统计本身并没有任何特殊之处。
    事实上,大家可能听说过“文本挖掘”这个名词,它就是对文本数据进行分析,来得到有用的结论。文本挖掘是个很复杂的过程,牵涉到分词、词频统计、特征选择、聚类等等,如果大家对这一块内容有所了解的话,就会知道词频统计是一个很平凡的过程。
    “yixuan”说:可能有些朋友觉得我得到宋词的词频是一件技术含量很高的活儿,但从技术层面上来讲,我做的那些东西也并无任何高级之处(当然需要有一些编程经验)。
    只是一个文字游戏
    这99个“高频”词汇真的有那么神奇?昨天,武汉大学文学院博导王兆鹏教授看了后评论说:“这只是一个文字游戏”。
    王兆鹏说,汉语语言中,诗词的语序不需要确定性,同时汉语语言具有多义性。很多词语组合起来,都可以说得通。比如我们说“吃饭”大家能听懂,但说“饭吃”,也能理解是怎么回事。
    从严格意义上说,通过这99个编码做成的“词”,平仄完全不符合要求,也不符合词牌的要求。但形式上挑不出什么毛病,也有一点词的味道。
    王兆鹏说,宋词是一种文学艺术,讲究独创性和意境,读者通过读诗词能够看到里面的意境,这是艺术。“如果写词这么容易,那谁都可以写词了。”
    不过,王兆鹏也认为“yixuan ”的做法很有创意,“能从这么多词中总结出99个高频词汇,是需要花功夫的,也说明这个学生很努力,这是一个比较高级的文字游戏,虽然谈不上有什么文学意义。”
    中南财经政法大学统计与数学学院博导李占风教授说,利用统计学原理确实可以在诗词等文学作品中,做一些研究工作,这位学生学以致用,值得表扬。
    记者翁晓波  左思琪
     (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
国学理论
国学资源
国学讲坛
观点争鸣
国学漫谈
传统文化
国学访谈
国学大师
治学心语
校园国学
国学常识
国学与现代
海外汉学