韩寒代笔事件的文本分析课题


所有跟贴·加跟贴·新语丝读书论坛

送交者: 筋斗云 于 2012-03-20, 03:10:15:

韩寒代笔事件的文本分析课题

筋斗云    

韩寒代笔事件到目前已经2个多月了,个人觉得虽然找破绽的方法目前找到很多问题,始终不是直接证据。文本分析如果能有一个肯定的答案,个人觉得算是比较直接的证据了。
上海复旦的苏杰曾经发了一篇文本分析,不过其偏向性太强,导致整个文章的逻辑太弱了。也不知道是屁股的原因还是目前博士水平就这样,连最基本的肯定性结论与否定性结论的边界和对比组都没有。
我还是比较吃惊,目前国内文本分析居然没有一个平台。在这个DIY时代,我们自己来建设这个平台吧。作为韩寒代笔的文本分析,我个人觉得需要较多的人力,所以我把这个称为课题,希望网友们能分为几个组,最终完成该课题。

第一部分是资料组
1,    资料组的作用是收集韩寒以及相关人员的全部文章,以及每篇文章的不同版本。
2,    首先是韩寒的所有文章。(A)
3,    其次是代笔嫌疑最大的韩仁均的所有文章。(B)
4,    再其次是次级嫌疑人路金波、马日拉、赵长天等文章。(C)

第二部分是资料分析组
1,    因为中文与英文不同,词的概念不能简单体现。所以资料分析组主要是做词分拆的工作。
2,    首先是全文分解为词,并为词做索引。(A)
3,    单词再注释是名词、动词,形容词,副词,人名,地名,专用名词等(B)
4,    其次是更高阶注释词,最好能注释到词源/大辞典第几义。(C)
5,    多人分解,多人交叉对比,有人主编,类似wiki。

第三部分是IT组。
1,    IT组的主要作用,是对文本分析提供IT平台支持,包括数据和文本对比。
2,    确定资料组和资料分析组的文件存储方式。(txt,xls?) (A)
3,    对资料组和资料分析组的资料进行简单帮助和查错。(B)
4,    建设IT平台,支持上面数据的基本统计结果。(B)
5,    对算法组的插件开发。(B)

第四部分是理论组。
1,    理论组为文本分析提供理论依据。
2,    对目前文本理论的总结和文本分析的适用说明。(A)
3,    文本分析理论的列举。(A)
4,    对国际通行的文本分析理论的翻译和应用。(B)
5,    对文本分析的数学模式建立。(C)
我个人知道的理论至少有
词性比例(某人文字喜欢用形容词的)、
同义词偏向(光/仅,快乐/高兴,不料/没想到等)
高频词类似(特别是形容词,副词等)
低频词类似
用典
词义选择偏向(有的人用词很偏)
标点符号偏好
长句短句偏好。
等等
个人觉得广大网友可以尽量地提出自己的理论,只要能够在IT上实现的,我们都去测试。

第五部分判断组
1,    就是根据理论组的理论进行肯定性或者否定性判断。
2,    建立肯定性判断和否定性判断的标准。(A)
a)    不同类型小说/同作者的肯定性判断。
b)    同类型小说/不同作者的否定性判断。
3,    对于肯定性/否定性判断不足的,进行偏向性的判断。(B)
a)    对于肯定否定之间的判断是概率或者数字值。
b)    内插的对照组的选取。
4,    上面两组标准如何用在韩寒代笔事件上。(B)

第六部分:抓错组
1,    抓错组就是对第五组的抓错实验。
2,    比如:
a)    同小说的前半段和后半段的肯定性判断。(A)
b)    同作者不同风格的肯定性判定。(至少不能否定)(A)
c)    同人志的不同作者的否定性判断。(B)
d)    有意代笔的肯定/否定性判断。(倪匡代笔金庸,古龙代笔)(B)
3,    其它各种抓错。(C)

我们希望,通过在网友的帮助,能够形成六个小组,每个小组有自己的组长来执行进度。每个组能完善自己小组的成果,从而六个小组完成一个严肃认真的课题。
我在任务后面标注的A,B,C。是我对该任务难度的预估,A表示较容易,B表示有一定难度,C表示难度很高。
文本分析平台的建立,我们还可以放入到《红楼梦》,解决曹雪芹与高鹗的作者之争啊。

也希望大家能反馈上面课题的可行性。当然欢迎学校进行合作。




所有跟贴:


加跟贴

笔名: 密码: 注册笔名请按这里

标题:

内容: (BBCode使用说明