送交者: 筋斗云 于 2012-03-20, 03:10:15:
筋斗云
韩寒代笔事件到目前已经2个多月了,个人觉得虽然找破绽的方法目前找到很多问题,始终不是直接证据。文本分析如果能有一个肯定的答案,个人觉得算是比较直接的证据了。
上海复旦的苏杰曾经发了一篇文本分析,不过其偏向性太强,导致整个文章的逻辑太弱了。也不知道是屁股的原因还是目前博士水平就这样,连最基本的肯定性结论与否定性结论的边界和对比组都没有。
我还是比较吃惊,目前国内文本分析居然没有一个平台。在这个DIY时代,我们自己来建设这个平台吧。作为韩寒代笔的文本分析,我个人觉得需要较多的人力,所以我把这个称为课题,希望网友们能分为几个组,最终完成该课题。
第一部分是资料组
1, 资料组的作用是收集韩寒以及相关人员的全部文章,以及每篇文章的不同版本。
2, 首先是韩寒的所有文章。(A)
3, 其次是代笔嫌疑最大的韩仁均的所有文章。(B)
4, 再其次是次级嫌疑人路金波、马日拉、赵长天等文章。(C)
第二部分是资料分析组
1, 因为中文与英文不同,词的概念不能简单体现。所以资料分析组主要是做词分拆的工作。
2, 首先是全文分解为词,并为词做索引。(A)
3, 单词再注释是名词、动词,形容词,副词,人名,地名,专用名词等(B)
4, 其次是更高阶注释词,最好能注释到词源/大辞典第几义。(C)
5, 多人分解,多人交叉对比,有人主编,类似wiki。
第三部分是IT组。
1, IT组的主要作用,是对文本分析提供IT平台支持,包括数据和文本对比。
2, 确定资料组和资料分析组的文件存储方式。(txt,xls?) (A)
3, 对资料组和资料分析组的资料进行简单帮助和查错。(B)
4, 建设IT平台,支持上面数据的基本统计结果。(B)
5, 对算法组的插件开发。(B)
第四部分是理论组。
1, 理论组为文本分析提供理论依据。
2, 对目前文本理论的总结和文本分析的适用说明。(A)
3, 文本分析理论的列举。(A)
4, 对国际通行的文本分析理论的翻译和应用。(B)
5, 对文本分析的数学模式建立。(C)
我个人知道的理论至少有
词性比例(某人文字喜欢用形容词的)、
同义词偏向(光/仅,快乐/高兴,不料/没想到等)
高频词类似(特别是形容词,副词等)
低频词类似
用典
词义选择偏向(有的人用词很偏)
标点符号偏好
长句短句偏好。
等等
个人觉得广大网友可以尽量地提出自己的理论,只要能够在IT上实现的,我们都去测试。
第五部分判断组
1, 就是根据理论组的理论进行肯定性或者否定性判断。
2, 建立肯定性判断和否定性判断的标准。(A)
a) 不同类型小说/同作者的肯定性判断。
b) 同类型小说/不同作者的否定性判断。
3, 对于肯定性/否定性判断不足的,进行偏向性的判断。(B)
a) 对于肯定否定之间的判断是概率或者数字值。
b) 内插的对照组的选取。
4, 上面两组标准如何用在韩寒代笔事件上。(B)
第六部分:抓错组
1, 抓错组就是对第五组的抓错实验。
2, 比如:
a) 同小说的前半段和后半段的肯定性判断。(A)
b) 同作者不同风格的肯定性判定。(至少不能否定)(A)
c) 同人志的不同作者的否定性判断。(B)
d) 有意代笔的肯定/否定性判断。(倪匡代笔金庸,古龙代笔)(B)
3, 其它各种抓错。(C)
我们希望,通过在网友的帮助,能够形成六个小组,每个小组有自己的组长来执行进度。每个组能完善自己小组的成果,从而六个小组完成一个严肃认真的课题。
我在任务后面标注的A,B,C。是我对该任务难度的预估,A表示较容易,B表示有一定难度,C表示难度很高。
文本分析平台的建立,我们还可以放入到《红楼梦》,解决曹雪芹与高鹗的作者之争啊。
也希望大家能反馈上面课题的可行性。当然欢迎学校进行合作。