韩寒代笔事件的文本分析课题

筋斗云

韩寒代笔事件到目前已经2个多月了，个人觉得虽然找破绽的方法目前找到很多问题，始终不是直接证据。文本分析如果能有一个肯定的答案，个人觉得算是比较直接的证据了。
上海复旦的苏杰曾经发了一篇文本分析，不过其偏向性太强，导致整个文章的逻辑太弱了。也不知道是屁股的原因还是目前博士水平就这样，连最基本的肯定性结论与否定性结论的边界和对比组都没有。
我还是比较吃惊，目前国内文本分析居然没有一个平台。在这个DIY时代，我们自己来建设这个平台吧。作为韩寒代笔的文本分析，我个人觉得需要较多的人力，所以我把这个称为课题，希望网友们能分为几个组，最终完成该课题。

第一部分是资料组
1，    资料组的作用是收集韩寒以及相关人员的全部文章，以及每篇文章的不同版本。
2，    首先是韩寒的所有文章。（A）
3，    其次是代笔嫌疑最大的韩仁均的所有文章。（B）
4，    再其次是次级嫌疑人路金波、马日拉、赵长天等文章。（C）

第二部分是资料分析组
1，    因为中文与英文不同，词的概念不能简单体现。所以资料分析组主要是做词分拆的工作。
2，    首先是全文分解为词，并为词做索引。（A）
3，    单词再注释是名词、动词，形容词，副词，人名，地名，专用名词等（B）
4，    其次是更高阶注释词，最好能注释到词源/大辞典第几义。（C）
5，    多人分解，多人交叉对比，有人主编，类似wiki。

第三部分是IT组。
1，    IT组的主要作用，是对文本分析提供IT平台支持，包括数据和文本对比。
2，    确定资料组和资料分析组的文件存储方式。(txt,xls?) （A）
3，    对资料组和资料分析组的资料进行简单帮助和查错。（B）
4，    建设IT平台，支持上面数据的基本统计结果。（B）
5，    对算法组的插件开发。（B）

第四部分是理论组。
1，    理论组为文本分析提供理论依据。
2，    对目前文本理论的总结和文本分析的适用说明。（A）
3，    文本分析理论的列举。（A）
4，    对国际通行的文本分析理论的翻译和应用。（B）
5，    对文本分析的数学模式建立。（C）
我个人知道的理论至少有
词性比例（某人文字喜欢用形容词的）、
同义词偏向（光/仅，快乐/高兴，不料/没想到等）
高频词类似（特别是形容词，副词等）
低频词类似
用典
词义选择偏向（有的人用词很偏）
标点符号偏好
长句短句偏好。
等等
个人觉得广大网友可以尽量地提出自己的理论，只要能够在IT上实现的，我们都去测试。

第五部分判断组
1，    就是根据理论组的理论进行肯定性或者否定性判断。
2，    建立肯定性判断和否定性判断的标准。（A）
a)    不同类型小说/同作者的肯定性判断。
b)    同类型小说/不同作者的否定性判断。
3，    对于肯定性/否定性判断不足的，进行偏向性的判断。（B）
a)    对于肯定否定之间的判断是概率或者数字值。
b)    内插的对照组的选取。
4，    上面两组标准如何用在韩寒代笔事件上。（B）

第六部分：抓错组
1，    抓错组就是对第五组的抓错实验。
2，    比如：
a)    同小说的前半段和后半段的肯定性判断。（A）
b)    同作者不同风格的肯定性判定。（至少不能否定）（A）
c)    同人志的不同作者的否定性判断。（B）
d)    有意代笔的肯定/否定性判断。（倪匡代笔金庸，古龙代笔）（B）
3，    其它各种抓错。（C）

我们希望，通过在网友的帮助，能够形成六个小组，每个小组有自己的组长来执行进度。每个组能完善自己小组的成果，从而六个小组完成一个严肃认真的课题。
我在任务后面标注的A，B，C。是我对该任务难度的预估，A表示较容易，B表示有一定难度，C表示难度很高。
文本分析平台的建立，我们还可以放入到《红楼梦》，解决曹雪芹与高鹗的作者之争啊。

也希望大家能反馈上面课题的可行性。当然欢迎学校进行合作。