整件事情实在过于复杂。
于是像之前几次那样,甄巧拿出一沓A4纸和不同颜色的记号笔,和莫向晚坐在沙发上思考。
若要从一堆混乱的线索中找出彼此的联系,必须要全部整理并直观地写下来,才有分析的余地。
将莫向晚前几次死亡日的行程列下来,唯一的交点只有一个——去DHL寄邮件。
绝对有问题。
“你到底在研究什么?”
“一些无关紧要的。”
“那请你告诉我。”
“我不能说。”
……
在甄巧再三逼问后,莫向晚终于打算说实话了。他舒展开修长的腿,后背靠在沙发上,仰头看向天花板。
“母语可以决定人的思维方式,你知道吧。”
“嗯。”
“语言反应了人的意识。”
“嗯。”
这些都是甄巧在以前的时间线上,和莫向晚探讨过的问题。曾经的她觉得语言学一无是处,现在的她对语言学心悦诚服。
“任何人发一段文字,通过特定的手段分析,都能从中推断出一些信息。或是作者的性别,性格;或是作者的母语,写作习惯,平日常读什么书。”
甄巧点点头:“语言侦探。”
她曾亲眼见证过,莫向晚聊几句就能扒出那个土耳其留学生的过几,虽然现在的他尚不曾知道这件事。
莫向晚继续问:“你还记不记得,在28年前后,文学市场被一群不明身份的人垄断了?”
2028年是很久以前的事了。
作为第n次的时空穿越者,甄巧努力回想了好几分钟,才想起来他指的是什么。
那时候,市场涌现出了一批优秀的作家、时评家和媒体撰稿人。
尤其是网络文学市场,百花齐放,从言情小说到烧脑悬疑,从沙雕脑洞文到架空历史文,都有不少凭空出现的神笔作家:九月破歌、刘长青、风起乌贼……
“记得。”
“但是这些人从未出现过。无论是媒体采访,还是作者大会,一次都没有,网络上能搜到这些人的信息,但没一个人见过他们。”
甄巧愣住。
这些话很熟悉,好像在哪里听到过,在另一个时间线上。
“起初我并未在意,只是觉得那些书爆火,受到读者欢迎是理所当然的,因为写的好。但是,他们完美得简直不像人。即便是网络版本,按理说是没有精修过的,也找不到一丝错误,每个描写都近乎完美。”
甄巧脱口而出:“说不定是写作团队?”不过话已出口,她隐约觉得这句话也在另一个时空里问过。
莫向晚摇摇头。
“直到有一天,我将九月破歌的《美人谋》导进了电脑,用语言处理模型跑了一下,发现了更严重的问题。”
“什么问题?”甄巧好奇。
“类符形符比是8.64。这是衡量文章用词丰富程度的指标,数字越高,代表用词变化越多,作者词汇量越丰富。”莫向晚的眼神倏然凌厉,“四字成语出现的频率占比0.65%,平均句长12.18,平均句段长5.71。”
莫向晚终究是莫向晚,时隔这么长时间,依旧能凭空背出准确的数据。
“我对语料库不了解,这数值怎么了?”甄巧在一无所知的状态下,已经起了一身鸡皮疙瘩。
“要知道,因为每个人都是不同个体,写出来的文章风格也不尽相同。有些人喜欢用四字成语,所以文章的四字成语占比高;有些人喜欢写长句子,那平均句长就长。这些指标综合起来,是可以反映一个人的创作风格的。”
莫向晚说这些话的语气,和他讲课时的语气很像,温柔中带着冰冷的严肃。
“明白了,”甄巧点点头,“那这数据反映出九月破歌是怎样的人呢?”
莫向晚没有说话,只是静静地看着她。
“怎么了?”甄巧不解。
“九月破歌、刘长青、穿靴子的狗、解说老王……所有这些所谓的‘作家’,但凡文长一些,数据都一模一样。8.64,0.65%,12.18,5.71,0.36%,84.2。”
“一模一样?”甄巧先愣了一会儿,紧接着反应过来了什么,“你是说,他们是同一个人?”
“不,即便是同一个人,也不能保证每部作品,这些数值都一模一样,更别提装作不同的作家了。”
甄巧更迷惑了:“那是?”
“我一开始也没想明白,明明就连AI生成也没办法保证这一点,除非每次写完后都刻意保持,但没有必要。”莫向晚咽了口口水,喉结上下移动,“直到我开始跑别人的数据。”
“跑谁的?”
“比如你妈妈的文,比如鲁迅、余秋雨、沈从文、萧红。他们的数据特征就非常鲜明,都不一样,而且差别很大。”
甄巧仍不明白他到底想说什么;她隐隐觉得,真正的重点还在后面。
而果然在后面。
“我试着算这些已知真人作家的平均数据。然后发现,纳入计算的人越多,他们的平均值越趋向于8.64,0.65%,12.18,5.71,0.36%,84.2。”
“难道……”甄巧开始明白了,心里开始发毛。
莫向晚点点头:“九月破歌那帮人写的文章,像是学习了世间所有的文本,然后刻意生成的标准文本。这可比AI像人多了。”
甄巧四肢僵硬。
经他这么一分析,她才知道,这件事有多么复杂多么恐怖。
“后来我再看,发现了更严重的问题。”莫向晚的额头泛起了小小的汗珠,“从他们的文字中,我看不出任何东西。”
“看不出什么?”甄巧的嘴唇都是麻的。