新闻资讯 > 资讯列表 > 当前资讯

找出J.K.罗琳:大数据分析识别隐藏身份的五种方式

发布时间:2013-08-08 07:42
Tag: 大数据 隐私
550 次阅读

       


       事到如今,大家一定已经发现《布谷鸟的呼唤》这本犯罪小说的作者罗伯特·加尔布雷思根本不是什么新手作家,而是风靡全球的哈利·波特系列小说之母J.K.罗琳。这项秘密一直不为人知,直到英国《星期日泰晤士报》美术编辑Richard Brooks收到一条匿名twitter消息后,罗伯特就是罗琳的内幕才大白于天下。为了证明该说法的真实性,他甚至雇佣了一位私家侦探(这与<布谷鸟的呼唤>中的情节非常相似)展开进一步调查。 


       最终,大数据分析破解了罗琳的身份之谜。Brooks先生在两位语言证据计算机科学家的协助下,对《布谷鸟的呼唤》、《临时空缺》以及哈利波特最后一部《哈利波特与死亡圣器》进行了比对,查看三者是否存在共性。看到这里,身为技术人士的朋友一定按捺不住内心的激动之情了。 

文本、twitter与状态更新中的线索 

       大家也许以为自己几年前随手写下的博文或者短消息微不足道,然而随着计算机性能的逐步提升、高复杂性统计分析工作已经不再是难以解决的难题。目前研究人员开始从知名作品的字里行间找寻与作者有关的蛛丝马迹。当然,这还仅仅是研究工作中的一部分内容。 


       快讯研究者:他们同样关注知名度不高的文本对象。博客、twitter、Facebook更新、聊天论坛甚至Amazon中的购物评论都可以成为他们研究用户生活方式与购买习惯的重要依据。无论大家是否已经意识到这一点,任何我们刻意选择的词语都会传达出一部分特定讯息。即使对表达方式进行刻意掩饰,每一条新消息都会不可避免地泄露编写者的零散状况。 


《国家地理》刊发的一篇文章讲述了计算机科学家们证明J.K.罗琳身份的过程: 

     

“最近出现一种风潮,认为计算机足以如探员般从文本中发现隐藏着的潜台词与深层信息。文学作品中存在一种作者自身无法控制、读者也很难感知的信息,这种因素类似于写作行为的DNA、签名或者指纹,”牛津大学专家、《星期日泰晤士报》顾问之一Peter Millican表示。 


       Rowling.Brooks接触的另一位专家是Patrick Juola,他和他的学生花了十年时间开发出一套名为JGAAP的计算机程序。通过该程序对两本著名的分析,数据研究者们最终非常肯定地通知《星期日泰晤士报》:《布谷鸟的呼唤》的真正作者确实是J.K.罗琳。 

       下面我们一起来看识别出罗琳真正身份的分析方法与线索。 


大数据识破秘密的五种方式: 


对每本书中的所有单词以成对或者相邻短语方式加以比对; 


通过“字尾”搜索或相邻字符排列进行测试; 


毕竟每本书中使用频率最高的100个单词并比较各单词出现频率间的细微差异; 


根据词组长度进行分类,并依单词含义加以区分; 


       主成分分析:从六种特点进行比较——单词长度、句子长度、段落长度、字母出现频率、标点符号使用频率以及词语用法。 


       在五个小时之内,计算机科学家利用语言证据技术与大数据分析机制有理有据地证明了罗伯特·加尔布雷思正是J.K.罗琳。 在大数据面前,没人能藏得住秘密。

可能感兴趣的职位

30+万海丁微名片用户的选择
微名片
欢迎关注海丁网精准招聘微信公众账号。it求职/it招聘就上海丁网
可能感兴趣的活动全部>
海丁微名片 - 人才地图 - IT求职 - 海丁介绍 - 客服帮助 - 友情链接 - 网站地图

海丁网 @2011-2014(沪ICP备12001151号)