热搜
您的位置:首页 >> 法律

年轻人用搜索引擎相约自杀谁来背这口锅

2019年03月28日 栏目:法律

本文首发于航通社,原创文章未经授权请勿转载。航通社(ID:lifeissohappy)微博@lishuhang有媒体报道,通过搜索引擎,

本文首发于航通社,原创文章未经授权请勿转载。航通社(ID:lifeissohappy)微博@lishuhang

有媒体报道,通过搜索引擎,可以找到一些“相约自杀”的群、群等,成为部分年轻人自杀的诱因。搜索引擎方面自然对这种联想词功能的问题责无旁贷,然而媒体和公众花样翻新的测试,总是让产品设计者防不胜防。

为了让我们更方便地使用搜索,联想词是必然要加入的一项功能。而对人们的意图进行联想和预测,也是未来人工智能语音助手变得更好用的前提。

但是,人类固有的思维盲区,让他们在设计算法和流程的时候,实在是难以预料用户会出现什么样的不当使用行为,导致什么奇葩的结果。

往往只有在媒体曝光,公众关注以后,他们才能知道算法运算的结果如何。然而此时,错误已经酿成。

一、“为您推荐”

年轻人在上相约自杀的行为,中外都有。在中国,主要的络平台载体就是群、群等。

几天前《法制晚报》报道,又有三名青年通过群“相约自杀”成功。看到孩子遗体的父亲在悲恸欲绝之余,还质问络平台说:“聊了那么久,站看不到吗?络平台没有审核么?不承担任何一丁点的么?”

不管事实上看不看得到,从公司主观层面,腾讯当然要说看不到用户的聊天记录,外界对于这一点可能也不会有什么异议。你当然也不希望自己在群里刚说了一句话,五分钟后就有警车呼啸而至什么的吧。

不过,在《法制晚报》的报道中,在百度上搜索“自杀群”关键字,就能非常容易地找到很多群的号码,公开展示的信息和私密的群聊是两码事。

报道称,结果页面不仅有聊天记录截屏、相关报道,而且每次点击结果后,都会通过联想词自动“为您推荐”一些关键字,包括“约死群2018”“2018相约死亡群”“2018想死扣扣群”等。

航通社作者小时候曾经帮不太懂电脑的同学和家长找过资料,时常被询问“为什么我半天搜不出来,你一搜就有了”。这实在三言两语很难讲清楚。

但是,很显然百度的这些关键词联想功能,给了可能不太熟悉搜索引擎的用户一些便利,让他们可以获得更的结果。

二、防不胜防

向百度反映之后,百度已经修正了相关检索结果。现在你再搜索“自杀群”时,就不再显示带有具体群号码的讨论,基本上看到的都是相关事件的,持续十几页、二十几页都是这样。而且,让航通社感受颇深的是,跟“相约自杀”有关的搜索结果清理工作,6月26日持续一整天都在不断进行。

当天上午,航通社测试在百度贴吧搜索框当中输入“相约自杀”,并选择“全吧搜索”,还会发现带着群号码的一些帖子;“相约烧炭”“烧碳”等一些变种搜索结果,也有相应的帖子存在。但到了下午4点左右再测试,这些页面刷新之后基本就被清理了。

然而,媒体曝光的问题修改起来总是容易的。进一步操作的话就会发现,还有一些“高危”的短句搜索结果未作处理。

在贴吧搜索“相约烧炭”,旁边的“大家都在搜”提示了“烧炭多久可致人死亡”“车里烧碳”“烧碳如何确保必死”“2017有烧碳死的吗”这些短语。

航通社相信它们的形成机制,和报纸测试出现的“约死群2018”等是一样的。机器不太可能无中生有地造出这些排列组合。每一个关键字的后面,很大程度上都可能有不止一个真人亲自打出过这些词。

只要简单想想,就令人后背发麻。

三、是不是有专门的员工盯着

在知乎,有关于百度的三个“经典问题”:

“百度作了哪些恶?”

“为什么有人说百度以一己之力全面降低了中国互联体验?”

“为什么老师说‘百度搜索不是什么正经的东西’?”

在这些问题下的数千个回答中,有些提到的现象现在再看,已经无法重现。而有时在某个回答成为热门之后很短时间,其中提到的不妥当的搜索结果就会被清理。

航通社一度怀疑,百度有专门的员工盯着这些“招黑”的帖子和媒体报道。不过有人自称百度员工并回帖说,一般他们都是路过看到,顺手贴进内论坛,也通过这一渠道报了很多Case。

实际上,面对一部分搜索结果的Bug(特别是和盈利不明显挂钩的问题),百度并不是毫无作为,同时也乐于将一些搜索结果的改善大举宣传,作为企业履行社会的一部分表现。

具体到“自杀”问题,百度和国内其他搜索引擎,均已和国内相关的心理干预机构建立了合作关系。一些比较容易想到的词语,比如说“自杀”“我想自杀”这类关键词结果页面,都会出现求助号码,以及求助方式、基础知识等等。

至少有一部分人选择自杀时,并不是经过深思熟虑的,只是一时间想不开。与此同时,他又没有接触过关于自杀的一些基础知识,包括死亡的代价、寻死的疼痛、无法挽回和来不及后悔的具体含义。

也许,如果他们有机会了解到相关的知识,那么他可能就会被吓到,或者被劝阻,从而重新认真的思考自己这一决策是否合理。

但是,这个关键字提醒功能,并未涵盖“自杀群”“相约自杀”等词,也没有覆盖所有的“死法”,比如“上吊”“跳楼”有,但“烧炭”“安眠药”没有。

这很显然与百度的分词策略有很大关系。“自杀”关键字的相关页面无疑是人工干预的结果,而产品经理头脑风暴以后想不到的一些词,就只会由系统自动展开联想。

具体到“自杀群”这个词,因为在近一两天产生了大量和转载,全国转载媒体达到几十家,所以这可以组成一个自动的专题。我相信写稿时看到的结果页肯定不是这个样子,但是已经没有办法去查证了。

当“自杀群”关键词被系统认为是热点的时候,在页面右侧的推荐结果当中,就会提示“相关人物”——近有什么名人自杀了,以及其中包含的“知名演员”。

虽然看不到具体的群号,但是显示的是有多少名人和自己一样,也选择了自我了断,这可能对有自杀念头的人来说,并不是一个非常正面的激励。

此外,也有友指出,百度虽然对“自杀”等关键词实施了干预,但对造成后果同样很严重的“自残”却没有干预。6月26日下午4点搜索“自残”,第二条结果是有人问“为什么自残会觉得很舒服”。

四、盲区如何形成

如此看来,搜索引擎联想词惹出的麻烦,恐怕不能靠产品设计事先根治,多数情况下是发现一个整改一个,跟打地鼠一样。是什么导致了这样的结果呢?

首先,与“自杀”相关的这一系列词语,可以说在整个搜索处理流程中,并没有达到一个极端重要的优先级,换句话说就是还没有成为“敏感词”。

因为如果将“自杀”也设置为不可触碰的等级词语,你会发现自己连发消息,甚至发谐音字、火星文代替都很困难。如果很多人自杀念头只是一闪念,看着这么麻烦,也许就偃旗息鼓了。

然而,这样做会很大程度上影响我们的日常交流,给人们带来的不便,已经超出了封禁可能带来的好处。但更重要的是,我们寻求结果的过程,从事后来看可以说是非常简单,但是事前想要从零开始去想,那就非常困难。

这就像我们去阅读一篇构思精巧的侦探小说一样。没有经验的读者,不知道这种小说会有什么样的套路,面对谜题的时候会是一头雾水的。但是当真相终于揭晓的那一刻,我们再把它还原回去,就会感觉一切线索原来都预先设置好了,各种伏笔都是在情理之中的。

那么,为什么我们这么笨,就没有想到呢?其实不是我们笨,而是我们的日常思维可能形成了惯性或者定势,对我们造成了误导。

小时候,老师用一个“棉花糖实验”,教给我们做事要忍耐,要有毅力,抵御诱惑的道理。好像在有些地方,也被误传为“棒棒糖实验”什么的。实验内容是给一些孩子们每人一块棉花糖,如果他们忍住15分钟不吃掉糖,就能再吃一块。当然,马上吃了也没关系,但是不会有奖励。

大多数小孩都忍不住吃掉了,或者搞小动作吃了一点点,自以为没被发现。能坚持15分钟没吃糖的孩子只有一小部分。然后呢,这一小部分孩子长大后果然坚毅勇敢有耐心,走上人生。

然而,《大西洋月刊》刊登的一篇文章介绍了纽约大学和加州大学一项共同研究的结果,让人大跌眼镜——这项原本进行于1990年的“棉花糖实验”的结论可能有误。

确实有少数孩子比其他孩子更能坚持15分钟,以拿到双份的棉花糖,但这并不是因为他们更有毅力,而是因为他们家境较好,小时候就能经常吃到好东西,所以并不认为棉花糖是一个稀罕物。

我读到之后既震惊又奇怪。为什么之前我只是被动接受了老师指定的结论,或者是“标准答案”?为什么我都没想到从另外的角度去看,或者怀疑它?

我想,对于百度的工程师和产品经理们来说,他们显然也不是全知全能的。说到给关键字添加温馨提示,他们只能是想到“自杀”,以及“我要自杀”“我想自杀”,并沿着这样的路径去联想。

他们不可能想到,“自杀”后面还可以跟着“群”,或者是“相约”,又或者是细致入微地采用自然语言询问怎么自杀快且不痛苦。

五、人人都是义务测试员

历史上,搜索引擎因联想功能而受到的抨击,简直是举不胜举。

2009年6月,国家有关部门批评谷歌中国存在“大量淫秽色情和低俗信息”,使“大量境外互联上的淫秽色情信息通过该站传播到我国境内”。

在《焦点访谈》节目中,有关部门演示了谷歌站联想词搜索存在提示黄色信息的问题。例如,在谷歌中国中输入“儿子”,下面却出现了例如“儿子母亲不正当关系”等十几个搜索结果。

该事件成为谷歌宣布退出中国业务运营的直接导火索。此后有友指出,在报道播出前几天,相关词汇的搜索量异常骤增,导致该词汇成为热门关键字,因此可以进入联想词列表的前列。

直到现在,谷歌、Facebook、Twitter等络平台所遭遇的跟关键词、自动联想推荐功能有关的无妄之灾,也依然是层出不穷。

2016年12月,在谷歌搜索框输入“犹太人是”时,会显示“犹太人是邪恶的”联想搜索结果。

2017年11月,在YouTube搜索“how to have”时,会显示“how to have s*x with your kids”(如何与你的孩子发生*关系,原文就有*号)。

2018年2月,谷歌搜索会提供这样一些联想词:“伊斯兰主义者不是我们的朋友”“希特勒是我的英雄”“女权主义者是性别歧视”“白人至上是好的”“全球变暖是假的”。

媒体展开了愤怒的质问:“为什么像我们这样的普通用户,都能一眼就发现的东西,你们谷歌有那么高明的技术手段,却迟迟不能发现?”

如同上文所述,虽然算法是普遍存在的,但是人的思维也是有盲区的。

年轻人用搜索引擎相约自杀谁来背这口锅

所以,算法优化的方向也是由人来指定的,那么它也只会把一个已经知道的位置去扫描得事无巨细,却完全管不到它和它的设计者可能想象不到的地方。

自动推荐是机器学习典型的应用,而这个“黑箱子”里面一向以人们不能掌握其具体运转机制而著称。就算欧盟通过GDPR立法,逼迫厂商公开算法细节,恐怕那公开出来的,也是没人看得懂的天书。

长远来看,解决混沌的方法必须是还以混沌。也就是说,用机器学习去对抗随机Bug,是解决所有未来这些问题的一个看起来可行的途径。

具体到搜索关键字联想,应对不当联想结果的方法,除了人工标记——就连谷歌在回应媒体报道时,都只能说用到这个方法——可能就是要采用类似神经络翻译的手段:通过分拆和描述一个关键词、短句的具体特征,计算某类词汇(以及其错别字变体)跟另一些词一同出现的概率,并尝试通过人工抽样检查等方式下判断来训练机器。

如果机器学习实在到不了这种程度,一个非常简单的方式就是一禁了之。

例如,任何出现群号码的帖子,也就是“、秋秋、V信”等词语,后面加上九位或十位数字或者是号这类的信息,如果和“自杀”“烧碳”连缀的话,我们根本就不让它出现在百度搜索结果里,可不可以?

还是说起来容易,做起来难。全面禁止容易“误伤”,为用户带来不便,而且出了问题以后,对系统改动的断点越多,查找问题源头时就越麻烦,可能越改越糟。

我愿意从比较善良的角度思考,相信百度、谷歌等这些提供算法推荐的企业,并没有因为出现时有发生的负面消息而一口气关闭推荐功能,初衷是进一步改善和优化搜索结果,以至于让它不断接近人类的思维可以达到的理想境界。

在这种改善产品的过程中,搜索引擎事实上推出了一个不完美的“半成品”,把所有使用这个功能的用户、媒体等等,都当成是其测试部门的“编外”工作人员。每一次搜索异常,都是在向开发者反应一个错误的测试结果,或者是示范一种计划之外的错误用法。

对于程序员来说,他们可能学到的很多个重要的道理当中,其中一个就是,永远不要去试图规范用户该做什么、不该做什么,他总能找到你意料之外的使用方式。

然而,如果你试图把所有的用户当做不花钱的测试员,这样做的结果就是你必须要付出金钱之外的代价。

当媒体以及社会舆论发现你这些错误,并且在社交渠道广为流传的时候,这就不是你能够靠给媒体们发工资能解决的问题了。可能很多年之后,关于这个搜索引擎各种不靠谱的印象,还是会继续流传。

*文章为作者独立观点,不代表虎嗅立场

本文由 航通社 授权 虎嗅 发表,并经虎嗅。转载此文请于文首标明作者姓名,保持文章完整性(包括虎嗅注及其余作者身份信息),并请附上出处(虎嗅)及本页链接。原文链接:

未按照规范转载者,虎嗅保留追究相应的权利