社交媒体机器人批量吐出计算机生成的内容,被指通过散布错误信息,影响选举,损害公共健康。现在,一些社会科学家提出了一项新的指控:对于一些通过挖掘Twitter、Reddit和Instagram等热门网站,以获取有关人类健康和行为信息的研究,社交媒体机器人会混淆视听。
这类网站的数据可以帮助科学家了解:自然灾害如何影响心理健康;为什么美国的年轻人对电子烟趋之若鹜;人们如何通过复杂的社交网络聚集起来。要开展这些研究,就要将真实的声音与网络机器人的“声音”区别开来。
“网络机器人被设计成像真人一样上网,”洛杉矶南加州大学的社会科学家Jon-Patrick Allem说,“如果研究人员想要描述公众的态度,就必须确保他们在社交媒体上收集的数据确实来自真人。”
2013年,丹麦技术大学的计算机科学家Sune Lehmann为了课堂上的一个社交网络实验,设计了他的第一批网络机器人。他说,当时Twitter上的机器人非常简单模糊,它们的存在主要是为了增加一些Twitter账号的粉丝数量。Lehmann希望让学生知道,这类机器人会如何操纵社交系统。为此,他们共同设计了歌手贾斯汀·比伯(Justin Bieber)的虚拟粉丝机器人。
“比伯机器人”(Bieber Bots)的设计很简单,并且迅速吸引了成千上万的关注者。但是,社交媒体机器人在不断演变,越来越复杂,难以被发现。2016年美国总统大选之后,这些机器人迅速成为公众关注的焦点;有人指控称,大量网络机器人被部署在社交媒体上,为特朗普在选举中造势。“突然之间,它变成了大家都感兴趣的东西。”Allem说。
之后,Allem用证据表明,网络机器人更容易生成电子烟有助于戒烟1的推文,其概率是真人推文的两倍——而事实是,这种论断仍有很大的争议。还有研究发现,机器人更容易宣扬大麻未经证实的健康益处2。这些研究都是依靠算法来估计某个Twitter账号为自动运行账号的可能性。但是Allem表示,尽管有Botometer和BotSlayer之类的机器人检测工具,许多社会科学和公共卫生研究人员仍然未能采取必要步骤,把可能为自动生成的内容从其数据中过滤掉。这里的部分原因在于,有些研究人员认为自己不具备这么做的专业知识。
Amelia Jamison警告说,这种疏忽会污染整个数据集。Amelia Jamison在马里兰大学研究健康差异,她在社交媒体上挖过反对疫苗接种的帖子。她说:“你可能会把它们视作真实讨论的一份子,听取这些声音,但其实它们夸大了一些社群本身没有表达的意见。”她指出,以她的研究课题为例,如果不剔除网络机器人的影响,她可能会认为反对疫苗的声音越来越多或是以变相的方式又出现了,而实际情况并非如此。
德国莱布尼茨社会科学研究所的信息科学家Katrin Weller认为,该领域必须解决的一个问题是如何定义网络机器人。并非所有的网络机器人都在恶意散布错误信息:某些机器人会提供气象站的最新天气情况、浮标采集的海平面变化数据,或是一般新闻报道。Weller指出,一些研究人员对Twitter机器人的定义是,每天发送消息超过一定数量的账号——这个定义较为宽松,会把一些爱刷屏的真人推特账号误算在内。
其他定义更为复杂一些。机器人检测器与机器人开发者始终处于一种“你追我赶”的竞赛中。第一代社交媒体机器人还是相对简单的程序,只会固定地转发他人的帖子。但是时至今日,随着机器学习的不断发展,能够发布原创内容的复杂机器人已经问世了。有些机器人会不定时地发布一些内容,还会模仿人类的习惯,例如在大家可能睡着的时候不发任何东西。一些机器人开发者会将真人生成的内容与自动生成的内容混在一起,增强机器人的伪装能力。
“一旦你对网络机器人以及检测它们的方式有了更多的了解,它们的创建者也掌握了同样的信息。”瑞士苏黎世大学的定量健康地理学研究人员Oliver Grübner说,“这是一个非常棘手的问题。”
像Lehmann一样,一些社会科学家正在自己设计机器人,来开展社会实验。宾夕法尼亚州立大学的政治学家Kevin Munger和他的同事制造了一些特别的机器人,这些机器人能识别使用种族主义语言的Twitter用户,并对其进行指责。研究人员让一组机器人使用白人男性作为头像,另一组使用黑人男性作为头像。Munger发现,Twitter用户在被前一组机器人指责后,更有可能淡化种族主义言论3。
在比伯机器人大获成功之后,Lehmann又设计出了更先进的机器人,以研究行为如何从一个群体传播到另一个群体。但是,由于网络机器人已经声名狼藉,可能出现的公众抗议让他考虑放弃该方法。“围绕网络机器人的一切都糊了。” 他说,“我有时候会想:‘我要再找一个安静的角落,在不会招致争议的情况下安心做研究。’ ”