空气中弥漫着仇恨!但是在哪里?介绍了一种在数字微环境中检测仇恨言论的算法

犯罪科学一直表明,犯罪在空间和时间上不是随机分布的。但是如何在社交媒体上发现犯罪意图和仇恨言论呢?在社交媒体上,“地点”并不是实体的。在一个新论文发表在犯罪的科学,研究人员定义了什么是数字微环境,并引入了一种新的算法来检测仅基于元数据的仇恨言论,这与基于语义和句法方法的传统设计不同。

为了试图了解哪些因素导致犯罪在特定时间集中在特定地点,环境犯罪学家已经将他们分析的重点从实施犯罪或遭受犯罪的个人转移到犯罪发生的环境。他们的出发点是,每个环境的特征都有利于或阻碍犯罪,并且有可能对这些环境进行干预以控制犯罪。

仇恨言论是一种低流行率的现象,在所有的噪音中很难被发现。它的定义很复杂,而且是一种适应性极强的现象

网络犯罪和场所理论框架最近发展起来,将犯罪场所的分析外推到网络空间。当然,在网络空间中谈论地点似乎违反直觉,但环境犯罪学赋予地点概念的内涵超出了物理空间。这些网络场所的重要之处在于,它们允许人和事物的融合。而且,在没有监护人的情况下,这种融合产生了犯罪的机会。

(图片来源:Shamia Casiano on Pexels)

推特和仇恨言论

在Twitter上,用户不断地参与其他用户发布的信息,在微观层面上,在数字微环境中,由对其他人(即其他账户)说话(即推文)的人(即账户)的组合定义。大多数时候,这是一种无害的活动,但其中一条推文可能包含一种被称为仇恨言论的激进内容。

每天有数亿条推文发布在推特上。警察和服务提供商每天都在推特上搜索为了消除仇恨言论.但仇恨言论是一种低流行率的现象,在所有的噪音中很难被发现。认为他们可以控制Twitter上发布的所有内容是不现实的。然而,用户希望他们这样做

我们开发了一个机器学习模型,以每条推文的元数据为基础,以92%的精度确定它是否包含仇恨言论。

仇恨言论检测面临两个主要挑战。首先,定义和划界是复杂的。其次,语言的动态性使其成为一种具有非凡适应性的现象。传统的检测方法主要采用语义方法。这些方法将包含某些先前被归类为激进词汇的信息视为仇恨言论。但根据上下文的不同,有些词可能会产生误导,导致不正确的分类。

我们使用了另一种方法来克服这些方法的局限性。在我们的论文中,我们假设数字微环境的特征决定了仇恨言论模式。基于这个想法,我们开发了一个机器学习模型,以每条推文的元数据为基础,以92%的精度确定它是否包含仇恨言论。通过使用通过Twitter发送的推文样本2017年6月伦敦桥恐怖袭击N= 200,880),本研究介绍了一种用于检测网络空间仇恨言论信息的新算法。

通过机器学习分类技术随机森林的应用,我们的分析表明,与推文的交互和结构相关的元数据与识别它们所包含的内容特别相关。因此,我们希望促进和减少警察和服务提供商执行的分析任务,以减轻仇恨言论对社交网络用户的影响。

在“论社会”主页上查看最新的帖子

评论