加密钱银和监管的必要性

加密钱银是一种存在于数字国际的买卖媒介(另一种付出方式),依托加密技能使买卖安全加密钱银背面的技能允许用户直接向别人发送钱银,而不需求经过第三方,如银行。为了进行这些买卖,用户需求设置一个数字钱包,而不需求提供身份证号码或信誉评分等个人细节,因而能够让用户伪匿名。

对于普通的加密钱银用户来说,这种匿名性能够让他们放心,由于他们的个人信息或买卖数据不会被黑客盗取。但是,这种买卖匿名性的进步,也容易被犯罪分子滥用,进行洗钱、恐怖融资等非法活动。这种非法活动给区块链钱包用户以及加密钱银实体都造成了巨大的损失。虽然金融行动特别工作组(FATF)等监管组织现已在这些实体的监管中引入了标准化的指导方针,但由于每天都有很多的加密钱银实体和买卖产生,监控加密钱银空间是一项具有挑战性的任务。

解决方案

图片来历: https://dribbble.com/shots/2723032-Needle-in-a-Haystack

因而,人们有兴趣使用开源信息,例如新闻网站或交际媒体渠道,来辨认或许的安全漏洞或非法活动。在与Lynx Analytics的协作中,咱们(来自新加坡国立大学的一个学生团队)现已致力于开发一个自动东西,以刮取开源信息,猜测每篇新闻文章的危险分数,并标记出危险文章。这个东西将被整合到Cylynx渠道(https://www.cylynx.io/)中,这是Lynx Analytics开发的一个东西,用于协助监管组织经过运用各种信息源监控区块链活动。

开源信息的数据获取

咱们确认了3类开源数据,这些数据能够提供有价值的信息,协助检测加密钱银范畴的可疑活动。这些类别是:

  1. 传统的新闻网站,如谷歌新闻,它将报告严重的黑客事情。

  1. 加密钱银专用新闻网站,如Cryptonews和Cointelegraph,它们更有或许报导小型实体和小型安全事情的新闻。

  1. 交际媒体网站,如Twitter和Reddit,在官方发布黑客新闻之前,加密钱银所有者或许会在那里发布有关黑客的音讯。

硬核丨如何利用机器学习识别加密项目风险?

检索文章和交际媒体帖子的内容,然后建立心情剖析模型。该模型为文章中说到的实体分配了一个危险活动的概率。

心情剖析模型

咱们尝试了四种不同的自然言语处理东西进行心情剖析,即VADER、Word2Vec、fastText和BERT模型。在经过选定的要害目标(召回率、精度和F1)对这些模型进行评估后,RoBERTa模型(BERT的一个变种)体现最佳,被选为终究模型。

硬核丨如何利用机器学习识别加密项目风险?

图片来历: https://www.codemotion.com/magazine/dev-hub/machine-learning-dev/bert-how-google-changed-nlp-and-how-to-benefit-from-this/

RoBERTa模型对新闻文章(标题和摘抄)或交际媒体帖子的文本进行处理,并为特定文本分配一个危险分数。由于该文本在数据收集过程中现已被标记为实体,咱们现在现已有了加密实体的相关危险目标。在后期,咱们将多个文本的危险分数结合起来,给出一个实体的全体危险分数。

RoBERTa原本是一个运用神经网络结构建立的情感剖析模型,咱们将最终一层与咱们标注的危险分数进行映射,以习惯危险评分的环境。为了进步模型在未来文本数据上的通用性,咱们进行了几种文本处理办法,即替换实体、删除url和替换hash。然后咱们运用这个体现最好的模型进行危险评分。

危险评分

现在,每篇文章都有一个相关的来历(news/reddit/twitter),一个危险概率和一个计数,指的是文章被转发、共享或转发的次数。为了将这些危险概率转换为加密钱银实体的单一危险得分,咱们首先将文章的概率值缩放到0到100的范围内,并取得每个来历的加权平均值,结合文章的危险得分和计数。加权平均数用于对计数较高的文章给予更大的重视,由于份额数量很或许表明文章的相关性或重要性。

在计算出各来历的危险得分后,咱们对各来历的危险得分进行加权求和,得到归纳得分,公式如下:

硬核丨如何利用机器学习识别加密项目风险?

传统的新闻来历被赋予了更高的权重,由于这些来历更有或许报导严重的安全漏洞(相对于单个用户的黑客事情)。

解决方案的有效性

咱们在2020年1月1日至2020年10月30日的174个加密钱银实体的名单上测试了咱们的解决方案,并将结果与该时刻段内的已知黑客事例进行了比较。咱们发现,咱们的危险评分办法体现相当超卓,在37个已知的黑客事例中辨认了32个。咱们还剖析了咱们的解决方案对单个实体的有效性。下图显现了Binance从2020年1月1日至2020年10月30日的危险评分。虚线红线代表已知的黑客事例。从图中咱们观察到,咱们的解决方案报告了5个已知黑客中的4个黑客的危险得分增加。也有几个峰值与已知黑客事例不一致。但是,这并不构成一个主要问题,由于对咱们的模型来说,更重要的是辨认尽或许多的黑客,削减未辨认的黑客数量。

硬核丨如何利用机器学习识别加密项目风险?

风趣的发现

在危险评分过程中,咱们注意到,与规划较小的实体相比,规划较大的实体的危险评分往往有较大比例的假阳性记录。这是由于大型实体被谈论得更多,因而会有更多的负面帖子和虚伪流言,然后导致更高的不准确率。

另一个值得着重的风趣趋势是,围绕着黑客进犯一般有几个显着的顶峰。这是由于不同数据源的反应时刻不同。交际媒体网站Twitter和Reddit一般是第一个看到高危险事情产生时的顶峰,由于用户会发帖提出他们观察到的异常情况,比方一个实体的网站在没有事前告诉用户的情况下宕机。官方音讯一般是在官方声明之后,稍后才会发布。

局限性

咱们发现,咱们的解决方案有两个潜在的局限性,首先是需求不断地保护收集器。网站规划或许会跟着时刻的推移而改变,这些网站的刮擦器需求更新,以保证相关信息仍能被检索到,然后到达危险评分的意图。

第二个约束是,验证一篇文章是否已被正确地标记为加密钱银实体是具有挑战性的。例如,一篇报导Bancor可疑活动的文章或许也会由于一个不相关的事情说到Binance。咱们的解决方案会过错地将新闻标记为两个实体,并将Binance标记为危险,即使它不是文本中的要害主题。但是,这并不是一个主要的约束,由于咱们只运用新闻文章的标题和摘抄来进行危险评分,这一般只包括文章的要害信息。

结语

硬核丨如何利用机器学习识别加密项目风险?

咱们的项目让监管组织能够轻松挖掘开源信息,更好地辨认加密钱银范畴产生的危险事情。咱们提供了一个剖析文章并猜测危险分数的言语模型,以及依据实体和来历信息汇总这些分数的办法。这些办法都被编织成一个能够端到端运转的自动化流水线。将该项目整合到Cylynx渠道中,将对其现有功能进行弥补,并为监管组织辨认高危险加密钱银实体提供巨大的协助。

视野开拓

Much of the moal fevo behid the dive fo equality of outcome comes fom the widespead belief that it is ot fai that some childe should have a geat advatage ove othes simply because they happe to have wealthy paets. Of couse it is ot fai. Howeve, ufaiess ca take may foms. It ca take the fom of the iheitace of popety—bods ad stocks, houses, factoies; it ca also take the fom of the iheitace of talet—musical ability, stegth, mathematical geius. The iheitace of popety ca be itefeed with moe eadily tha the iheitace of talet. But fom a ethical poit of view, is thee ay diffeece betwee the two? Yet may people eset the iheitace of popety but ot the iheitace of talet.-《自由选择(珍藏版)》

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注