以下文字资料是由(历史认知网 www.lishirenzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!

为深度、 ... 的网络建立谷歌

这张地图描绘了与非法产品相关的黑网活动热点,较大的圆圈表示更多的非法活动。Christian Mattmann,CC BY-SA)

这篇文章最初是在对话中发表的。这篇文章为Live Science的专家之声贡献了一篇文章:Op Ed&Insights。

在当今数据丰富的世界中,公司、 ... 和个人想分析任何他们能得到的东西——万维网也有大量的信息。目前,网络上最容易索引的材料是文本。但互联网上多达89%至96%的内容实际上是其他东西——图像、视频、音频,各种各样的非文本数据类型。

此外,绝大多数在线内容都不是以谷歌这样的电子存档系统容易索引的形式提供的,它需要用户登录,或者由用户访问页面时运行的程序动态提供。如果我们要对在线人类知识进行编目,我们需要确保我们能够获取并识别所有这些知识,并且我们能够自动地做到这一点。

我们如何教计算机识别、索引和搜索所有在线可用的不同类型的材料?由于联邦 ... 在全球打击人口贩卖和武器交易方面的努力,我的研究为一种新的工具奠定了基础,这种工具可以帮助我们做到这一点。

理解什么是深度

深度“deep web”和“dark web”经常在恐怖新闻或类似“deep web”的电影中讨论,“年轻而聪明的罪犯正在逃避毒品交易和人口贩运等非法活动,甚至更糟。但这些术语是什么意思呢?”KDSPE“KDSPs”自从企业和组织(包括大学)以人们无法直接查看的方式将大型数据库放在网上后,就一直存在。例如,许多大学不允许任何人获取学生的 ... 号码和电子邮件地址,而是要求人们在搜索在线目录以获取联系信息之前,以校园社区成员的身份登录。诸如Dropbox和Gmail之类的在线服务是可公开访问的,并且是万维网的一部分,但是在这些网站上索引用户的文件和电子邮件确实需要个人登录,这是我们的项目不涉及的。“KDSPE”“KDSPs”“表面Web”是我们可以看到的在线世界——购物网站、企业的信息页,新闻机构等等。“deep web”与人类用户密切相关,但不太明显,在某些方面更重要的是,它与搜索引擎通过探索web来对其进行分类。我倾向于将“deep web”描述为公共互联网的那些部分:

要求用户首先填写登录表单,涉及AJAX或Javascript等动态内容,或者以搜索服务通常无法正确索引的方式呈现图像、视频和其他信息。什么是 ... ?”相比之下,kdsp“暗网”是由使用匿名网络协议Tor的web服务器托管的页面,其中一些页面可能还包含“深层网络”元素。Tor最初是由美国国防部研究人员为保护敏感信息而开发的,2004年发布到公共领域。

和WhatsApp消息应用等许多安全系统一样,其最初的目的是为了永远,但也被隐藏在系统匿名性背后的犯罪分子利用。一些人在处理非法活动的网站上经营,如贩毒、武器和人口贩运,甚至为雇佣 ... 人。

美国 ... 一直有兴趣设法利用现代信息技术和计算机科学来打击这些犯罪活动。2014年,美国国防部下属的国防高级研究计划局(通常称为DARPA)启动了一个名为“Memex”的项目,用这些工具打击人口贩运。

特别是,Memex希望创建一个搜索索引这将有助于执法部门识别网上的人口贩运活动,特别是通过挖掘深邃 ... 的网络。由学者、 ... 工作人员和行业专家组成的项目团队使用的一个关键系统是我帮助开发的一个系统,名为ApacheTika。

“数字巴别鱼”

Tika通常被称为“数字巴别鱼”,这是在“银河系搭车指南”系列丛书中对一种名为“巴别鱼”的生物的游戏。一旦插入一个人的耳朵,贝贝鱼让她可以理解任何语言说。Tika允许用户理解任何文件及其包含的信息。

当Tika检查文件时,它会自动识别文件的类型,例如照片、视频或音频。它通过对文件信息进行分类来实现这一点:文件名、文件扩展名、某种“数字指纹”。例如,当遇到一个名以“.MP4”结尾的文件时,Tika假设它是一个以MPEG-4格式存储的视频文件。通过直接分析文件中的数据,Tika可以证实或反驳这一假设——所有视频、音频、图像和其他文件必须以特定的代码开头,说明其数据存储在

中的格式一旦确定了文件的类型,Tika就使用特定的工具来提取其内容,例如Apache PDFBox for PDF文件,或用于从图像中捕获文本的Tesseract。除了内容,还捕获了其他法医信息或“元数据”,包括文件的创建日期、最后编辑者以及文件的编写语言。

,从那里开始,Tika使用命名实体识别(NER)等高级技术来进一步分析文本。NER识别专有名词和句子结构,然后将这些信息与人、地点和事物的数据库相匹配,不仅识别文本在谈论谁,还识别他们在哪里以及为什么这样做。这项技术帮助蒂卡自动识别离岸空壳公司(物);它们的所在地;以及谁(人)把钱藏在里面,作为巴拿马文件丑闻的一部分,该丑闻暴露了全球政治中的金融 ... ,社会和技术领袖。

识别非法活动

在Memex项目期间对Tika的改进使其在处理多媒体和其他在深黑网络上发现的内容方面更加出色。现在,蒂卡可以处理和识别具有共同人口贩运主题的图像。例如,它可以自动处理和分析图像中的文本(受害者别名或有关如何联系他们的指示)和某些类型的图像属性(如相机照明)。在一些图像和视频中,Tika可以识别出现的人、地点和事物。

附加软件可以帮助Tika找到自动武器并识别武器序列号。这有助于追查它是否被盗。

利用Tika持续监控深黑的网络,有助于在照片发布到网上后不久查明贩运人口和武器的情况。这可能会阻止犯罪的发生并拯救生命。

Memex还不足以处理所有现有的内容,也不足以全面协助执法,为阻止人口贩运甚至与商业搜索引擎互动的人道主义努力作出贡献。

将需要更多的工作,但我们正在使实现这些目标变得更容易。Tika和相关软件包是DARPA开放目录中开放源代码软件库的一部分,任何人——执法部门、情报部门或广大公众——都可以在DARPA的开放目录中看到希望照亮 ... 深处的光。

信息检索和数据科学组主任Christian Mattmann副教授,南加州大学和首席数据科学家,美国航天局

这篇文章最初发表在对话上。阅读原文。“

为深度、 ... 的网络建立谷歌的更多相关文章

  1. 为深度、 ... 的网络建立谷歌

    特别是,Memex希望创建一个搜索索引这将有助于执法部门识别网上的人口贩运活动,特别是通过挖掘深邃...的网络。识别非法活动在Memex项目期间对Tika的改进使其在处理多媒体和其他在深黑网络上发现的内容方面更加出色。利用Tika持续监控深黑的网络,有助于在照片发布到网上后不久查明贩运人口和武器的情况。这可能会阻止犯罪的发生并拯救生命。

  2. 梦见查阅 查询 索引

    周公解梦梦见查阅 查询 索引是什么意思,是怎么回事,意味着啥,代表什么。做梦梦到查阅 查询 索引是什么预兆,好不好呀,预示着未来会发生啥呢?会有啥征兆。

随机推荐

  1. 灵思皇后:屠夫之女摇身变皇后

    何皇后,大将军何进和车骑将军何苗的妹妹,是东汉第十二任皇帝汉灵帝的第二任皇后,汉少帝刘辩的生母。何氏身高七尺一,其家本是屠户,以屠宰为业,后被选为宫女进入掖庭,得到汉灵帝刘宏的临幸,生下皇子刘辩。光和元年,宋皇后因遭中常侍王甫和大夫程阿的诬陷诋毁,被汉灵帝废黜皇后之位,并打入冷宫,不久忧郁而死。两年后,汉灵帝立何氏为皇后。董太后最终因忧虑恐怖而死。

  2. 快快长大

    「公主这么小,什么时候才能长大呢?」于是把御医找来。「你有没有什么良药,可以让公主吃了,明天就长大。」国王问。启程前,御医慎重地交待国王:「从现在起直到我回国,您千万不可再去见小公主,否则即使找回了药草,也无效。」国王果然将他的话紧记在心,至此,再也不去见小公主,一心只盼着御医快快归来。在旁的大臣们,不禁暗笑国王的愚痴,难道不知道,经过了十二年,小公主自然是长大了,跟神药有什么关系?

  3. 爱情中总是倒贴的女人命格

    然而这类女人正是因为对于爱情的态度太过执著,天乙又为用神,所以看似爱情的路非常顺利,但是却因为自己非常愿意付出,总是怕对方不开心,导致男人抓住了她的弱点。

  4. 梦见梨子是什么意思 – 周公解梦

    梦见梨子是什么意思,梦见梨子会有哪些寓意呢,下面一起来看看吧。梦见梨子是什么意思(摄图网)未婚男子梦见从梨树上摘梨,预示着你会娶到一位品德端正的大美女为妻。梦见抓到鱼是什么征兆–周公解梦

  5. 梦见颈部_周公解梦梦到颈部是什么意思_做梦梦见颈部好不好

    梦见颈部变粗,脖子变粗表示名利双收,运气会愈来愈好。梦见难看的颈,预示梦者困难将到来。梦见伸长脖子,或脖子长长,表示近期擅长运动,灵活性好。《梦林玄解》梦头颈断复续,大吉,主死而复生,贫穷再富。《梦林玄解》梦头颈香馥,大吉。《梦林玄解》梦见颈部的案例分析梦境描述:梦中,我梦见自己的脖子扭伤了,但是没有感觉到怎么疼,我被家人送到了医院,医生说需要好好休息,没什么大事,并给我开了一些药。

  6. 挥洒自如是什么意思 | 成语大全

    指写诗、作文、写字、绘画;运用笔墨自如;不受拘束。也形容处理事务十分干练、娴熟。

  7. 念《地藏经》出生的孩子

    我依然还记得儿子出生的那个早春的日子,当我终于诵完了四十九遍《地藏经》,就开始有阵痛,从有感觉到儿子出生才三个多小时,那天十一个产妇,只有我一个顺产,而我已三十二岁,是年经最大的,儿子就出生在预产期那天,我还有奶,直到今天,他总说:“我是吃妈妈奶长大的”。

  8. 孟郊的这首爱情诗,通篇犹如大白话,但却是最能体现出爱情的深情

    唐朝有很多的诗派,特别是到了中唐时期,很多的诗人有点抱团取暖的意思,所以也就形成了各种不同的流派,那其中比较著名的有「”韩孟诗派”,这一派的诗人以韩愈和孟郊为首,他们讲究一个奇字,那就是把诗写得很奇特,可能会让人有些难以理解,这也正是「”韩孟诗派”,最为独特的一个地方。其实孟郊要比韩愈大,但是在名气上,则是要比韩愈小得多,两人相识之后,韩愈非常欣赏孟郊,于是极力地推荐他的诗文。这一点可谓是极为难得

  9. 厉姓女孩起名大全_姓名测试

    厉沪蓉厉淑娟厉志芳厉烁冉厉雅萍厉霞璃厉娅迪厉娥厉瑞洁厉晶美厉晓艳厉聿琴厉玲宇厉小茹厉昕妍厉国燕厉宇红厉梓悦厉昭娜厉奕婷厉萌洁厉小英厉社玉厉浚悦厉务琼厉思娜厉德红厉善文厉雯婷厉伟玉厉童琳厉婷雅厉娟美厉莹虹厉腊梅厉可玲厉语婷厉葛琴厉怡咏厉倩颖厉翰秀厉海娟厉宏玲厉好梅厉婷芳厉晶霞厉璋悦厉梦倩厉莉威厉妍汶厉坤丽厉小萍厉燕莛厉欣怡厉凤婷厉悦铮厉佳怡厉清怡厉傲雪厉雄颖厉艳厉爱婷厉惠芳厉志文厉凤丽厉栩蓉厉焱琳厉

  10. 千真万确的意思是什么?

    【拼音】qiānzhēnwànquè【解释】形容情况非常确实。【出处】【例子】他说的千真万确,我可以证明。【近义词】无可置疑,不容置疑【反义词】半信半疑,将信将疑【相关】百度“千真万确”

返回
顶部