以下文字资料是由(历史认知网 www.lishirenzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
摘要:特别是,Memex希望创建一个搜索索引这将有助于执法部门识别网上的人口贩运活动,特别是通过挖掘深邃...的网络。识别非法活动在Memex项目期间对Tika的改进使其在处理多媒体和其他在深黑网络上发现的内容方面更加出色。利用Tika持续监控深黑的网络,有助于在照片发布到网上后不久查明贩运人口和武器的情况。这可能会阻止犯罪的发生并拯救生命。
这篇文章最初是在对话中发表的。这篇文章为Live Science的专家之声贡献了一篇文章:Op Ed&Insights。
在当今数据丰富的世界中,公司、 ... 和个人想分析任何他们能得到的东西——万维网也有大量的信息。目前,网络上最容易索引的材料是文本。但互联网上多达89%至96%的内容实际上是其他东西——图像、视频、音频,各种各样的非文本数据类型。
此外,绝大多数在线内容都不是以谷歌这样的电子存档系统容易索引的形式提供的,它需要用户登录,或者由用户访问页面时运行的程序动态提供。如果我们要对在线人类知识进行编目,我们需要确保我们能够获取并识别所有这些知识,并且我们能够自动地做到这一点。
我们如何教计算机识别、索引和搜索所有在线可用的不同类型的材料?由于联邦 ... 在全球打击人口贩卖和武器交易方面的努力,我的研究为一种新的工具奠定了基础,这种工具可以帮助我们做到这一点。
理解什么是深度深度“deep web”和“dark web”经常在恐怖新闻或类似“deep web”的电影中讨论,“年轻而聪明的罪犯正在逃避毒品交易和人口贩运等非法活动,甚至更糟。但这些术语是什么意思呢?”KDSPE“KDSPs”自从企业和组织(包括大学)以人们无法直接查看的方式将大型数据库放在网上后,就一直存在。例如,许多大学不允许任何人获取学生的 ... 号码和电子邮件地址,而是要求人们在搜索在线目录以获取联系信息之前,以校园社区成员的身份登录。诸如Dropbox和Gmail之类的在线服务是可公开访问的,并且是万维网的一部分,但是在这些网站上索引用户的文件和电子邮件确实需要个人登录,这是我们的项目不涉及的。“KDSPE”“KDSPs”“表面Web”是我们可以看到的在线世界——购物网站、企业的信息页,新闻机构等等。“deep web”与人类用户密切相关,但不太明显,在某些方面更重要的是,它与搜索引擎通过探索web来对其进行分类。我倾向于将“deep web”描述为公共互联网的那些部分:
要求用户首先填写登录表单,涉及AJAX或Javascript等动态内容,或者以搜索服务通常无法正确索引的方式呈现图像、视频和其他信息。什么是 ... ?”相比之下,kdsp“暗网”是由使用匿名网络协议Tor的web服务器托管的页面,其中一些页面可能还包含“深层网络”元素。Tor最初是由美国国防部研究人员为保护敏感信息而开发的,2004年发布到公共领域。和WhatsApp消息应用等许多安全系统一样,其最初的目的是为了永远,但也被隐藏在系统匿名性背后的犯罪分子利用。一些人在处理非法活动的网站上经营,如贩毒、武器和人口贩运,甚至为雇佣 ... 人。
美国 ... 一直有兴趣设法利用现代信息技术和计算机科学来打击这些犯罪活动。2014年,美国国防部下属的国防高级研究计划局(通常称为DARPA)启动了一个名为“Memex”的项目,用这些工具打击人口贩运。
特别是,Memex希望创建一个搜索索引这将有助于执法部门识别网上的人口贩运活动,特别是通过挖掘深邃 ... 的网络。由学者、 ... 工作人员和行业专家组成的项目团队使用的一个关键系统是我帮助开发的一个系统,名为ApacheTika。
“数字巴别鱼”Tika通常被称为“数字巴别鱼”,这是在“银河系搭车指南”系列丛书中对一种名为“巴别鱼”的生物的游戏。一旦插入一个人的耳朵,贝贝鱼让她可以理解任何语言说。Tika允许用户理解任何文件及其包含的信息。
当Tika检查文件时,它会自动识别文件的类型,例如照片、视频或音频。它通过对文件信息进行分类来实现这一点:文件名、文件扩展名、某种“数字指纹”。例如,当遇到一个名以“.MP4”结尾的文件时,Tika假设它是一个以MPEG-4格式存储的视频文件。通过直接分析文件中的数据,Tika可以证实或反驳这一假设——所有视频、音频、图像和其他文件必须以特定的代码开头,说明其数据存储在
中的格式一旦确定了文件的类型,Tika就使用特定的工具来提取其内容,例如Apache PDFBox for PDF文件,或用于从图像中捕获文本的Tesseract。除了内容,还捕获了其他法医信息或“元数据”,包括文件的创建日期、最后编辑者以及文件的编写语言。
,从那里开始,Tika使用命名实体识别(NER)等高级技术来进一步分析文本。NER识别专有名词和句子结构,然后将这些信息与人、地点和事物的数据库相匹配,不仅识别文本在谈论谁,还识别他们在哪里以及为什么这样做。这项技术帮助蒂卡自动识别离岸空壳公司(物);它们的所在地;以及谁(人)把钱藏在里面,作为巴拿马文件丑闻的一部分,该丑闻暴露了全球政治中的金融 ... ,社会和技术领袖。
识别非法活动在Memex项目期间对Tika的改进使其在处理多媒体和其他在深黑网络上发现的内容方面更加出色。现在,蒂卡可以处理和识别具有共同人口贩运主题的图像。例如,它可以自动处理和分析图像中的文本(受害者别名或有关如何联系他们的指示)和某些类型的图像属性(如相机照明)。在一些图像和视频中,Tika可以识别出现的人、地点和事物。
附加软件可以帮助Tika找到自动武器并识别武器序列号。这有助于追查它是否被盗。
利用Tika持续监控深黑的网络,有助于在照片发布到网上后不久查明贩运人口和武器的情况。这可能会阻止犯罪的发生并拯救生命。
Memex还不足以处理所有现有的内容,也不足以全面协助执法,为阻止人口贩运甚至与商业搜索引擎互动的人道主义努力作出贡献。
将需要更多的工作,但我们正在使实现这些目标变得更容易。Tika和相关软件包是DARPA开放目录中开放源代码软件库的一部分,任何人——执法部门、情报部门或广大公众——都可以在DARPA的开放目录中看到希望照亮 ... 深处的光。
信息检索和数据科学组主任Christian Mattmann副教授,南加州大学和首席数据科学家,美国航天局
这篇文章最初发表在对话上。阅读原文。“
特别申明:本文内容来源网络,版权归原作者所有,如有侵权请立即与我们联系(devmax@126.com),我们将及时处理。