deepweb
deepweb,又称Dark Web,中文名为深网、不可见网、暗网、隐藏网等,是指互联网上那些不能被标准搜索引擎索引的不能直接方问的非表面网络内容1,是利用加密传输、P2P对等网络等,为用户提供匿名的互联网信息访问的一类技术手段,起步于2000年2。
deepweb最大特点是经过加密处理,普通浏览器和搜索引擎无法进入,且使用虚拟货币进行交易,具有网站使用者和访问者不可被追踪的特点,有极强的匿名性和保密性2。访问deepweb通常需要特定的浏览器,较常用的是俗称“洋葱头”(Tor)的浏览器,以此构成“洋葱网络”,其网址通常具有“.onion”结尾的域名1。
基本信息
- 中文名
深网
- 外文名
Deep Web、Dark Web
- 别名
不可见网、隐藏网
- 含义
互联网上那些不能被标准搜索引擎索引的非表面网络内容
- 对比
表网
- 领域
计算机
发展历程
伯格曼在The Journal of Electronic Publishing上发表一篇关于深网的重大论文中提到,吉尔.艾尔斯沃夫曾经使用“隐形网”这一术语表示那些没有被任何搜索引擎索引注册的网站。伯格曼还引用法兰克·加西亚在1996年1月的一篇文章:
这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我称之为隐形网。
早期另一个使用“隐形网”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特和马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。
普遍接受的深网这一特定术语首次使用在2001年伯格曼的研究中。
与SurfaceWeb相比,DeepWeb蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息.在2000年7月,Brightplanet对DeepWeb做了一次较为全面的宏观统计,发布了Deepw web的白皮书 (在该文中Brightplanet对DeepWeb的定义主要指的是Web数据库),指出整个Web上大约有43000~96000个Web数据库,并从宏观上对DeepWeb做了定量的调查统计,下面列出其中部分的调查结果:(1)DeepWeb蕴含的信息量是SurfaceWeb的
400~500倍.(2)对DeepW eb数据的访问量比SurfaceWeb要高出15%.(3)DeepWeb蕴含的信息量比SurfaceWeb的质量更高.
(4)Deep Web的增长速度要远大于SurfaceWeb.
(5)超过50%的DeepWeb的内容是特定于某个域的,即面向某个领域.
(6)整个DeepWeb覆盖了现实世界中的各个领域,比如商业、教育、政府等等.
(7)DeepWeb上95%的信息是可以公开访问的,即免费获取.
整个Web是开放的、不断变化的,有效地评估当前整个DeepWeb的规模,即当前DeepWeb上Web数据库的数量以及变化情况是十分重要的.
UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算,推测整个Web上有307000个提供Web数据库的网站、450000个Web数据库,比Brightplanet在2000年估计的500 00个数据库网站的数目增长了6倍多.
DeepWeb中的Web数据库不但数量众多,而且覆盖了现实世界的各个领域.一些专门的机构,像CompletePlanet和InvisibleWeb等,构建了DeepWeb目录,按现实世界的领域对DeepWeb的内容做了分类,主要包括商业与经济、计算机与互联网、新闻媒体、娱乐等一共十几个分类.这只是宏观的分类,每个分类下面还有小的分类,比如科学可以继续分为社会科学与自然科学,而自然科学又可分为若干学科.在表1中可以看出,尽管这些网站对Web数据库进行了细致的分类,但所列出的Web数据库仅仅只是整个 web数据库的很小的一个比例(即使最大的CompletePlanet也只有15.6%.因此从宏观上对Web数据库按现实世界的领域分类做一个定量的分析是十分迫切而且必要的工作.
对网站中所提供的查询接口提交查询来获得,图2是Amazon网站提供的查口.
每个查询接口支持在若 干个属性上进行查询,比如要查询某一本图书,可以根据书名、作者、价格等.这些属性就构成了查询接口的模式(Schema)信息.查询接口模式的大小是指属性的数目.查询接口顾名思义是外部访问Web数据库的门户,是从Web数据库中获取数据的主要途径,因此在 web数据库研究领域,对查询接口的模式信息的研究占有极其重要的地位.
对DeepWeb信息的访问是通过在查询接口上提交查询,这和对搜索引擎的访问在某种程度上来说是相似的,但DeepWeb数据和搜索引擎二者之间是有着很大区别的:
(1)搜索引擎搜索结果是网页,而Deepweb中的搜索结果主要是结构化的数据。