01、暗网一词最初由Dr.Jill Ellsworth于1994年提出 , 指那些由普通搜索引擎难以发现其信息内容的Web页面 。因为这些信息内容是用户所看不到的 , 所以被称为是暗网 。
暗网(Hidden Web)如其释义所说 , 通常是指网络上大部分内容是不能通过静态链接获取的 , 特别是大部分隐藏在搜索表单之后的页面只有通过用户键入一系列关键词才可以获得 。形象的理解是 , 这些页面是目前搜索引擎所无法抓取的网页、不能检索到的信息 , 即“看不见”的网站 , 由于当前的搜索引擎不能索引到或不能在它们的返回结果中显示这些页面 , 因此对用户来说这部分页面是隐藏的 。
来源
暗网(互联网) Hidden Web最初由Dr.Jill Ellsworth于1994年提出 , 指那些由普通搜索引擎难以发现其信息内容的Web页面 。从信息量来讲 , 与现在能够索引的数据相比 , “暗网”更是要庞大得多 。根据Bright Planet公司此前发布的一个名为《The Deep Web-Surfacing The Hidden Value》(深层次网络 , 隐藏的价值)白皮书中提供的数据 , “暗网”包含100亿个不重复的表单 , 其包含的信息量是“非暗网”的40倍 , 有效高质内容总量至少是后者的1000倍到2000倍 。更让人无所适从的是 , Bright Planet发现 , 无数网站越来越像孤立的系统 , 似乎没有打算与别的网站共享信息 , 如此一来 , “暗网”已经成为互联网新信息增长的最大来源 , 也就是说 , 互联网正在变得“越来越暗” 。
现状
当然 , 所谓“暗网” , 并不是真正的“不可见” , 对于知道如何访问这些内容的人来说 , 它们无疑是可见的 。2001年 , Christ Sherman、GaryPrice对Hidden Web定义为:虽然通过互联网可以获取 , 但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信息 。根据最近对HiddenWeb的调查文献得到了如下有意义的发现:
(1)Hidden Web大约有307,000个站点 , 450,000个后台数据库和1,258,000个查询接口 。它仍在迅速增长 , 从2000年到2004年 , 它增长了3~7倍 。
(2)Hidden Web内容分布于多种不同的主题领域 , 电子商务是主要的驱动力量 , 但非商业领域相对占更大比重 。
(3)当今的爬虫并非完全爬行不到Hidden Web后台数据库内 , 一些主要的搜索引擎已经覆盖Hidden Web大约三分之一的内容 。然而 , 在覆盖率上当前搜索引擎存在技术上的本质缺陷 。
(4)Hidden Web中的后台数据库大多是结构化的 , 其中结构化的是非结构化的3.4倍之多 。
(5)虽然一些Hidden Web目录服务已经开始索引Web数据库 , 但是它们的覆盖率比较小 , 仅为0.2%~15.6% 。
(6)Web数据库往往位于站点浅层 , 多达94%的Web数据库可以在站点前3层发现 。
暗网分类
一般情况下暗网可以根据其产生原因分为两种:
一种是技术的原因 , 很多网站本身不规范、或者说互联网本身缺少统一规则 , 导致了搜索引擎的爬虫无法识别这些网站内容并抓取 , 这不是搜索引擎自身就能解决的问题 , 而是有赖整个网络结构的规范化 , 百度的“阿拉丁计划”、谷歌的“云计算”就是要从根本解决这一问题 。
【暗网是什么?】另一个原因则是很多网站根本就不愿意被搜索引擎抓取 , 比如考虑到版权保护内容、个人隐私内容等等 , 很多网站都在屏蔽百度、比如最近最大的视频分享网站优酷也宣布屏蔽百度一样 , 这更不是搜索引擎能解决的问题了 。如果他们能被搜索引擎抓取到 , 就属于违法了 。
推荐阅读
- 螃蟹是什么类型的动物
- 彩虹码是什么?超市彩虹码有什么用?
- 零售机和官换机是什么意思
- 微信联系人旁边的小耳朵是什么
- 被拉黑后打电话是什么声音
- TB黑金会员是什么意思
- 眉笔茶褐色是什么颜色
- 众数是什么?
- 拼多多砍单是什么意思
- 拼多多子账户是什么意思