必威电竞|足球世界杯竞猜平台

深網
來源:互聯網

深網(英文名:Deep Web)又稱不可見網、暗網,是指那些存儲在網絡數據庫里、不能通過超鏈接訪問而需要通過動態網頁技術訪問的資源集合,不屬于可以被標準搜索引擎索引的表面網絡。

1996年5月,深網系統的構想由美國海軍研究實驗所的3名科學家提出,2003年10月,美國政府認為其有利于政府工作的開展,正式開始實施。

深網具有匿名傳遞信息數據的特質,隱藏登錄者訪問信息的特點,因而被一些不法分子所利用進行非法活動,比如毒品交易、兒童色情、偽造身份等。以美國聯邦調查局(FBI)為首的幾家政府組織已經開始聯手行動打擊深網犯罪行動。

基本解釋

整個Web看似雜亂無章,但如果按其所蘊涵信息的“深度”可以劃分為SurfaceWeb和DeepWeb兩大部分。SurfaceWeb是指通過超鏈接可以被傳統搜索引擎索引到的頁面的集合。DeepWeb是指Web中不能被傳統的搜索引擎索引到的那部分內容。廣義上來說,DeepWeb的內容主要包含以下四個方面:(1)通過填寫表單查詢后臺在線數據庫而生成的動態頁面;(2)由于缺乏超鏈接指向而未被搜索引擎索引的頁面,占比約21.3%;(3)需要注冊或其他限制才能訪問的內容;(4)Web上可訪問的非網頁文件,如圖片文件、PDF和Word文檔等。

而在實際中應用中,人們則更關注于DeepWeb中的第一部分內容。其原因不難理解,這部分內容對結構化數據的集成更有意義,可以采用的技術也更豐富。DeepWeb數據集成也主要是指對結構化信息的集成,我們同時把Web中可訪問的在線數據庫稱為Web數據庫或WDB。這些內容只有在被查詢時才會由Web服務器動態生成頁面,把結果返回給訪問者(圖1),因此沒有超鏈接指向這些頁面,這是和那些可以被直接訪問的靜態頁面的根本區別。隨著Web相關技術的日益成熟和DeepWeb所蘊含信息量的快速增長,通過對web數據庫的訪問逐漸成為獲取信息的主要手段,而對DeepWeb的研究也越來越受到人們的關注。

深網資源

命名

伯格曼在The Journal of Electronic Publishing上發表一篇關于深網的重大論文中提到,吉爾·艾爾斯沃夫曾經使用“隱形網”這一術語表示那些沒有被任何搜索引擎索引注冊的網站。伯格曼還引用法蘭克·加西亞在1996年1月的一篇文章:

這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜索引擎編列索引,以至于事實上沒有人能找到他們。我可以這樣對這些不可見的網站說,你們是隱藏了的。我稱之為隱形網。

早期另一個使用“隱形網”這一術語的是一家叫做“個人圖書館軟件”公司的布魯斯·芒特和馬修·B·科爾,當他們公司在1996年12月推出和發行的一款軟件時,他們對深網工具的有過這樣的一番描述。

普遍接受的深網這一特定術語首次使用在2001年伯格曼的研究中。

索引方法

研究人員探尋了如何自動抓取深網內容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)發明了一個從用戶請求界面表格收集關鍵詞的深網抓取模型并且抓取深網資源。加利福尼亞大學洛杉磯分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho創建了一個自動生成有意義的查詢詞的程序。

商業搜索引擎已經開始使用以上兩種方法之一抓取深網。Sitemap協議(由谷歌于2005年首次開發并由Google引入)和mod oai是允許搜索引擎和其他網絡服務探索深網解決方法。以上兩種解決方法允許network service主動公布網址,這對于他們來說是容易的,因而允許自動探尋資源而不直接通過網絡表面的鏈接。Google的深網探尋系統預先計算每個HTML表單并且添加結果HTML頁面到Google搜索引擎索引。在這個系統里,使用三種方法計算提交詞:

參考資料 >

美國FBI打擊“深網”犯罪 中國或已有人涉足.環球國際.2024-03-08

生活家百科家居網