必威电竞|足球世界杯竞猜平台

深網(wǎng)
來源:互聯(lián)網(wǎng)

深網(wǎng)(英文名:Deep Web)又稱不可見網(wǎng)、暗網(wǎng),是指那些存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里、不能通過超鏈接訪問而需要通過動(dòng)態(tài)網(wǎng)頁技術(shù)訪問的資源集合,不屬于可以被標(biāo)準(zhǔn)搜索引擎索引的表面網(wǎng)絡(luò)。

1996年5月,深網(wǎng)系統(tǒng)的構(gòu)想由美國(guó)海軍研究實(shí)驗(yàn)所的3名科學(xué)家提出,2003年10月,美國(guó)政府認(rèn)為其有利于政府工作的開展,正式開始實(shí)施。

深網(wǎng)具有匿名傳遞信息數(shù)據(jù)的特質(zhì),隱藏登錄者訪問信息的特點(diǎn),因而被一些不法分子所利用進(jìn)行非法活動(dòng),比如毒品交易、兒童色情、偽造身份等。以美國(guó)聯(lián)邦調(diào)查局(FBI)為首的幾家政府組織已經(jīng)開始聯(lián)手行動(dòng)打擊深網(wǎng)犯罪行動(dòng)。

基本解釋

整個(gè)Web看似雜亂無章,但如果按其所蘊(yùn)涵信息的“深度”可以劃分為SurfaceWeb和DeepWeb兩大部分。SurfaceWeb是指通過超鏈接可以被傳統(tǒng)搜索引擎索引到的頁面的集合。DeepWeb是指Web中不能被傳統(tǒng)的搜索引擎索引到的那部分內(nèi)容。廣義上來說,DeepWeb的內(nèi)容主要包含以下四個(gè)方面:(1)通過填寫表單查詢后臺(tái)在線數(shù)據(jù)庫(kù)而生成的動(dòng)態(tài)頁面;(2)由于缺乏超鏈接指向而未被搜索引擎索引的頁面,占比約21.3%;(3)需要注冊(cè)或其他限制才能訪問的內(nèi)容;(4)Web上可訪問的非網(wǎng)頁文件,如圖片文件、PDF和Word文檔等。

而在實(shí)際中應(yīng)用中,人們則更關(guān)注于DeepWeb中的第一部分內(nèi)容。其原因不難理解,這部分內(nèi)容對(duì)結(jié)構(gòu)化數(shù)據(jù)的集成更有意義,可以采用的技術(shù)也更豐富。DeepWeb數(shù)據(jù)集成也主要是指對(duì)結(jié)構(gòu)化信息的集成,我們同時(shí)把Web中可訪問的在線數(shù)據(jù)庫(kù)稱為Web數(shù)據(jù)庫(kù)或WDB。這些內(nèi)容只有在被查詢時(shí)才會(huì)由Web服務(wù)器動(dòng)態(tài)生成頁面,把結(jié)果返回給訪問者(圖1),因此沒有超鏈接指向這些頁面,這是和那些可以被直接訪問的靜態(tài)頁面的根本區(qū)別。隨著Web相關(guān)技術(shù)的日益成熟和DeepWeb所蘊(yùn)含信息量的快速增長(zhǎng),通過對(duì)web數(shù)據(jù)庫(kù)的訪問逐漸成為獲取信息的主要手段,而對(duì)DeepWeb的研究也越來越受到人們的關(guān)注。

深網(wǎng)資源

命名

伯格曼在The Journal of Electronic Publishing上發(fā)表一篇關(guān)于深網(wǎng)的重大論文中提到,吉爾·艾爾斯沃夫曾經(jīng)使用“隱形網(wǎng)”這一術(shù)語表示那些沒有被任何搜索引擎索引注冊(cè)的網(wǎng)站。伯格曼還引用法蘭克·加西亞在1996年1月的一篇文章:

這些網(wǎng)站可能已經(jīng)被合理地設(shè)計(jì)出來了,但是他們卻沒有被任何搜索引擎編列索引,以至于事實(shí)上沒有人能找到他們。我可以這樣對(duì)這些不可見的網(wǎng)站說,你們是隱藏了的。我稱之為隱形網(wǎng)。

早期另一個(gè)使用“隱形網(wǎng)”這一術(shù)語的是一家叫做“個(gè)人圖書館軟件”公司的布魯斯·芒特和馬修·B·科爾,當(dāng)他們公司在1996年12月推出和發(fā)行的一款軟件時(shí),他們對(duì)深網(wǎng)工具的有過這樣的一番描述。

普遍接受的深網(wǎng)這一特定術(shù)語首次使用在2001年伯格曼的研究中。

索引方法

研究人員探尋了如何自動(dòng)抓取深網(wǎng)內(nèi)容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)發(fā)明了一個(gè)從用戶請(qǐng)求界面表格收集關(guān)鍵詞的深網(wǎng)抓取模型并且抓取深網(wǎng)資源。加利福尼亞大學(xué)洛杉磯分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho創(chuàng)建了一個(gè)自動(dòng)生成有意義的查詢?cè)~的程序。

商業(yè)搜索引擎已經(jīng)開始使用以上兩種方法之一抓取深網(wǎng)。Sitemap協(xié)議(由谷歌于2005年首次開發(fā)并由Google引入)和mod oai是允許搜索引擎和其他網(wǎng)絡(luò)服務(wù)探索深網(wǎng)解決方法。以上兩種解決方法允許network service主動(dòng)公布網(wǎng)址,這對(duì)于他們來說是容易的,因而允許自動(dòng)探尋資源而不直接通過網(wǎng)絡(luò)表面的鏈接。Google的深網(wǎng)探尋系統(tǒng)預(yù)先計(jì)算每個(gè)HTML表單并且添加結(jié)果HTML頁面到Google搜索引擎索引。在這個(gè)系統(tǒng)里,使用三種方法計(jì)算提交詞:

參考資料 >

美國(guó)FBI打擊“深網(wǎng)”犯罪 中國(guó)或已有人涉足.環(huán)球國(guó)際.2024-03-08

生活家百科家居網(wǎng)