99无码视频亚洲影院,狠狠操精品视频在线,日韩三级。com,人妻少妇天堂无码,麻豆黄视频,欧美在线观看三,在线最新久久草,亚洲三级狠狠干,99精品区

切換城市 [ 北京 武漢 ]24小時聯(lián)系電話:
24小時聯(lián)系電話: 15201609116
切換城市 [ 北京 武漢 ]

有事點這里 有事點這里  有事點這里 有事點這里

新聞資訊NEWS

搜索引擎技術日期:2009/11/21 20:03:21  

搜索引擎技術

  隨著互聯(lián)網的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。搜索引擎是指互聯(lián)網上專門提供檢索服務的一類網站,這些站點的服務器通過網絡搜索軟件(例如網絡搜索機器人)或網絡登錄等方式,將Intemet上大量網站的頁面信息收集到本地,經過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,從而對用戶提出的各種檢索作出響應,提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁等)。下面以網絡搜索機器人為例來說明搜索引擎技術。
 
  1.網絡機器人技術
 
  網絡機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為“一個在網絡上檢索文件且自動跟蹤該文件的超文本結構并循環(huán)檢索被參照的所有文件的軟件”。機器人利用主頁中的超文本鏈接遍歷WWW,通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認、監(jiān)控與獲取更新信息、站點鏡像等。
 
  機器人安在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機器人一般都用于生成索引數(shù)據(jù)庫。所有WWW的搜索程序都有如下的工作步驟:
 
  (1)機器人從起始URL列表中取出URL并從網上讀取其指向的內容;
 
  (2)從每一個文檔中提取某些信息(如關鍵字)并放入索引數(shù)據(jù)庫中;
 
  (3)從文檔中提取指向其他文檔的URL,并加入到URL列表中;
 
  (4)重復上述3個步驟,直到再沒有新的URL出現(xiàn)或超出了某些限制(時間或磁盤空間);
 
  (5)給索引數(shù)據(jù)庫加上檢索接口,向網上用戶發(fā)布或提供給用戶檢索。
 
  搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機器人以URL列表存取的方式決定搜索策略:先進先出,則形成廣度優(yōu)先搜索,當起始列表包含有大量的WWW服務器地址時,廣度優(yōu)先搜索將產生一個很好的初始結果,但很難深入到服務器中去;先進后出,則形成深度優(yōu)先搜索,這樣能產生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結構,即找到最大數(shù)目的交叉引用。也可以采用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個搜索整個Intemet。
 
  搜索引擎是一個技術含量很高的網絡應用系統(tǒng)。它包括網絡技術、數(shù)據(jù)庫技術動標引技術、檢索技術、自動分類技術,機器學習等人工智能技術。
 
  2.索引技術
 
  索引技術是搜索引擎的核心技術之一。搜索引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜索引擎的核心是分詞技術。分詞技術是利用一定的規(guī)則和詞庫,切分出一個句子中的詞,為自動索引做好準備。目前的索引多采用Non—clustered方法,該技術和語言文字的學問有很大的關系,具體有如下幾點:
 
  (1)存儲語法庫,和詞匯庫配合分出句子中的詞匯;
 
  (2)存儲詞匯庫,要同時存儲詞匯的使用頻率和常見搭配方式;
 
  (3)詞匯寬,應可劃分為不同的專業(yè)庫,以便于處理專業(yè)文獻;
 
  (4)對無法分詞的句子,把每個字當作詞來處理。
 
  索引器生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰關系或接近關系,并以特定的數(shù)據(jù)結構存儲在硬盤上。
 
  不同的搜索引擎系統(tǒng)可能采用不盡相同的標引方法。例如Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。
 
  3. 檢索器與結果處理技術
 
  檢索器的主要功能是根據(jù)用戶輸入的關鍵詞在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,并實現(xiàn)某種用戶相關性反饋機制。
 
  通過搜索引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現(xiàn)的額度。當額度越高時,則認為該文檔的相關程度越高。能見度也是常用的衡量標準之一。一個網頁的能見度是指該網頁入口超級鏈接的數(shù)目。能見度方法是基于這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。結果處理技術可歸納為:
 
  (1)按頻次排定次序 通常,如果一個頁面包含了越多的關鍵詞,其搜索目標的相關性應該越好,這是非常合平常理的解決方案。
 
  (2)按頁面被訪問度排序 在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶,而因為大部分的搜索引擎都不是專業(yè)性用戶,所以這種方案也比較適合一般搜索引擎使用。
 
  (3)二次檢索 進一步凈化(比flne)結果,按照一定的條件對搜索結果進行優(yōu)化,可以再選擇類別、相關詞進行二次搜索等。
 
  由于目前的搜索引擎還不具備智能,除非知道要查找的文檔的標題,否則排列第一的結果未必是“最好”的結果。所以有些文檔盡管相關程度高,但并不一定是用戶最需要的文檔。
 
  搜索引擎技術的行業(yè)應用:
 
  搜索引擎的行業(yè)應用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產品應用模式,大體上分為如下幾種形式:
 
  1、 政府機關行業(yè)應用
 
  n 實時跟蹤、采集與業(yè)務工作相關的信息來源。
 
  n 全面滿足內部工作人員對互聯(lián)網信息的全局觀測需求。
 
  n 及時解決政務外網、政務內網的信息源問題,實現(xiàn)動態(tài)發(fā)布。
 
  n 快速解決政府主網站對各地級子網站的信息獲取需求。
 
  n 全面整合信息,實現(xiàn)政府內部跨地區(qū)、跨部門的信息資源共享與有效溝通。
 
  n 節(jié)約信息采集的人力、物力、時間,提高辦公效率。
 
  2、企業(yè)行業(yè)應用
 
  n 實時準確地監(jiān)控、追蹤競爭對手動態(tài),是企業(yè)獲取競爭情報的利器。
 
  n 及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。
 
  n 為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。
 
  n 大幅度地提高企業(yè)獲取、利用情報的效率,節(jié)省情報信息收集、存儲、挖掘的相關費用,是提高企業(yè)核心競爭力的關鍵。
 
  n 提高企業(yè)整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數(shù)據(jù)倉庫,是提高企業(yè)核心競爭力的神經中樞。
 
  3、新聞媒體行業(yè)應用
 
  n 快速準確地自動跟蹤、采集數(shù)千家網絡媒體信息,擴大新聞線索,提高采集速度。
 
  n 支持每天對數(shù)萬條新聞進行有效抓取。監(jiān)控范圍的深度、廣度可以自行設定。
 
  n 支持對所需內容智能提取、審核。
 
  n 實現(xiàn)互聯(lián)網信息內容采集、瀏覽、編輯、管理、發(fā)布的一體化。
 
  4、 行業(yè)網站應用
 
  n 實時跟蹤、采集與網站相關的信息來源。
 
  n 及時跟蹤行業(yè)的信息來源網站,自動,快速更新網站信息。動態(tài)更新信息。
 
  n 實現(xiàn)互聯(lián)網信息內容采集、瀏覽、編輯、管理、發(fā)布的一體化。
 
  n 針對商務網站提出商務管理模式,大大提高行業(yè)網站的商務應用需求。
 
  n 針對資訊網站分類目錄生成,提出用戶生成網站分類結構。并可以實時增加與更新分類結構。不受級數(shù)限制。從而大大利高行業(yè)的應用性。
 
  n 提供搜索引擎SEO優(yōu)化專業(yè)服務,快速提高行業(yè)網站的推廣。
 
  n 提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網站聯(lián)盟,提高行業(yè)網站知名度。
 
  5) 網絡信息監(jiān)察與監(jiān)控
 
  n 網絡輿情系統(tǒng)。如“千瓦通信-網絡輿情雷達監(jiān)測系統(tǒng)”
 

  n 網站信息與內容監(jiān)察與監(jiān)控系統(tǒng),如“千瓦通信-網站信息與內容監(jiān)測與監(jiān)察系統(tǒng)(站內神探)”

http://www.bsnx.com.cn

咨詢電話:15201609116

地 址:北京市海淀區(qū)建材城中路12號院17號樓1層119室
武漢分公司地址:湖北省武漢市洪山區(qū)南國雄楚廣場A4棟2011室
鄭州分公司地址:河南鄭州金水區(qū)東風路科技市場對面米蘭陽光6號樓917室
郵 箱:haidanet@163.com
24小時聯(lián)系電話: 15201609116 13651084380

荔波县| 赤壁市| 云林县| 石柱| 桂阳县| 清河县| 中西区| 通州市| 富锦市| 定安县| 称多县| 米泉市| 绍兴市| 延津县| 宿迁市| 和龙市| 嘉定区| 商城县| 罗定市| 乌拉特后旗| 大方县| 舟曲县| 辽中县| 石屏县| 台山市| 石屏县| 张北县| 郑州市| 连平县| 宜都市| 崇信县| 建德市| 云龙县| 卢氏县| 虹口区| 浠水县| 三门峡市| 九龙坡区| 安庆市| 济南市| 台江县|