目前,垂直搜索引擎正成為互聯網發展的下一個熱點。比如企業庫搜索、供求信息搜索引擎、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索。采用Gpower SmartSearch,實時索引企業已有的資料庫,并結合互聯網信息抓取技術,成為構建垂直搜索引擎的基礎。
一個好的搜索引擎,就是要精確、快速找到客戶想要的信息,具體表現為:
極高的準確性
查全率,能確保滿足要求的每筆資料都能檢索到
智能性,能主動猜測用戶的意圖
支持多種數據源,包括文件、網頁、數據庫
采用與清華大學合作開發的分詞算法,支持對中文、英文、數字的混合分詞。中文分詞有效地消除中文歧義,中文單詞識別準確率達到99%以上。智能識別中文人名單詞,數量詞,Email、URL等信息,為用戶提供更精準的檢索結果。
采用相關度分析技術,使相關度高的結果排在前面,低的排在后面。對檢索單詞進行智能提示:包括拼寫檢查、相關詞建議等,有效的幫助用戶找到想要的信息。拼音檢索,方便客戶的查詢輸入。二次檢索,逐步縮小結果范圍,鎖定自己需要的結果。
結合智能分詞技術和字詞混合技術,確保查詢結果無一漏掉。查詢結果無論多少,都能檢索到。Google只有前100頁,baidu只有前76頁。
系統除了支持文件系統、Internet網站,還能對主流的關系數據庫(Oracle,SQL Server,DB2等)、FTP服務器等進行索引。其靈活的數據源接口可以擴展,如對郵件系統、知識庫等進行檢索。
在G級數據集合上達到亞秒級檢索速度
增量索引,確保索引速度快
索引空間膨脹率<0.5
可以支持檢索靜態網頁、動態網頁、文件系統的目錄文件等。支持對各種格式化文檔的檢索(如PDF, Word, Excel, PPT等文件)。
系統全面支持Web服務,可以方便與各個系統(包括.NET系統)集成,100%滿足企業、政府檢索的需要。支持XML輸出,可應用于RSS。開放的API,支持二次開發。
采用純Java語言開發,全面支持J2EE,可運行于Windows、UNIX、Linux平臺,在內核上采用先進的多級索引、緩存技術,性能卓越。是唯一全面支持J2EE平臺的搜索引擎。安全、穩定是J2EE的最大特色。
采用增量更新方式對內容進行更新,即每次檢查數據變化時,只對新添加或發生變化的數據進行更新,索引性能明顯優于只能進行完全更新的系統。
系統維護管理工具采用自動和人工兩種方式,支持遠程維護和管理,通過設置任務計劃可以實現遠程無人值守的維護更新托管方式。更新及時,可以達到分鐘級自動監測,支持增量更新,確保檢索最新的資料。
對于輸出結果,可以根據字段進行排序,比如相關度、點擊率、日期等,方便用戶快速找到需要的資料。這是與google、baidu等搜索引擎重要區別的特征。
系統默認排序按照相關度排序,相關度排序以檢索詞與網頁的相關性為依據對檢索結果排序,相關性是對詞頻、詞位(詞在文章中出現的位置)、以及文件大小等因素綜合評價的結果;時間排序則可以保證把最新的數據優先輸出。
采用B/S架構,維護管理端用瀏覽器即可,無需安裝任何客戶端。管理方便,對于數據庫索引提供配置向導。檢索顯示模板任意定制,可視化編輯器。在配置好初始的數據源后,系統可以定時更新數據源中發生變化的信息,不需要人工干預。