
蘇州網(wǎng)頁(yè)設(shè)計(jì)4.信息采集概述
蘇州網(wǎng)頁(yè)設(shè)計(jì)4.信息采集概述
Web是一個(gè)巨大的資源寶庫(kù),目前頁(yè)面數(shù)目已超過400億,每小時(shí)還以驚人的速度增長(zhǎng),里面有你需要的大量有價(jià)值的信息,例如潛在客戶的列表與聯(lián)系信息,競(jìng)爭(zhēng)產(chǎn)品的價(jià)格列表
,實(shí)時(shí)金融新聞,供求信息,論文摘要等等。 可是由于關(guān)鍵信息都是以半結(jié)構(gòu)化或自由文本形式存在于大量的HTML網(wǎng)頁(yè)中,很難直接加以利用。
SiteServer CMS 信息采集功能的主要目標(biāo)就是解決網(wǎng)絡(luò)信息的采集問題,系統(tǒng)通過一些定制的采集邏輯,自動(dòng)從指定網(wǎng)站或數(shù)據(jù)庫(kù)中獲取內(nèi)容并保存到網(wǎng)站中。
一、主要功能
SiteServer CMS 提供強(qiáng)大的信息采集功能模塊,用戶只需要告訴系統(tǒng)目標(biāo)網(wǎng)頁(yè)并簡(jiǎn)單地設(shè)置頁(yè)面規(guī)則,很快就可以直接得到所需要的數(shù)據(jù)了。
除了典型的Web頁(yè)面信息采集外,系統(tǒng)還提供數(shù)據(jù)庫(kù)信息采集與單文件頁(yè)采集功能:
Web頁(yè)面信息采集用于自動(dòng)從指定網(wǎng)站中獲取內(nèi)容;
數(shù)據(jù)庫(kù)信息采集用于自動(dòng)從指定數(shù)據(jù)庫(kù)中獲取內(nèi)容;
單文件頁(yè)采集用于將指定網(wǎng)頁(yè)采集到本地的對(duì)應(yīng)文件中。
二、系統(tǒng)特點(diǎn)
結(jié)果數(shù)據(jù)高度準(zhǔn)確
對(duì)目標(biāo)網(wǎng)站進(jìn)行信息自動(dòng)抓取,支持HTML頁(yè)面內(nèi)各種數(shù)據(jù)的采集,如文本信息、圖片、附件、日期等
用戶對(duì)每類信息自定義來源與分類
可以下載圖片與各類文件
支持定時(shí)任務(wù),可以與SiteServer CMS 定時(shí)模塊相配合,定期抽取目標(biāo)網(wǎng)站
支持記錄唯一索引,避免相同信息重復(fù)入庫(kù)
支持智能替換功能,可以將內(nèi)容中嵌入的所有的無(wú)關(guān)部分如廣告去除
支持下一頁(yè)自動(dòng)瀏覽功能
支持?jǐn)?shù)據(jù)的多種后期處理方式
數(shù)據(jù)直接進(jìn)入數(shù)據(jù)庫(kù)而不是文件中,因此與利用這些數(shù)據(jù)的網(wǎng)站程序或者桌面程序之間沒有任何耦合
支持?jǐn)?shù)據(jù)庫(kù)表結(jié)構(gòu)完全自定義,充分利用現(xiàn)有數(shù)據(jù)庫(kù)結(jié)構(gòu)
支持多個(gè)欄目的信息采集可用同一配置一對(duì)多處理
保證信息的完整性與準(zhǔn)確性,絕不會(huì)出現(xiàn)亂碼
三、運(yùn)用行業(yè)
通過信息采集功能,用戶將在信息來源,資源整合方面節(jié)約大量的人力與資金。
廣泛應(yīng)用于門戶網(wǎng)站,新聞媒體,科研單位、企業(yè)網(wǎng)站等領(lǐng)域。-技術(shù)支持:蘇州網(wǎng)絡(luò)公司