資料介紹
XML 業(yè)已成為WEB 數(shù)據(jù)發(fā)布與交換的標(biāo)準(zhǔn),包裝器技術(shù)為數(shù)據(jù)挖掘提供了重要實(shí)
現(xiàn)步驟,智能代理技術(shù)以其智能、代理特性在控制協(xié)調(diào)挖掘上起著重要作用。本文將這三項(xiàng)標(biāo)準(zhǔn)和技術(shù)進(jìn)行有機(jī)結(jié)合,應(yīng)用于WEB 數(shù)據(jù)挖掘上,借助J2EE 三層體系結(jié)構(gòu)思想,給出了智能WEB 信息提取實(shí)現(xiàn)方案,并簡(jiǎn)要闡述了該系統(tǒng)處理用戶挖掘請(qǐng)求的流程,體現(xiàn)了該系統(tǒng)較強(qiáng)的智能理解和概括能力。
隨著Internet 技術(shù)的迅速發(fā)展,網(wǎng)上各種信息呈指數(shù)式增長(zhǎng),形成了這樣的難堪局面:
一方面,信息量大得驚人;另一方面,人們?yōu)檎业剿璧男畔⒌没ㄉ洗罅康臅r(shí)間和精力。由此看來(lái),對(duì)于海量信息的挖掘提取工作具有重大的意義。
本文提出了一個(gè)能夠從超大數(shù)據(jù)密集型WEB站點(diǎn)自動(dòng)提取數(shù)據(jù)的系統(tǒng)。流行電子商務(wù)、
金融、某些科學(xué)組織協(xié)會(huì)或者新聞娛樂(lè)等站點(diǎn)不僅信息量大,而且數(shù)據(jù)更新也特快,。這些站點(diǎn)大都由很多包含復(fù)雜超鏈接的HTML 頁(yè)面構(gòu)成,實(shí)現(xiàn)了完全左鍵操作、所點(diǎn)即所得(這也是當(dāng)前“網(wǎng)絡(luò)桌面環(huán)境”的出發(fā)點(diǎn)),獲取信息相當(dāng)簡(jiǎn)易快捷。但由于WEB 頁(yè)面自身的表示邏輯和網(wǎng)頁(yè)之間復(fù)雜鏈接的緣故,使構(gòu)建基于以上信息源的大型應(yīng)用程序或系統(tǒng)存在很大的技術(shù)難點(diǎn),那么考慮換種頁(yè)面表示形式能否解決這個(gè)難題呢?
就此問(wèn)題,最近人們提出了一些解決方案,主要從數(shù)據(jù)挖掘角度取得突破性的進(jìn)展。
經(jīng)過(guò)長(zhǎng)期細(xì)致的觀察,發(fā)現(xiàn)當(dāng)前許多WEB 站點(diǎn)包含大量結(jié)構(gòu)非常相似的WEB 頁(yè)面,而且預(yù)測(cè)在將來(lái)一段時(shí)間內(nèi)上述站點(diǎn)還會(huì)保持這種結(jié)構(gòu)不變。針對(duì)這種事實(shí),一些研究人員驗(yàn)證了相關(guān)的技術(shù),并提出能夠從HTML 頁(yè)面提取數(shù)據(jù)的WEB 包裝器[1,2,3]以及包裝器庫(kù)[4],即輸入有公共模板的一組WEB 頁(yè)面后,可得到能從前述有公共模板的WEB 頁(yè)面集提取核心數(shù)據(jù)的包裝器。
以上研究成果給本文提供一個(gè)局部解決方案。文章將XML[5,6,8]、包裝器、智能代理
(Agent)[7]三項(xiàng)技術(shù)或標(biāo)準(zhǔn)有機(jī)結(jié)合,并應(yīng)用于數(shù)據(jù)挖掘上,改進(jìn)文[7]的多Agent 聯(lián)合協(xié)作理論,給出了智能提取數(shù)據(jù)實(shí)現(xiàn)方案。
現(xiàn)步驟,智能代理技術(shù)以其智能、代理特性在控制協(xié)調(diào)挖掘上起著重要作用。本文將這三項(xiàng)標(biāo)準(zhǔn)和技術(shù)進(jìn)行有機(jī)結(jié)合,應(yīng)用于WEB 數(shù)據(jù)挖掘上,借助J2EE 三層體系結(jié)構(gòu)思想,給出了智能WEB 信息提取實(shí)現(xiàn)方案,并簡(jiǎn)要闡述了該系統(tǒng)處理用戶挖掘請(qǐng)求的流程,體現(xiàn)了該系統(tǒng)較強(qiáng)的智能理解和概括能力。
隨著Internet 技術(shù)的迅速發(fā)展,網(wǎng)上各種信息呈指數(shù)式增長(zhǎng),形成了這樣的難堪局面:
一方面,信息量大得驚人;另一方面,人們?yōu)檎业剿璧男畔⒌没ㄉ洗罅康臅r(shí)間和精力。由此看來(lái),對(duì)于海量信息的挖掘提取工作具有重大的意義。
本文提出了一個(gè)能夠從超大數(shù)據(jù)密集型WEB站點(diǎn)自動(dòng)提取數(shù)據(jù)的系統(tǒng)。流行電子商務(wù)、
金融、某些科學(xué)組織協(xié)會(huì)或者新聞娛樂(lè)等站點(diǎn)不僅信息量大,而且數(shù)據(jù)更新也特快,。這些站點(diǎn)大都由很多包含復(fù)雜超鏈接的HTML 頁(yè)面構(gòu)成,實(shí)現(xiàn)了完全左鍵操作、所點(diǎn)即所得(這也是當(dāng)前“網(wǎng)絡(luò)桌面環(huán)境”的出發(fā)點(diǎn)),獲取信息相當(dāng)簡(jiǎn)易快捷。但由于WEB 頁(yè)面自身的表示邏輯和網(wǎng)頁(yè)之間復(fù)雜鏈接的緣故,使構(gòu)建基于以上信息源的大型應(yīng)用程序或系統(tǒng)存在很大的技術(shù)難點(diǎn),那么考慮換種頁(yè)面表示形式能否解決這個(gè)難題呢?
就此問(wèn)題,最近人們提出了一些解決方案,主要從數(shù)據(jù)挖掘角度取得突破性的進(jìn)展。
經(jīng)過(guò)長(zhǎng)期細(xì)致的觀察,發(fā)現(xiàn)當(dāng)前許多WEB 站點(diǎn)包含大量結(jié)構(gòu)非常相似的WEB 頁(yè)面,而且預(yù)測(cè)在將來(lái)一段時(shí)間內(nèi)上述站點(diǎn)還會(huì)保持這種結(jié)構(gòu)不變。針對(duì)這種事實(shí),一些研究人員驗(yàn)證了相關(guān)的技術(shù),并提出能夠從HTML 頁(yè)面提取數(shù)據(jù)的WEB 包裝器[1,2,3]以及包裝器庫(kù)[4],即輸入有公共模板的一組WEB 頁(yè)面后,可得到能從前述有公共模板的WEB 頁(yè)面集提取核心數(shù)據(jù)的包裝器。
以上研究成果給本文提供一個(gè)局部解決方案。文章將XML[5,6,8]、包裝器、智能代理
(Agent)[7]三項(xiàng)技術(shù)或標(biāo)準(zhǔn)有機(jī)結(jié)合,并應(yīng)用于數(shù)據(jù)挖掘上,改進(jìn)文[7]的多Agent 聯(lián)合協(xié)作理論,給出了智能提取數(shù)據(jù)實(shí)現(xiàn)方案。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 一種自適應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法 2次下載
- 高壓電氣設(shè)備局部放電信息提取 1次下載
- 散亂點(diǎn)云數(shù)據(jù)特征信息提取算法 0次下載
- 基于同態(tài)系統(tǒng)的高分辨率遙感圖像河流信息提取 2次下載
- 基于單DOM的自適應(yīng)WEB信息抽取方法 5次下載
- 面向Web服務(wù)的電力系統(tǒng)信息集成平臺(tái)框架的研究白雨 0次下載
- 脈沖多普勒雷達(dá)識(shí)別中的信號(hào)調(diào)制信息提取 13次下載
- 短時(shí)傅立葉變換在陣列聲波信息提取中的應(yīng)用 9次下載
- GPS定位信息提取及應(yīng)用 67次下載
- 基于VB6.0的點(diǎn)陣字模信息提取方法
- 異構(gòu)網(wǎng)絡(luò)下的Web監(jiān)控系統(tǒng)設(shè)計(jì)研究
- 基于Web平臺(tái)的智能信息管理系統(tǒng)設(shè)計(jì)
- 基于HTMLParser 信息提取的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)Design
- Web元數(shù)據(jù)信息提取技術(shù)的研究
- Web權(quán)威信息自動(dòng)提取技術(shù)的研究及應(yīng)用
- 基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT 938次閱讀
- Web開(kāi)播系統(tǒng)的技術(shù)演進(jìn) 713次閱讀
- Web的應(yīng)用基礎(chǔ) 803次閱讀
- 基于統(tǒng)一語(yǔ)義匹配的通用信息抽取框架USM 1145次閱讀
- 互聯(lián)網(wǎng)web3.0如何理解 Web3.0在商業(yè)的五大優(yōu)勢(shì) 2088次閱讀
- 基于eBPF技術(shù)實(shí)現(xiàn)TLS加密的明文捕獲 2342次閱讀
- 基于完整文件系統(tǒng)提取和密鑰鏈解密 1008次閱讀
- 基于SAA6752HS芯片和TMS32VC5502實(shí)現(xiàn)MPEG-2視頻編碼系統(tǒng)的設(shè)計(jì) 2592次閱讀
- 基于嵌入式操作系統(tǒng)與Internet網(wǎng)絡(luò)實(shí)現(xiàn)智能終端控制系統(tǒng)的設(shè)計(jì) 1123次閱讀
- 基于嵌入式系統(tǒng)的Web服務(wù)器建立設(shè)計(jì) 3319次閱讀
- 如何使用Python編寫(xiě)能夠從原始文本提取信息的程序 1w次閱讀
- 人工智能使用的數(shù)據(jù)集多存在性別歧視和種族主義 5309次閱讀
- 攜程信息安全部在web攻擊識(shí)別方面的機(jī)器學(xué)習(xí)實(shí)踐之路 5639次閱讀
- 利用μC/OS-II的嵌入式激光測(cè)距系統(tǒng) 2082次閱讀
- 多普勒流量測(cè)量概述-信號(hào)解調(diào)方法等 5112次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費(fèi)
- 2AN158 GD32VW553 Wi-Fi開(kāi)發(fā)指南
- 1.51MB | 2次下載 | 免費(fèi)
- 3AN148 GD32VW553射頻硬件開(kāi)發(fā)指南
- 2.07MB | 1次下載 | 免費(fèi)
- 4AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費(fèi)
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費(fèi)
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費(fèi)
- 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費(fèi)
- 8AN-1308: 電流檢測(cè)放大器共模階躍響應(yīng)
- 545.42KB | 次下載 | 免費(fèi)
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費(fèi)
- 2免費(fèi)開(kāi)源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機(jī)智能手環(huán)心率計(jì)步器體溫顯示設(shè)計(jì)
- 0.10 MB | 130次下載 | 免費(fèi)
- 4使用單片機(jī)實(shí)現(xiàn)七人表決器的程序和仿真資料免費(fèi)下載
- 2.96 MB | 44次下載 | 免費(fèi)
- 5美的電磁爐維修手冊(cè)大全
- 1.56 MB | 24次下載 | 5 積分
- 6如何正確測(cè)試電源的紋波
- 0.36 MB | 17次下載 | 免費(fèi)
- 7感應(yīng)筆電路圖
- 0.06 MB | 10次下載 | 免費(fèi)
- 8LZC3106G高性能諧振控制器中文手冊(cè)
- 1.29 MB | 9次下載 | 1 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
電子發(fā)燒友App






創(chuàng)作
發(fā)文章
發(fā)帖
提問(wèn)
發(fā)資料
發(fā)視頻
上傳資料賺積分
評(píng)論