Web内容挖掘算法模拟器设计

泡谜语网 首页 谜语目录 脑筋急转弯 对联 名人名言 谚语 励志 句子 风水运势 文秘写作 工作总结 工作计划 工作报告 合同范本 党团范文 心得体会 演讲稿 演讲致辞 礼仪范文 哲学范文 条据书信 简历范文 其它范文 论文 著名诗人 诗人故事 词牌名
谜语网> 哲学论文> Web内容挖掘算法模拟器设计
Web内容挖掘算法模拟器设计 时间:2015-10-03 11:46 浏览:

摘要:各种数据源的大量出现,数据的分析算法的研究已成为Web挖掘一个热点研究课题。本论文提针对Web内容挖掘,采用回归算法、趋势分析方法、cure算法及分类,利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,从不同的角度来观看数据,从而得到不同的结果。

关键词: Web内容挖掘 算法模拟器 可视化

1 Matlab与VC++接口技术

挖掘技术中广泛使用MATLAB对挖掘信号进行数字滤波处理,将MATLAB和可视化的编程语言VC++结合起来可实现二者的混合软件开发[3],从而实现自动化的挖掘。

而MATLAB与VC++结合方式有:MATLAB引擎方式、MATLAB编译器(MCC)、COM组件。

本文采用基于MCC和COM组件的MATLAB与VC++接口编程方法,以VC++作为主界面,通过调用MATLAB下的MCC命令,实现Web内容挖掘自动化、可视化。

2 WEB内容挖掘算法的实现

WEB内容中数据表现形式不规则,不易进行挖掘。针对海量数据的研究,本文采用多种挖掘算法进行比较分析[4],利用利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,得出数据间的关系,抽取深层、潜在的有用信息。

2.1回归算法

回归算法是用两个或多个变量之间的函数关系。

一元线性回归对数据的平滑作用,可用于处理异常值。

从数据的散点图、线性回归、二次回归、对比分析可以推测,数据之间大致具有线性相关关系

2.2趋势分析

利用趋势分析的方法进行Web内容挖掘过程中,这种趋势分析分为样本数据采集、直接预测算法、移动平均平滑算法、趋势预测四个过程。

2.3 CURE算法

CURE聚类算法的一个目的就是较好地处理特殊点。

聚类过程:随机抽取的数据样本,对样本对象进行分割,形成三个簇,每一个簇有两个代表性点,具体的聚类过程结果如图1。

2.4分类

分类视为一个从数据库到类别集合的映射。

给定一个由形如t=的一些元组组成的数据库,其中0≤x≤8, 0≤y≤10。

CURE的时间复杂性是O(n2lgn),空间复杂度是O(n)。

图2通过分割数据空间而得到预先定义的类,提供了样本输入数据,展示了基于已定义的类对Web数据进行分类。

3结语

基于以上算法对比分析,可对Web页面内容进行分类,挖掘出用户的访问行为,既可满足访问者对信息的渴求,又可向经营者提供站点的改进意见。而将Web挖掘技术与信息检索的智能搜索引擎搜索技术相结合,向用户提供个性化智能化的服务,是互联网+的一个重要研究方向。

参考文献

[4]岳岩,郑丽英.Web挖掘技术研究[J].科技咨询导报,2007(3):34-34.


2222
上一篇:宏在Word中的应用
下一篇:基于Android系统的医院移动查房系统的设计与实现
相关文章 数字内容管理与保护技术的标准 基于内容的Web图片搜索技术研 挖掘机雨刮器智能控制电路设计 基于数据挖掘的产品功能与结构 内容与硬件的全新典礼 数据挖掘技术的计算机网络病毒 云存储在web3D内容管理系统中 分布式图聚类及其在电子商务数
泡谜语网http://www.tkpao.com