Web内容挖掘算法模拟器设计

Web内容挖掘算法模拟器设计 时间:2015-10-03 11:46 浏览: 次

摘要：各种数据源的大量出现，数据的分析算法的研究已成为Web挖掘一个热点研究课题。本论文提针对Web内容挖掘，采用回归算法、趋势分析方法、cure算法及分类，利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器，从不同的角度来观看数据，从而得到不同的结果。

关键词： Web内容挖掘算法模拟器可视化

1 Matlab与VC++接口技术

挖掘技术中广泛使用MATLAB对挖掘信号进行数字滤波处理，将MATLAB和可视化的编程语言VC++结合起来可实现二者的混合软件开发[3]，从而实现自动化的挖掘。

而MATLAB与VC++结合方式有：MATLAB引擎方式、MATLAB编译器（MCC）、COM组件。

本文采用基于MCC和COM组件的MATLAB与VC++接口编程方法，以VC++作为主界面，通过调用MATLAB下的MCC命令，实现Web内容挖掘自动化、可视化。

2 WEB内容挖掘算法的实现

WEB内容中数据表现形式不规则，不易进行挖掘。针对海量数据的研究，本文采用多种挖掘算法进行比较分析[4]，利用利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器，得出数据间的关系，抽取深层、潜在的有用信息。

2.1回归算法

回归算法是用两个或多个变量之间的函数关系。

一元线性回归对数据的平滑作用，可用于处理异常值。

从数据的散点图、线性回归、二次回归、对比分析可以推测，数据之间大致具有线性相关关系

2.2趋势分析

利用趋势分析的方法进行Web内容挖掘过程中，这种趋势分析分为样本数据采集、直接预测算法、移动平均平滑算法、趋势预测四个过程。

2.3 CURE算法

CURE聚类算法的一个目的就是较好地处理特殊点。

聚类过程：随机抽取的数据样本，对样本对象进行分割，形成三个簇，每一个簇有两个代表性点，具体的聚类过程结果如图1。

2.4分类

分类视为一个从数据库到类别集合的映射。

给定一个由形如t=的一些元组组成的数据库，其中0≤x≤8， 0≤y≤10。

CURE的时间复杂性是O（n2lgn），空间复杂度是O（n）。

图2通过分割数据空间而得到预先定义的类，提供了样本输入数据，展示了基于已定义的类对Web数据进行分类。

3结语

基于以上算法对比分析，可对Web页面内容进行分类，挖掘出用户的访问行为，既可满足访问者对信息的渴求，又可向经营者提供站点的改进意见。而将Web挖掘技术与信息检索的智能搜索引擎搜索技术相结合，向用户提供个性化智能化的服务，是互联网+的一个重要研究方向。

参考文献

[4]岳岩，郑丽英.Web挖掘技术研究[J].科技咨询导报，2007（3）：34-34.