摘要:各种数据源的大量出现,数据的分析算法的研究已成为Web挖掘一个热点研究课题。本论文提针对Web内容挖掘,采用回归算法、趋势分析方法、cure算法及分类,利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,从不同的角度来观看数据,从而得到不同的结果。
关键词: Web内容挖掘 算法模拟器 可视化
1 Matlab与VC++接口技术
挖掘技术中广泛使用MATLAB对挖掘信号进行数字滤波处理,将MATLAB和可视化的编程语言VC++结合起来可实现二者的混合软件开发[3],从而实现自动化的挖掘。
而MATLAB与VC++结合方式有:MATLAB引擎方式、MATLAB编译器(MCC)、COM组件。
本文采用基于MCC和COM组件的MATLAB与VC++接口编程方法,以VC++作为主界面,通过调用MATLAB下的MCC命令,实现Web内容挖掘自动化、可视化。
2 WEB内容挖掘算法的实现
WEB内容中数据表现形式不规则,不易进行挖掘。针对海量数据的研究,本文采用多种挖掘算法进行比较分析[4],利用利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,得出数据间的关系,抽取深层、潜在的有用信息。
2.1回归算法
回归算法是用两个或多个变量之间的函数关系。
一元线性回归对数据的平滑作用,可用于处理异常值。
从数据的散点图、线性回归、二次回归、对比分析可以推测,数据之间大致具有线性相关关系
2.2趋势分析
利用趋势分析的方法进行Web内容挖掘过程中,这种趋势分析分为样本数据采集、直接预测算法、移动平均平滑算法、趋势预测四个过程。
2.3 CURE算法
CURE聚类算法的一个目的就是较好地处理特殊点。
聚类过程:随机抽取的数据样本,对样本对象进行分割,形成三个簇,每一个簇有两个代表性点,具体的聚类过程结果如图1。
2.4分类
分类视为一个从数据库到类别集合的映射。
给定一个由形如t=的一些元组组成的数据库,其中0≤x≤8, 0≤y≤10。
CURE的时间复杂性是O(n2lgn),空间复杂度是O(n)。
图2通过分割数据空间而得到预先定义的类,提供了样本输入数据,展示了基于已定义的类对Web数据进行分类。
3结语
基于以上算法对比分析,可对Web页面内容进行分类,挖掘出用户的访问行为,既可满足访问者对信息的渴求,又可向经营者提供站点的改进意见。而将Web挖掘技术与信息检索的智能搜索引擎搜索技术相结合,向用户提供个性化智能化的服务,是互联网+的一个重要研究方向。
参考文献
[4]岳岩,郑丽英.Web挖掘技术研究[J].科技咨询导报,2007(3):34-34.