数据挖掘算法研究与实现
2.3万字 58页 包括外文翻译及代码,原创作品,通过查重系统
摘 要
随着互联网的普及以及科技的进步,越来越多新技术在不断地涌现出来,云计算、大数据等词汇开始不断地出现在我们周围,给我们的生活与学习带来了巨大的改变。大数据这一话题被广大人群所认识并接受,伴随智能机等可移动设备的涌现,我们的各种时间、空间等信息都转变成了可以被存储和挖掘的数据。如同英国Viktor Mayer-Schönberger在他的畅销著作《大数据时代》里所描述的那样,面对海量的数据,我们看到的仅仅只是冰山一角,当我们深入其中时,才会发现隐藏在冰山下面更广阔的信息。数据挖掘作为发掘数据价值的驱动力,在这个海量数据的时代应运而生。如同一个问题的正反面,数据与数据挖掘可以看做是问题与方法的关系。通过对大数据进行数据挖掘,得出可靠的规则与模型,从而为决策作出更加精确的评判,使数据的隐藏价值得以更好的利用。
数据挖掘作为一门正在被广泛研究与探讨的学科,其许多有价值的算法被传承下来,例如在2006年12月被国际权威学术组织——数据挖掘国际会议ICDM(the IEEE International Conference on Data Mining)——评选出的数据挖掘领域十大经典算法等。本次毕业设计中,我们挖掘的对象主要是图像数据,因此需要对该种数据进行处理,从而得到可以用Apriori算法进行挖掘的数据格式。而对于图像数据的提取分类等,不在本论文进行深入讨论,本次毕业设计所使用的图像数据是由相关研究生学长学姐提供,本论文就十大算法之一的Apriori算法进行深入研究并实现其具体算法,并尽可能用该算法挖掘出所给的图像数据的频繁项集,从而做出后续的分析。Apriori算法作为关联规则频集挖掘的经典算法之一,是一种单层次、单维度、布尔类型的关联规则挖掘算法,其中,我们把支持度小于用户所给定支持度的项集叫做非频繁项集,大于等于用户给定支持度的项集叫做频繁项集,即频集。本文对已获得的图像数据进行数据挖掘,得出图像数据的频繁项集,通过相关软件工具LIBSVM进行分析,从而得出Apriori算法的挖掘精度,并通过与另一种图像数据的处理方式,即BoF模型,进行比较,得出它们之间在处理图像数据时精确度的高低,从而为以后其它关于图形数据挖掘的研究做出参考。
关键词:大数据;数据挖掘;关联规则;Apriori算法