详细信息
基于朴素贝叶斯方法的Web数据噪音分类研究
文献类型:期刊文献
中文题名:基于朴素贝叶斯方法的Web数据噪音分类研究
作者:茹蓓[1];陈建彪[1]
第一作者:茹蓓
机构:[1]新乡学院计算机与信息工程学院
第一机构:新乡学院计算机与信息工程学院
年份:2016
卷号:37
期号:7
起止页码:36-37
中文期刊名:内江科技
基金:河南省高等学校青年骨干教师培养计划(2013GGJS-222);河南省教育厅河南省高等学校重点科研项目(15A520093)
语种:中文
中文关键词:Web数据;数据抽取;贝叶斯算法;抽取算法;朴素贝叶斯;分类研究;数据区域;抽取方法;抽取规则;信息分类
摘要:在网页自动化数据抽取中,导航、广告、特定栏目等信息与知识数据的HTML结构模式类似,它们会被误作为知识数据抽取出来,从而带来抽取算法准确率低下的问题。本文通过分析噪音数据结构特征,基于朴素贝叶斯算法对网页文本信息分类,噪音数据干扰问题得到有效解决。实验结果表明,该方法具有较高的准确率和运行效率。
参考文献:
正在载入数据...