详细信息
数据抽取中噪音过滤应用研究
文献类型:期刊文献
中文题名:数据抽取中噪音过滤应用研究
作者:郭东峰[1]
第一作者:郭东峰
机构:[1]新乡学院计算机与信息工程学院
第一机构:新乡学院计算机与信息工程学院
年份:2014
期号:6
起止页码:22-22
中文期刊名:网友世界
外文期刊名:Net Friend World
语种:中文
中文关键词:噪音;过滤;kNN分类算法
摘要:在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,采取利用启发式规则和基于文本内容方法两种策略分步对噪音数据区域过滤,使用kNN文本分类算法进一步对列表页中的非用户关注栏目过滤。
参考文献:
正在载入数据...