登录    注册    忘记密码

详细信息

数据抽取中数据预处理    

文献类型:期刊文献

中文题名:数据抽取中数据预处理

作者:郭东峰[1]

第一作者:郭东峰

机构:[1]新乡学院计算机与信息工程学院

第一机构:新乡学院计算机与信息工程学院

年份:2014

期号:7

起止页码:224-224

中文期刊名:电子技术与软件工程

外文期刊名:Electronic Technology & Software Engineering

语种:中文

中文关键词:噪音数据;HTML;Jtidy

摘要:在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。

参考文献:

正在载入数据...

版权所有©新乡学院 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心