详细信息
数据抽取中数据预处理
文献类型:期刊文献
中文题名:数据抽取中数据预处理
作者:郭东峰[1]
第一作者:郭东峰
机构:[1]新乡学院计算机与信息工程学院
第一机构:新乡学院计算机与信息工程学院
年份:2014
期号:7
起止页码:224-224
中文期刊名:电子技术与软件工程
外文期刊名:Electronic Technology & Software Engineering
语种:中文
中文关键词:噪音数据;HTML;Jtidy
摘要:在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。
参考文献:
正在载入数据...