详细信息
一种改进HMM模型聚类策略的方法
文献类型:专利
中文题名:一种改进HMM模型聚类策略的方法
作者:贾海龙[1];
第一作者:贾海龙
机构:[1]新乡学院;
第一机构:新乡学院
专利类型:发明专利
申请号:CN201610493012.1
申请日:20160623
申请人地址:453000 河南省新乡市金穗大道东段新乡学院
公开日:20161207
代理人:汤东风
代理机构:北京科亿知识产权代理事务所(普通合伙)
语种:中文
中文关键词:爬虫;云存储系统;均匀度;相关度;改进;网页;磁盘利用率;心跳数据包;主控服务器;瓶颈问题;查准率;自适应;阻塞率;构建;聚类;算法;页面;采集;反馈;服务
摘要:本发明公开了一种改进HMM模型聚类策略的方法,与现有技术相比,本发明对HMM爬虫的页面采集方法做出了改进。针对HMM爬虫相关度低,容易丢失相关页面的问题,改进了相关度判别方法。针对其中存在的主控服务器瓶颈问题和心跳数据包信息不完整问题,提出了基于自适应反馈算法的网页云存储系统构建方法。并通过实验证明了改进的HMM爬虫模型在查准率方面均优于传统HMM爬虫;网页云存储系统在磁盘利用率及均匀度和服务阻塞率及均匀度方面均优于HDFS。
参考文献:
正在载入数据...