详细信息
文献类型:期刊文献
中文题名:基于HMM的主题爬虫问题研究
英文题名:Research on Topic Crawler Based on HMM
作者:曹琨[1]
第一作者:曹琨
机构:[1]新乡学院计算机与信息工程学院
第一机构:新乡学院计算机与信息工程学院
年份:2016
卷号:0
期号:17
起止页码:27-28
中文期刊名:河南科技
外文期刊名:Journal of Henan Science and Technology
语种:中文
中文关键词:网络爬虫;算法;改进
外文关键词:network crawler; algorithm; improvement
摘要:对HMM爬虫中K-means算法的K值选取方法作出相应改进,然后针对爬取网页的内容与主题相关度不高的问题,对隐马尔科夫模型的假设条件进行修改,完成改进后的隐马尔科夫爬虫设计。
This paper made corresponding improvement on K value selection method of K-means algorithm in HMM crawler, then aiming at the problem that the correlation between the content and theme of the crawled page is not high, improved the assumed condition of the hidden Markov model, and completed the improved hidden Markov crawler designing.
参考文献:
正在载入数据...