| 专利名称 | 应用于单台多核处理器主机的多线程网络爬虫执行方法 | 申请号 | CN201310661466.1 | 专利类型 | 发明专利 | 公开(公告)号 | CN103678571A | 公开(授权)日 | 2014.03.26 | 申请(专利权)人 | 中国科学院深圳先进技术研究院 | 发明(设计)人 | 冯铮;赵中英;刘明君;何一峰;冯圣中 | 主分类号 | G06F17/30(2006.01)I | IPC主分类号 | G06F17/30(2006.01)I | 专利有效期 | 应用于单台多核处理器主机的多线程网络爬虫执行方法 至应用于单台多核处理器主机的多线程网络爬虫执行方法 | 法律状态 | 实质审查的生效 | 说明书摘要 | 本发明提出的应用于单台多核处理器主机的多线程网络爬虫执行方法包括步骤:S10、创建网页爬取线程、网页分析线程以及URL种子线程;S20、将URL种子载入URL种子缓冲队列;S30、从URL种子缓冲队列中取出URL种子块,遍历URL条目进行网页爬取;S40、将网页内容及其URL封装载入网页缓冲队列;S50、通过查询哈希表进行URL分析,将URL载入待爬取URL列表;S60、待爬取URL列表中元素达到最大值时写入URL缓冲队列;S70、从URL缓冲队列中取出URL列表并重排,封装成URL种子块插入URL种子缓冲队列。本发明可避免额外的线程切换或等待、误判率极低,一定程度上解决了“礼貌”爬取问题。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障