了解最新公司动态及行业资讯
深度优先搜索策略是比较常用的一种搜索方法,该方法的最终目标就是沿着网站中的一个超链接进行深层遍历直至无链接。
深度优先搜索策略基本过程为,爬虫程序从初始种子网页出发,获取当前网页的超链接集合后,任选一个超链接进行爬取,这时爬虫在此方向建立并重复上述的过程,当爬虫程序在一条方向上无法再前进爬取时本条方向结束,并返回上一层页面另一超链接路径继续采集过程。
当爬虫再也找不到另一个超链接爬行时则爬虫结束,搜索爬取完成。深度优先搜索策略在选定某一超链接后则一直爬取到底,整个爬取是一个递归过程。
上一篇:门户类网站