由于需要爬取大量数据,所以采用 代理+协程(asyncio+aiohttp) 的方式爬虫获取数据。爬的时候有两点疑惑:
1. 协程的数量有上限吗?我已经把协程数量调到 300 了,但是服务器内存也没有显著增高。大家一般设置多少个协程爬取数据?(被爬的网站是个常用的大厂,肯定不会被我搞崩掉。我知道不节制的爬虫是不道德的,只是好奇协程数量可以到多大)
2. 爬虫的速度还不错,但是在总是会在协程结束前的最后几个待爬取网页卡住等很长时间才能抓到,这种情况正常吗?
1. 协程的数量有上限吗?我已经把协程数量调到 300 了,但是服务器内存也没有显著增高。大家一般设置多少个协程爬取数据?(被爬的网站是个常用的大厂,肯定不会被我搞崩掉。我知道不节制的爬虫是不道德的,只是好奇协程数量可以到多大)
2. 爬虫的速度还不错,但是在总是会在协程结束前的最后几个待爬取网页卡住等很长时间才能抓到,这种情况正常吗?