是不合适又是因为数据库损坏之类的原因.李老师后来热衷于比特币之后很少写博客的,不过10,11年左右那些文章真是不错啊,特别是诸如想明白系列。
正好借此机会试试看web archive爬虫稳定度。还是蛮好的,3000+的文章,用wget裸数据爬下html后有将近200M,压缩后大概40M左右,小调一下css,还是不错的。而且评论基本也没丢。
我想到,web archive上的数据不能删吗,但是之前v2ex machook帖子也是没有了。
正好借此机会试试看web archive爬虫稳定度。还是蛮好的,3000+的文章,用wget裸数据爬下html后有将近200M,压缩后大概40M左右,小调一下css,还是不错的。而且评论基本也没丢。
我想到,web archive上的数据不能删吗,但是之前v2ex machook帖子也是没有了。