• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sillydaddy
5.47D
4.97D
V2EX  ›  程序员

想找满足这 5 个特性的低代码爬虫

  •  2
     
  •   sillydaddy · Nov 13, 2023 · 4668 views
    This topic created in 931 days ago, the information mentioned may be changed or developed.
    1. 方便获取稳定的 selector 。最好可以在页面上直接选取元素,获得 selector 。
    2. 准确提取 data 。可以解析常见数据类型,如提取文本数字。也可以自定义解析脚本。
    3. 存储到指定的位置。将上述的 data 与 db 对应起来,最好可以用连线的方式,可视化的编辑 1 对 1 的关系。
    4. 构建循环的流程。爬虫一般都有循环结构,要能简单方便的构建流程,例如简单的逻辑不需要写代码。
    5. 异常的处理。如果采集过程中出错,要能够指定后续的流程。是返回上一级,还是抛出异常,还是加入到队列。

    想请问常用爬虫工具的 v 友,有没有满足这些条件的低代码爬虫工具呢?

    21 replies    2023-11-23 08:43:51 +08:00
    veike
        1
    veike  
       Nov 13, 2023
    chrome 商店搜一下
    SpringBlossom
        2
    SpringBlossom  
       Nov 13, 2023
    火车头?
    KgM4gLtF0shViDH3
        3
    KgM4gLtF0shViDH3  
       Nov 13, 2023
    这不是最基本的需求吗😂虽然没几个做的好的。只能自己写脚本。
    encro
        4
    encro  
       Nov 13, 2023
    火车头,八爪鱼
    encro
        5
    encro  
       Nov 13, 2023
    熟悉 python 就 scrapy
    JohnH
        6
    JohnH  
       Nov 13, 2023
    https://github.com/ferventdesert/Hawk
    可以试试这个开源的,前几年用过,也确实解决了我当时的问题。
    虽然可视化配置,但使用上有一点门槛,需要摸索一下
    xiaoriri666
        7
    xiaoriri666  
       Nov 13, 2023
    八爪鱼
    Hansah
        8
    Hansah  
       Nov 13, 2023
    火车浏览器
    herozzm
        9
    herozzm  
       Nov 13, 2023 via iPhone
    要在浏览器上还是脱离浏览器在服务端后台运行?
    sillydaddy
        10
    sillydaddy  
    OP
       Nov 13, 2023
    @herozzm #9
    如果要写数据库,应该是需要脱离浏览器。如果能在浏览器中写入数据库也可以,不过这种应该还需要通过 webapi 接口。

    感谢上面各位 v 友的回复,我去看一下提到的软件。
    9Y8lCIS38J8AlhRs
        11
    9Y8lCIS38J8AlhRs  
       Nov 13, 2023
    影刀
    yumusb
        12
    yumusb  
       Nov 13, 2023
    googlefans
        13
    googlefans  
       Nov 13, 2023
    爬虫 自己内部用数据还是做网站用?
    小心被告
    vimiwivv
        14
    vimiwivv  
       Nov 13, 2023
    不该先考虑反爬和风控?
    shench
        15
    shench  
       Nov 13, 2023
    这么多年了,还是火车头最好用,我找到一个免费的
    dabaibai
        16
    dabaibai  
       Nov 13, 2023
    @shench 来个免费的 大佬。
    vvhy
        17
    vvhy  
       Nov 13, 2023
    easyspider ?之前看到了,不过没用过
    shench
        18
    shench  
       Nov 13, 2023
    @dabaibai 百度搜索一下高铁采集(本质就是火车头的 vvvip )
    Jaufey
        19
    Jaufey  
       Nov 14, 2023 via Android
    https://www.automa.site/
    这个可以说非常符合
    seekafter
        20
    seekafter  
       Nov 14, 2023
    automa 或者 rpa? 我在闲鱼上有做脚本的链接,做过几单
    macaodoll
        21
    macaodoll  
       Nov 23, 2023 via Android
    最近正好在做一个开源的,跟你说的差不多,但是还没这么快写完
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1137 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 5414617a · 66ms · UTC 18:09 · PVG 02:09 · LAX 11:09 · JFK 14:09
    ♥ Do have faith in what you're doing.