Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
nonfu
V2EX  ›  云计算

记一次阿里云系统故障、工单处理、自行恢复和事后维权的完整经历

  •  
  •   nonfu · Dec 17, 2019 · 8482 views
    This topic created in 2360 days ago, the information mentioned may be changed or developed.
    58 replies    2019-12-18 13:03:06 +08:00
    scukmh
        1
    scukmh  
       Dec 17, 2019
    想知道怎么唬你的。最后那一段。
    wangyzj
        2
    wangyzj  
       Dec 17, 2019
    希望不是 20 个 5 元代金券
    eason1874
        3
    eason1874  
       Dec 17, 2019
    不是百倍时间赔偿吗,不算你自己操作时间,纯粹工单耽误时间都有半天了,这半天不是应该赔偿吗?
    foamvalue
        4
    foamvalue  
       Dec 17, 2019
    这么强,还能维权?
    nonfu
        5
    nonfu  
    OP
       Dec 17, 2019
    @eason1874 这种免不了扯皮 比如怎么算损失 你说你的 他说他的 不好量化 有那精力不如干点别的开心点的事情
    nonfu
        6
    nonfu  
    OP
       Dec 17, 2019
    @scukmh 她一个妹子竟然跟我聊操作系统的调用问题 我赶紧刹车 说我不想关心这些
    graceday
        7
    graceday  
       Dec 17, 2019
    阿里云最近新活动,入门级 ECS 89 元 /年,值不值得入手?买了也不知道做什么
    nonfu
        8
    nonfu  
    OP
       Dec 17, 2019
    @wangyzj 不是 那我就不能关工单了 是货真价实的 100 元代金券 有效期是一年
    vus520
        9
    vus520  
       Dec 17, 2019
    这不千万云的日常么
    nonfu
        10
    nonfu  
    OP
       Dec 17, 2019
    @graceday 那就别买了 反正这种活动经常有
    nonfu
        11
    nonfu  
    OP
       Dec 17, 2019
    @vus520 千万云是个什么梗
    nonfu
        12
    nonfu  
    OP
       Dec 17, 2019
    @foamvalue 人在家中坐 锅从天上来 不维权对不起自己熬的夜
    nandehutu
        13
    nandehutu  
       Dec 17, 2019
    基本上各家云的客服,一开始上来都是答非所问,效率很差
    okwork
        14
    okwork  
       Dec 17, 2019
    楼主心大,用云服务器,每日定期快照是基础保障
    nonfu
        15
    nonfu  
    OP
       Dec 17, 2019
    @nandehutu 因为不懂技术
    dreamerlv3ex
        16
    dreamerlv3ex  
       Dec 17, 2019
    可怜的学院君。
    opengps
        17
    opengps  
       Dec 17, 2019
    现在的工单服务量太大,确实质量不到位
    nonfu
        18
    nonfu  
    OP
       Dec 17, 2019
    @okwork 嗯 是的 主要这是个新启用的机器 一直没顾上做 现在补上了
    nonfu
        19
    nonfu  
    OP
       Dec 17, 2019
    @opengps 是的 能理解 靠人去维护的东西都会有这个问题
    shakaraka
        20
    shakaraka  
    PRO
       Dec 17, 2019
    不管怎么说还是要多备份才行,要是万一挂上去还是不能访问那就搞笑了
    ysoserious
        21
    ysoserious  
       Dec 17, 2019
    难怪昨天一整天都打不开.
    ysoserious
        22
    ysoserious  
       Dec 17, 2019
    下午.
    nonfu
        23
    nonfu  
    OP
       Dec 17, 2019
    @wunonglin 是的 这年头 连离职谈话都要多处备份
    nonfu
        24
    nonfu  
    OP
       Dec 17, 2019
    @ysoserious 争取以后不再发生这种事情了
    houzhimeng
        25
    houzhimeng  
       Dec 17, 2019
    被阿里坑过 2 次,果断选择云数据库
    nonfu
        26
    nonfu  
    OP
       Dec 17, 2019
    @houzhimeng 公司产品的建议使用云数据库了
    struggle001
        27
    struggle001  
       Dec 17, 2019   ❤️ 2
    @nonfu 作为一个渣渣运维分享自己的一些想法:
    1.生产环境的数据一定不要放在系统盘上(虽然阿里提供的方法可用,但是有一定的风险)
    2.数据放在数据盘(扩展盘)的前提下,定期对系统盘进行快照,如果出现类似问题,直接恢复快照,对数据不产生任何影响。也是分分钟恢复的事情。
    3.数据库数据要定时进行 sql 备份,用 bash 写定时脚本,留一个月第一天的备份 1 和近 7 天的备份。如果有条件,可以考虑异地或者 pc 本地备份。

    os 还是有一定几率会出现损坏的,或者说阿里的分布式存储出了问题,刚好影响你的系统盘(可能性很小)。所以切记不要放在系统盘数据。

    我作为云厂商的运维,出现类似问题,因为没有阿里那套恢复快照到新购磁盘的业务逻辑,我会协助他们保存系统数据,之后重置,效率肯定要比阿里快 N 呗。不过小厂商很难混下去。
    struggle001
        28
    struggle001  
       Dec 17, 2019
    @okwork 快照其实对云厂商很不友好,所以都有快照限制的。比如一个用户数据是 100G,打快照之后,所有的 100G 的数据都被修改过,那就额外占用了 100G,在加上 3 副本,实际占用我 600G 的空间。很坑啊。
    nonfu
        29
    nonfu  
    OP
       Dec 17, 2019
    @struggle001 嗯 受教 我现在就是按照你这个思路在做的 定期快照+数据库备份 并且数据库备份多处存储 避免单点故障
    struggle001
        30
    struggle001  
       Dec 17, 2019
    @nonfu 所以遇到一次问题 也挺好的。哈哈
    nonfu
        31
    nonfu  
    OP
       Dec 17, 2019
    @struggle001 是的 不出问题总以为朗朗乾坤 天下太平 有些事情总是习惯拖着 😂
    turi
        32
    turi  
       Dec 17, 2019
    6 个多小时 才 100 块钱

    这套路不就是,一榔头加一个枣吗?

    一小时 20 块不到,果然白菜价
    ben1024
        33
    ben1024  
       Dec 17, 2019
    阿里云店大欺客的习惯
    okwork
        34
    okwork  
       Dec 17, 2019 via Android
    @struggle001 这个没办法了,快照都是增量的,永远胖下去的。瘦身的办法只好隔段时间重置后再新快照,幸好存储空间一般都不算太贵,胖就胖点吧
    nonfu
        35
    nonfu  
    OP
       Dec 17, 2019
    @turi 其他的也没办法量化 之前所在的公司千万级流量 IDC 机房断电导致服务器宕机半天 最后也是不了了之了 跟他们扯皮他们有专门的律师团队 千儿八百块钱的事情也就懒得花时间去理会了
    struggle001
        36
    struggle001  
       Dec 17, 2019
    @okwork 我公司内部用户用了我 20T 的 ssd 空间,x3 就 60T 了,我都要疯了,采购扩容中.....
    天天和他斗智斗勇....
    1239305697
        37
    1239305697  
       Dec 17, 2019
    大概意思是:磁盘出问题了,但是磁盘里的数据是正常的
    这个算不算运气好,一般不是磁盘出问题了数据就也没有了吗。。
    mmdsun
        38
    mmdsun  
       Dec 17, 2019 via Android
    想起来 IT 之家 用阿里云期间各种崩溃和反应缓慢,最后阿里只陪了 1 天。

    https://www.ithome.com/html/it/267407.htm
    avenger
        39
    avenger  
       Dec 17, 2019
    为啥不直接用 rds,ecs 上自建数据库风险很大,运行了一年的服务器你也敢重启…… 不能启动很正常,ecs 应该要做成无状态的,随时可以清掉重新部署。
    a1274598858
        40
    a1274598858  
       Dec 17, 2019
    aqqwiyth
        41
    aqqwiyth  
       Dec 17, 2019
    mysql 居然一次性恢复成功.
    mytsing520
        42
    mytsing520  
    PRO
       Dec 17, 2019
    @a1274598858
    小水管,或水管长期处于高使用率范围内
    nonfu
        43
    nonfu  
    OP
       Dec 17, 2019
    @a1274598858 还真是 应该是近期出现的 之前都是几~几十毫秒 明天看下
    nonfu
        44
    nonfu  
    OP
       Dec 17, 2019
    @avenger 贵 我这就是个个人博客而已 其实一台 2c4g 机器就够了 没必要花那个冤枉钱
    nonfu
        45
    nonfu  
    OP
       Dec 17, 2019
    才 1 天,够狠。。。
    nonfu
        46
    nonfu  
    OP
       Dec 17, 2019
    @1239305697 某个操作系统调用环节出问题而不是整个磁盘坏掉
    nonfu
        47
    nonfu  
    OP
       Dec 17, 2019
    @aqqwiyth 期间有些坎坷 坑我都绕过了 直接给了最终的指令
    nonfu
        48
    nonfu  
    OP
       Dec 17, 2019
    @mmdsun 才 1 天,够狠。。。
    akira
        49
    akira  
       Dec 18, 2019
    @nonfu 阿里的产品线里面,rds 其实算是稳定性可以的了。然而还是建议每日自己做一个数据库逻辑备份。
    生产服务器上面,最重要的事情就是
    备份!备份!备份!
    avenger
        50
    avenger  
       Dec 18, 2019
    @akira 还要异地备份才放心
    avenger
        51
    avenger  
       Dec 18, 2019
    @nonfu 比你的数据还贵吗?
    Zach369
        52
    Zach369  
       Dec 18, 2019
    建议使用 rds 吧. 我之前测试过,阿里云 ecs 上面搭建 mysql 和 mongodb 不是很稳定.
    nonfu
        53
    nonfu  
    OP
       Dec 18, 2019
    @avenger 我是在 ECS 上搭的 2c4g 3 年¥1500 两年前做活动的时候买的 你说便宜不便宜
    nonfu
        54
    nonfu  
    OP
       Dec 18, 2019
    @Zach369 这个等流量再翻几倍再说 😂 毕竟就是个个人博客
    nonfu
        55
    nonfu  
    OP
       Dec 18, 2019
    @avenger 看错了 不是贵不贵的问题 是目前实在还没有必要 只是个个人博客 不是商业产品
    nonfu
        56
    nonfu  
    OP
       Dec 18, 2019
    @akira 是的 遥想当年美团挂了 饿了么还撑得住就是异地多活的功劳 咱做不了异地多活 做个多处备份 再最低价租个国外 VPS 做备份服务器还是可以的 闲时还能拿来当梯子 美滋滋
    tailf
        57
    tailf  
       Dec 18, 2019
    买 RDS 吧,不用自己运维,稳定很多。。
    nonfu
        58
    nonfu  
    OP
       Dec 18, 2019
    @tailf 但问题是本次故障并不是 MySQL 数据库故障导致 而是 ECS 的问题
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1033 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 93c8b4a0 · 104ms · UTC 18:33 · PVG 02:33 · LAX 11:33 · JFK 14:33
    ♥ Do have faith in what you're doing.