• 年轻人不讲武德,偷袭阿里的机房

    总会有各种原因和各种理由让一台服务器发生故障的,可能是过载了,可能是老鼠咬线了,可能是冷凝液泄露了,甚至可能是被知乎用户派人炸了。知乎上有人问过一个问题,如果阿里云数据中心崩了或者被人炸了,是不是淘宝...
    文章 2020-11-18 4414浏览量
  • 浅谈对微服务中熔断和降级的理解

    管理目标的层次不太一样,熔断其实是一个框架级的处理,每个微服务都需要(无层级之),而降级一般需要对业务有层级之(比如降级一般是从最外围服务开始) 实现方式不太一样 参考文章 [1].【原创】谈谈服务雪崩...
    文章 2020-03-18 1071浏览量
  • 分布式系统数据层设计模式

    表示能容忍的从故障发生到系统恢复正常运转的时间,这个时间越短,容灾要求越高。RPO,Recovery Point Objective,数据恢复点目标。表示能容忍故障造成过去多长时间的数据丢失,RPO 为 0 表示不允许数据丢失。分布式...
    文章 2019-08-03 717浏览量
  • 利用SQL SERVER 2005数据库镜像实现可用性

    确保数据的完整:要求只要是用户提交到服务器上的数据,那怕说数据刚提交上主体服务器就发生故障了,也能保证数据不会丢失。故障转移之后的数据是不会丢失,从而保证数据库的完整性 高级别保护模式: 我们从名称上也...
    文章 2017-11-14 1033浏览量
  • redis与CPU、内存

    这样的结构也方便解决单点故障问题,实现Slave对Master的替换,也即,如果Master挂了,可以立马启用Slave1做Master,其他不变使用Redis负载监控工具:redis-monitor,它是一个Web可视化的 redis 监控程序redis库,...
    文章 2019-04-29 1403浏览量
  • 如何改变Redis不好的误区

    当这个系统刚开始运行的时候,一切都还安好,只是运维同学有点傻眼了,200GB的Redis单服务器去做,它的故障可能性太大了,所以大家建议将它片,没不知道一吓一跳,各种类型的太多了,特别是里面还有一些当...
    文章 2017-12-20 5000浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-10-25 2944浏览量
  • 线上故障处理实践

    该系统从去年下半年开始一直偶尔有500的报错,但每次重启就好了,本次发生故障后,重启仍然是大量500;二、问题分析 先查看接入层日志,发现大量的500错误: 发现是连接应用接入层超时,应该是应用接入层压力大,...
    文章 2020-06-07 406浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-06-19 2143浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    专注于提高应用高可能力的云工具产品,提供应用架构自动探测,故障注入式高可能力评测和一键流控降级等功能,可以快速低成本的提升应用可用性。https://www.aliyun.com/product/ahas 2、性能测试 PTS 面向所有...
    文章 2020-02-18 4874浏览量
  • 饿了么分布式服务治理及优化经验

    如果线上发生了一个故障,比如交换机发生故障,影响到某个业务,但是业务报警没有报出来,那业务要承担连带责任,因为你没有报警出来。报警最常见的基于阈值,阈值这件事情比较痛苦,我们有很多指标,但这个阈值怎么...
    文章 2017-11-15 886浏览量
  • AI赋能DevOps:数据驱动的全栈工程师实践

    显然排除法是没有办法帮我解决升级后的这种异常检测,怎么办呢?那我们引入了智能聚类。即使每分钟产生上亿条日志,可能里面不到100种类新的事件,只是说每一种类新的事件重复发生了很多次,所以造成整体数据的...
    文章 2019-11-04 9235浏览量
  • 高效运维之员工的四大误区及解决之道

    另外,也不要觉得自己负责的这部分没问题,于是对发生的重大故障,就再也不管不问、隔岸观火。应该主动和大家一起分析讨论,群策群力,解决问题。如果下次你负责的这部分出现了严重故障,其他人都漠然坐上观,你是否...
    文章 2016-06-09 2874浏览量
  • 大众点评工程师:从黄金圈法则看MySQL数据库复制

    问题二:因为复制是有延迟的,肯定会发生主库写了,但是从库还没有读到的情况,遇到这种问题怎么办?答:MySQL支持不同的复制策略,基于不同的复制策略达到的效果也是不一样的,如果是异步复制,MySQL不能保证从库...
    文章 2017-05-02 1375浏览量
  • RAID磁盘利用率详解

    使用RAID10,可以获得更好的可靠性,因为即使两个物理驱动器发生故障(每个阵列中一个),数据仍然可以得到保护。RAID10需要4 2*N 个磁盘驱动器(N>0),而且只能使用其中一半(或更小,如果磁盘大小不一)的磁盘用量...
    文章 2016-05-03 3690浏览量
  • 一个复杂系统的拆分改造实践

    因此在迁移之前,先要全局唯一id发生器生成的id来替代主键自增id。这里有几种全局唯一id生成方法可以选择。1)snowflake:https://github.com/twitter/snowflake;(非全局递增) 2)mysql新建一张表用来专门生成...
    文章 2017-01-04 7623浏览量
  • DAS 解决延时突高的案例分享

    我们通过日志系统发现这些慢查询发生的比率极低,甚至低于千之一。如果这是个普通的应用,低于千之一的慢查询比率是可以接受的。但是这一个对接外部系统的应用,外部系统对延时要求非常高,即使千之一的高延迟...
    文章 2020-03-27 607浏览量
  • 秘诀!支付宝支撑双十一4200万次/秒的数据库请求峰值...

    在节点角色上,有几个节点(root service)负责管理集群拓扑结构等全局信息,相对特殊一点,但每个节点都具备承担这个角色的能力,如果当前承担该角色的节点发生故障,集群会自动选举出新的节点承担这个角色。...
    文章 2018-05-10 2640浏览量
  • 车联网上云最佳实践(二)

    作为公司的运维同学,如何为公司开源节流,把每一在刀刃上是责任是义务更是一种能力。应用服务器集群: 应用服务器操作系统统一采用Centos7,运行环境主要为JAVA环境和PHP环境,还有少部分Node.js环境 Java环境...
    文章 2018-08-22 2560浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    比如,如果总是SRE人员去响应报警和值班,就会非常疲惫劳累,人不可能永远关注报警,那怎么办呢?可以从报警机制、自动化、值班机制3个方面入手:一方面,让报警更加准确和完善,减少误报和漏报,防止大家不必要的...
    文章 2020-10-26 3797浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    网卡就是千兆网卡,所以这个情况下怎么办呢,那个时候复盘的时候提出一个方案,我们必须到线上做真实的全链路压测,不能在下面搭一个测试环境压,必须到线上把所有的容量模拟双11的峰值直接压上去,这是当时提出来的...
    文章 2021-01-06 356浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    网卡就是千兆网卡,所以这个情况下怎么办呢,那个时候复盘的时候提出一个方案,我们必须到线上做真实的全链路压测,不能在下面搭一个测试环境压,必须到线上把所有的容量模拟双11的峰值直接压上去,这是当时提出来的...
    文章 2021-01-06 2526浏览量
  • 20 万网络节点背后的数据创新应用

    6月21业务视图告警通知到业务运维同学,6点30,在10分钟之内把相关业务的运维同学召集起来,启动了大范围故障处理流程。虽然业务在天津、上海和深圳这三地有容灾策略,为了保障业务的有效运行,在6点50我们评估...
    文章 2018-08-02 1074浏览量
  • 【双11背后的技术】万亿交易量级下的秒级监控

    1)如果串行,那10个I/O动作(拉日志包)怎么办?串行不就浪费cpu浪费时间吗?2)把它们都放到一个线程里,那我怎么发挥多核机器的性能?第一个问题,答案就是异步I/O。只要肯花时间,所有的I/O都可以NIO来实现,...
    文章 2017-01-12 5450浏览量
  • 车联网上云最佳实践(一)

    作为公司的运维同学,如何为公司开源节流,把每一在刀刃上是责任是义务更是一种能力。应用服务器集群:应用服务器操作系统统一采用Centos7,运行环境主要为JAVA环境和PHP环境,还有少部分Node.js环境Java环境:...
    文章 2018-08-31 2912浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    如果有箱子或食物需要运送怎么办?匹配所有需求与供应的方法是一种被称为DISCO的服务(调度优化) 旧的系统仅仅是匹配现有的供应量,这意味着仅仅针对在路上等待工作的车辆。DISCO支持对未来的预测,一旦车辆变成...
    文章 2017-11-20 1711浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    如果有箱子或食物需要运送怎么办?匹配所有需求与供应的方法是一种被称为DISCO的服务(调度优化) 旧的系统仅仅是匹配现有的供应量,这意味着仅仅针对在路上等待工作的车辆。DISCO支持对未来的预测,一旦车辆变成...
    文章 2016-03-17 3505浏览量
  • BigDump 工具导入超大 MySQL 数据库备份文件

    5、发生 MySQL 服务器超载怎么办?如果服务器性能较差,在运行 bigdump.php 过程中可能会发生 MySQL 服务器超载(overrun)故障。你可以修改 bigdump.php 文件中的$delaypersession?参数来解决。该参数让 bigdump....
    文章 2015-07-06 1117浏览量
  • 阳振坤:OceanBase如何跨越关系数据库的“死亡之谷”

    旁边的机器是基线数据,就是片切片以后,放到周围这一圈进行。所以当时我们就这个看上去很简陋的一个方案来真正解决了淘宝收藏夹的问题。当时收藏夹了这个方案之后,服务器的数量从原来预计的第二年要几百台...
    文章 2018-10-25 1724浏览量
  • 蚂蚁金服阳振坤:OceanBase如何跨越关系数据库的...

    旁边的机器是基线数据,就是片切片以后,放到周围这一圈进行。所以当时我们就这个看上去很简陋的一个方案来真正解决了淘宝收藏夹的问题。当时收藏夹了这个方案之后,服务器的数量从原来预计的第二年要几百台...
    文章 2018-10-25 2048浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com