云原生基础设施

云原生并不是一个单纯的技术,更是一种思想,是技术、企业管理方法的集合
云原生基础设施为技术创新和流程改进提供了核心支撑平台
核心能力:依托于容器的一致性运行环境、基于声明式 API 的系统、统一的可观测性方案

可观测性

可观测性一般从事件日志、链路追踪和聚合指标三个方向进行研究
可观测性有助于你成为“系统侦探”,在系统运行时能够提出和回答新问题
Open Telemetry 是由 CNCF 推出的可观测性生态标准规范,提供与厂商无关的可观测性解决方案

全景监控

全景的监控、可观测性解决方案,有助于实现持续交付
全景监控的主要价值是帮助企业实现业务透明,提高对问题的响应速度,增加对全局的把控
监控体系通常包括监控数据的采集、传输、落盘、可视化、警情评估、监控告警和数据分析
衡量监控有效性:能够有效降低运维风险,帮助开发工程师在软件开发和交付过程中提高效能,根据监控数据帮助人们做出正确的决策

智能运维

AIOps 是基于自动化运维,将人工智能技术和传统自动化运维相结合,能够提升运维效能
AIOps 实施的关键技术包含数据采集、数据处理、数据存储、数据分析和 AIOps 算法
AIOps 最主要的应用场景有三种:运维保障、成本优化和效率提升
常见算法技术:指标趋势预测、指标聚类、多指标联动关联挖掘、指标与事件关联挖掘、事件与事件关联挖掘和故障传播关系挖掘

混沌工程

混沌工程是一项提升复杂系统稳定性的赋能活动
混沌工程有三个好处:系统可用性的提升、故障平均恢复时长的降低、故障平均发现时长的降低
混沌工程通过故障注入实验,增强各个角色协作,提升系统稳定性
混沌工程根据实验观测数据,分析系统运行和失效模式,以了解复杂系统
混沌工程通过改进系统稳定性设计和可观测机制,以提升系统韧性和故障响应速度

ChatOps

ChatOps 是一种相对新颖的智能工作方式(参考飞书),连接人、机器人和工具
ChatOps 以在线沟通平台为中心,通过机器人对接后端各个服务
ChatOps 由四个部分组成:自动化的流程、聊天室(变样的控制中心)、机器人( CLI 式的连接中心)、基础设施
ChatOps 将从当下简单指令形驱动向数据和流程驱动形发展

解读

有关于 ChatOps 其实知识 XxOps 的一种, chatOps 的主要目的在于随时可以影响环境,这个随时不再是要经过冗长的审核(当然必要的审核是非常有用的),AIOps 的主要目的是降低对重复扩容需求/参数调整需求的变更;DataOps 的主要目的是通过数据流进行自动化。

混沌工程主要是对系统问题的一种优化表达,是一个对问题通过模糊提示来让客户以为是其他问题而不是系统问题的方式。