不再为告警“救火”：AIOps 如何重塑腾讯音乐的智能运维体系

更新时间：2025-12-10 15:33 浏览量：1

作者｜边雪冬

编辑｜李忠良

策划｜AICon 全球人工智能开发与应用大会

在 AI 技术快速发展的浪潮下，企业如何在有限资源下提升效率、保障质量，并推动智能化运维成为行业关注的核心议题。InfoQ 荣幸邀请到了腾讯音乐 / 运维开发组组长边雪冬，他在 AICon 全球人工智能开发与应用大会·深圳站上分享了《AIOps 驱动下的 TME 腾讯音乐智能运维新范式》。

在本次分享中，他结合了腾讯音乐的实践经验，介绍团队如何通过 AI 优化告警、提升根因分析效率、构建专家库，并展望 AIOps 在智能问答、自动化执行与算法升级等方向上的演进路径，为业界提供思考与借鉴。

12 月 19～20 日的 AICon 北京站将锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。

详细日程见：

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

在腾讯音乐（TME）体系下，我们拥有多款面向不同用户群体的应用，包括全民 K 歌、QQ 音乐、酷狗和酷我。为了支撑这些业务的稳定、高效运行，背后有大量的开发团队在协同工作。而我们团队主要负责底层的基础保障能力建设，例如微服务体系、可观测性体系，以及 DevOps 和 K8s 平台的统一支撑。

随着 AI 时代的快速发展，公司也在不断推动我们在业务中探索更多基于 AI 的创新玩法，为用户带来更优质的产品体验。与此同时，我们在内部也积极尝试将 AI 与现有的基础技术体系进行结合，既服务业务创新，也反哺工程体系升级。

基于这样的背景，主要围绕两个方面展开：

第一，是关于 AI 时代的一些思考——在基础领域，我们如何更高效地与 AI 结合，并确保内部 ROI 能够保持正向发展，避免为了“用 AI 而用 AI”的无意义扩张。毕竟，人力和资源都是有限的，我们必须在合适的场景中找到真正具备价值、能够落地的突破点；第二，是围绕这些场景的实践探索——分享我们在实际应用中的一些效果和经验。

整体来看，我们对 AI 的探索，仍然是基于传统的三要素：质量、效率和成本。核心问题在于：如何利用 AI 在其中一个或多个维度上产生实实在在的价值，形成对整体体系的助力。

在具体实践中，我们主要从感知、决策和执行三个层面来推进落地，希望通过这三个环节的联动，真正发挥 AI 的能力，释放出可量化的效果。围绕这一目标，我们也对当前整体业务的基础架构进行了系统性的梳理。

在整体的基础架构中，首先是 DevOps，这可以说是最必要、也最底层的一环。从 CI（持续集成）、到 CD（持续交付 / 部署），再到 CO(持续运营)，形成一套完整的闭环能力。我们的目标非常明确：让研发同学尽可能专注于写代码，其他流程尽量交由平台和标准化机制来完成；

其次是 SRE 体系。在这套体系中，我们观察到，很多问题其实都源自于上线过程中的变更，因此核心之一就是：如何确保变更的有效性和可控性。同时，我们也在持续构建和完善 SLA 体系，以此来保障业务质量。

从故障发现、到根因排查、再到最终解决，通过提升响应效率和处理效率，来实现整体业务质量的提升；

最后是云原生体系。它为我们提供了一套更加稳固、弹性的基础底座。借助云的能力，我们希望将过去一些自建的、相对不规范的部分逐步标准化，并把这些规范和能力贯穿到各个环节之中，从而在整体上进一步提升系统的稳定性和质量。

AIOps 三大“未来式”应用

“听”出问题的“音乐雷达”

我们率先将 SLA 体系与 AI 相结合，因为 SLA 对业务质量的保障始终是最高优先级。

我借助 AI 生成了一张图，用来展示十年前我们工作的现状：当时每人每月平均需要处理约 3,000 个电话告警，折合下来每天超过 100 个，几乎每 10 分钟就会有一次告警来电。许多同事不得不一手拿着手机、一手操作鼠标，长期处于“救火”状态，AI 也将这一场景形象化为消防员。

在历史最初的业务架构中，各类监控数据量极为庞大。例如，Web 层就有四种不同的监控方式。但哪种监控更有效？这些监控点大多是开发和运维同事在一次次“救火”过程中不断补充出来的，最终形成了一个庞杂的体系。

为此，我们首先着力提升监控数据的有效性，确保在正确的时间触发告警，避免误告。我们引入了 3-Sigma 算法，将告警波动转换为波动幅度，并以幅度深度为依据生成整体告警。过去的告警依赖各业务自行设定阈值，例如 98% 触发告警，但 95% 或 99% 是否需要告警并无统一标准，往往还掺杂失败趋势。

我们也引入了同比和环比等指标，生成相对基准值，并结合波动幅度和深度来判定是否需要触发告警。在此基础上，我们进一步制定策略：当波动幅度达到一定深度时，能够更快地帮助业务发现问题；当波动恢复平稳并持续一段时间时，则判定业务已恢复正常；若处于抖动期，则将深度重置为 0，再重新判断是否需要告警。

通过这一算法的底层支撑，我们已将用户接收到的月度告警电话数从 3,000 余次减少至 200 余次，大幅降低了告警负担。

自愈式运营: 系统自己“调准音”

接下来面临的问题是告警种类过于繁多。举例来说，某次业务发生成功率下降的告警，同时运维侧又收到内存上升的告警，那么如何将二者关联起来并找到真正的根因？在大模型应用的初期，我们基于 AI 构建了一套分析的工作流（workflow）。

当数据进入后，首先由 AI 进行问题分析与反馈，随后调用相关插件并完成重写；在此基础上，再结合内部知识库与文档进行检索与构造，并通过大模型补充信息，最终生成问答建议与问题定位。围绕这一流程，我们还开发了多种工具，例如容量检测，以及微服务中的熔断、限流、染色等能力。

自去年起，我们开始尝试使用 Dify 来简化这一工作流。借助 Dify，我们可以在 workflow 中灵活选择 Hugging Face 上的主流模型，并结合已有的知识库开展定向翻译。

例如，针对种类繁多的业务返回码，我们能够自动完成统一翻译。同时，利用其闲聊能力，我们构建了运维机器人，帮助业务同学更快速地解决问题。最后，再结合 DeepSeek 的深度思考，生成最终的解决方案，用于回复用户或辅助完成告警分析。

在单条告警分析思路的基础上，我们逐步向外扩展，覆盖了基础类与业务类的全部场景。目前，从业务日志采集、组件发布到变更等各个环节，均已经整合进 AIOps 体系。

在链路分析方面，我们结合 Trace、Metric 与 Log 三要素，同时利用业务上报的主调与被调关系，构建关系网络，实现链路的全景分析。

最终，我们通过链路分析实现了上下游的扩展，对请求量、耗时、聚集以及变更情况进行可视化呈现。

在这套体系下，我们对告警的处理已经更加高效。举个例子，当时线上出现了高低异常的情况，分析器识别出这是由部分内存异常引起的业务问题，并进一步定位到具体涉及的 IP，以及各个 IP 上的异常增长情况。对于单条告警（比如 CPU 告警），我们会统一采集所有设备的快照，再通过快照分析，更准确地发现和还原业务问题。

在另一个案例中，我们首先发现了业务告警，随后结合代码仓库中的 AICR 能力进行分析。AICR 能够聚合每次提交的 commit 信息，识别出修改和删除的代码位置，并检查其中是否存在潜在隐患。

例如，在某次提交中，就在最后一行代码里发现了边界问题，可能导致线上故障。一旦问题发生，AI 能够快速给出综合性的结论，显著缩短问题定位的时间。

基于这一整套体系，我们对所有告警进行了整体分类，并由 AI 自动打标。结果显示：业务逻辑错误约占 40%，IP 聚集问题约占 20%。有了这样的分类依据，我们就可以制定更具针对性的处理策略。

例如，在容器化或 CVM 场景下，对于这类问题可以直接采取自愈措施：当告警出现时，自动剔除异常路由，或者销毁并重建容器，从而实现快速恢复，避免故障范围进一步扩散。

同时，我们还需要重点推进专家库的建设。目前，约 40% 的告警属于业务逻辑错误，另有约 16% 属于未知原因，这两类问题合计占比已经超过一半，其背后的核心原因在于专家库的积累仍然不足。

生产环境中的服务数量非常庞大，仅 QQ 音乐的生产服务就超过一万个，如何对这些服务进行标准化治理，依然是一项非常重要且长期的课题。

此外，每次故障的复盘报告也至关重要。只有通过持续复盘并将报告进行标准化，AI 才能真正“理解”故障产生的根因。基于这些沉淀，AI 才可以在下一次类似问题出现时提供有效参考，辅助完成定位和分析。

因此，我们优先推进的是业务体系的标准化建设，尤其是返回码的规范。在返回码处理上，首先需要明确其类型：是成功、失败，还是逻辑失败。其中，逻辑失败是指不影响整体服务质量，且具备兜底保障的情况。

其次，要为返回码建立统一的命名规则和处理建议。当某一返回码出现时，AI 能够识别其含义，并给出对应的处理方式。通过这一过程，我们也在逐步完善专家库的建设。

个性化运维：为不同业务“定制乐谱”

除了基础告警和通用类告警外，我们还涉及更多定制化的告警类型，例如海外的 JOOX 平台告警、各业务线定制化告警、会员收入告警等。如何让模型理解这些告警的含义，并能够给出整体的解决思路，是我们当前重点关注的问题。

这里的核心依然是数据，AI 与数据始终是紧密相连的。目前，我们已经构建了一套完整的数据银行体系：从数据上报、Flink 处理，到源数据入库，再到结合 OLAP 数据库生成结果。

运营数据可以由运营或 BI 同学通过 SuperSet、Chart BI 进行回收和分析；开发同学则可以通过 Grafana 进行定制化配置。同时，我们将基础数据与自定义数据统一采集，最终在 AIOps 体系中与监控告警打通，形成整体的根因分析能力。

例如，当我们在 JOOX 音乐平台收到告警后，首先通过总结分析发现，某一版本的 APP 在某个城市的特定运营商处出现了大规模失败。进一步由 AI 分析并定位到具体的运营商 IP，从而反推问题是否源于接入点覆盖不足。

如果确实存在覆盖不足，我们会及时完善接入点的布局。在海外场景下，如果问题出在当地运营商本身的网络连接，我们会下沉到当地业务，与运营商协同解决，确保中间通路顺畅，提升用户体验。

同时，对于业务自定义上报的告警，我们也引入了波动幅度算法进行智能分析，并结合 AI 快速判断数据在处理过程中的异常情况。当上报数据中包含关键指标时，还会与基础指标进行关联分析。

例如，在流量、报文量或内存上升时，进一步分析是否导致了 CPU 异常，并追踪到具体进程及其原因，从而形成完整的数据治理闭环。

AIOps 总结与探索

当前，我们已基于 AI 对 SLA 体系进行了全面保障，下一步重点在以下几个方面：

第一，智能问答。通过问答机制提升协作效率，将“人找人”的模式转变为“人找 AI，AI 找人”的模式，实现更高效的衔接；

第二，自动化执行。AI 在分析中能够给出明确结论，我们计划基于这些结论驱动 SDK 自动化操作。针对幻觉问题，我们的思路是为 AI 提供明确结果和充足数据，禁止发散，让其输出针对性结论，再由系统据此执行具体动作；

第三，算法升级。目前的波动幅度算法仅依赖当前数值进行告警判断，未来将结合业务特性进一步优化。例如在音乐场景中，节假日或演唱会直播等活动会引起带宽与业务量的显著增长，需要通过 3-SIGMA 与特征提取算法结合，提升告警的准确性与有效性；

最后，集团战略是一体两翼，从内容线到平台线深度融合。同样，我们在建设 AIOps 体系也采用“一体两翼”的战略：以云原生和智能分析为基础，打造更先进、更智能的体系，让 AI 在其中发挥更高价值。

AI 重塑组织的浪潮已至，Agentic 企业时代正式开启！当 AI 不再是单纯的辅助工具，而是深度融入业务核心、驱动组织形态与运作逻辑全面革新的核心力量。

把握行业变革关键节点，12 月 19 日 - 20 日，AICon 全球人工智能开发与应用大会（北京站）即将重磅启幕！本届大会精准锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。

不再为告警“救火”：AIOps 如何重塑腾讯音乐的智能运维体系

相似文章