I² 平台是一个部署运行在企业现有 IT 系统环境和运维管理工具之上的颠覆性解决方案。它以数据模型为驱动,对应用系统的全栈 IT 数据重新开展监测和分析,并实现对现有 IT 运维管理工具的兼容支持,为运维和业务人员提供灵活的、动态的、集中的、跨 IT 边界的 IT 服务视图。它通过基线管理、异常检测简化规则和阈值管理,使告警更加精准。它利用人工智能和机器学习技术建立面向分析的 IT 运维管理新模式,通过复杂事件处理、事件关联分析等能力简化 IT 运维管理操作,帮助快速确定故障边界和处理优先级。
平台提供了传统架构及云架构下 IT 系统全栈数据的接入支持。从 IT 基础设施,基础软件,应用,客户端,到业务数据;从指标,事件,日志,拓扑,到工单数据。它通过多种采集方式实现对全量、海量、多样、复杂的 IT 数据的统一接入与管理,帮助运维和业务人员全面了解系统状态。
同时,平台也支持与企业现有 IT 运维管理工具的对接,充分利用和挖掘现有数据和资源。
OneAPM 将多年运维行业经验以数据模型的方式预置在平台之中。通过平台的海量数据实时关联分析能力,快速实现不同维度、不同颗粒度业务服务健康状态的可视化监测。它可以由多个被监测实体、KPI、指标和事件组成。
业务服务可以是一台服务器,一台网络设备,数据库服务,中间件服务,CRM 系统,转账业务,或是运维和业务人员根据监测需求自己配置定义的对象。
平台打破传统 IT 运维管理工具的各自孤立的竖井壁垒,通过预置的数据模型,将多个来自不同维度的 KPI 、指标和事件在一个看板上进行相关性比较分析。并可灵活的根据当前业务服务根因分析的需要,在看板上临时搜索新的 KPI 、指标和事件,为深度关联分析看板增加新的泳道。
这种跨越传统 IT 运维管理工具的数据分析交互方式,将极大的缩短 MTTR 时间,提升故障排查效率。
异常检测的准确度是影响 MTTD 的关键因素之一。
平台运用自研的 Smart-AD 算法,将无监督与有监督机器学习相结合,运用历史数据训练出来的分类模型,并结合人工异常点标注,解决了传统异常检测算法选择和参数调整的难题,通过自动化框架进一步提升了异常检测结果的准确度。
准确的故障告警将极大地缩短 MTTD。
平台通过内置的 CEP(Complex event processing 复杂事件处理)引擎,将多个业务服务中的 KPI 进行图形化自定义关联,来创建新的报警或重要事件,弥补传统告警模式规则单一的不足,从而可以在故障发生前快速捕获潜在问题,并及时通知相关人员介入处理。
数据模型是实现自动业务服务洞察的基础。它是由一系列的指标,实体,接口和依赖关系构建而成,实现业务与不同维度 IT 数据的有机关联。
OneAPM 将多年的行业运维经验凝练成 平台上开箱即用的数据模型,帮助 IT 运维和业务人员快速将数据转化成业务洞察,缩短进行数据关联分析时间。
平台提供了全新的可拖拽式 IT 及业务场景化视图画板,以满足不同人员在不同场景下,实时动态查看不同IT或业务视图的需要。
通过画板中多种预置插件,运维及业务人员可以快速定制大屏或门户页面,灵活的将所有关注的 IT 和业务数据在同一个视图中以不同场景风格进行展示,并能对异常指标进行联动下钻分析。