跳到主要内容

数据可用性监控

观众: 运营、管理、IT团队

1。 概观

本指南阐述了如何在客户现场部署中衡量、报告和管理数据可用性。其目的是提高透明度和可靠性,同时确保问题能够被快速识别和解决,而无需持续的人工监督。

2. 数据可用性原则

预计每台设备都会持续提供数据,并进行评估。 一分钟间隔.

  • 1 天 = 预计1,440分钟
  • 可用性是衡量的 端至端直至最终存储和报告
  • 这确保报告的数据反映真实、可用的信息。

3. 数据可用性状态汇总

可用性状态这是什么意思用户影响
好的——准时数据在预期的 5 分钟时间窗口内到达,并已成功处理。实时和历史仪表盘数据完整、准确且最终确定。 无需用户操作。
好的——延迟数据已成功到达,但由于暂时延迟或缓冲,比预期晚了一些。实时仪表盘可能会显示延迟更新。 历史数据看板将追溯更新,并在处理完成后完整显示。
延迟 – 设备离线设备因网络或连接中断而暂时离线;数据可能在重新连接后到达。实时仪表盘出现暂时性中断或延迟。 缓冲数据通常在重新连接后恢复,因此历史仪表板通常会恢复完整。
缺失 – 管道未被接收数据已生成,但尚未被数据摄取管道处理。实时仪表盘显示了事件发生期间的漏洞。 历史仪表盘可能是 部分或全部回填 稍后(客流量可恢复)
电源缺失设备未通电;未生成数据。实时和历史仪表盘显示永久性数据缺口 受影响期间的数据无法恢复。
缺失 - 计数模块未运行设备已通电,但计数模块未运行,因此没有产生可用数据。实时和历史仪表盘显示永久性数据缺口 受影响期间的数据无法恢复。
失踪——未知数据缺失,但根本原因尚未确定;需要进一步调查。实时数据和历史数据可能存在差异。 影响和可恢复性是 未确定 直到根本原因分析完成,问题被重新分类为止。

4. 可供客户查阅的报告

4.1 单设备可用性(每天)

用于:

  • 验证安装稳定性
  • 识别孤立设备问题
  • 必要时提供技术讨论支持

4.2 系统级可用性(30 天)

用于:

  • 评估整体系统健康状况
  • 支持管理和 SLA 讨论
  • 跟踪长期可靠性趋势

5. 修补和修正(客户所见)

应用修正后:

  • 受影响的时间窗口已被记录

  • 该操作会自动记录。

  • 月度总结反映以下内容:

    • 受影响的是什么
    • 做了什么
    • 最终数据完整性

客户确实 不会 需要管理补丁工作流程。

6. 客户不需要监控什么

以下事项由内部处理 FootfallCam:

  • 摄取重试和重新处理
  • 管道级恢复
  • 内部升级工作流程
  • 根本原因诊断
  • 补丁执行机制

只公布结果和透明度。

7. 数据可用性状态、责任及服务级别协议

可用性状态责任方需要采取的行动SLA
好的——准时没有行动
好的——延迟FootfallCam重新导入数据,验证其完整性≤12小时
延迟 – 设备离线客户IT检查设备电源、网络和 LED 指示灯状态≤ 1 个工作日
缺失 – 管道未被接收FootfallCam重新导入数据,验证其完整性≤12小时
电源缺失客户IT恢复电源,检查设备状态≤ 1 个工作日
缺失 - 计数模块未运行FootfallCam对受影响设备进行远程诊断≤12小时
失踪——未知FootfallCam调查根本原因≤ 1 个工作日