数据可用性监控
观众: 运营、管理、IT团队
1。 概观
本指南阐述了如何在客户现场部署中衡量、报告和管理数据可用性。其目的是提高透明度和可靠性,同时确保问题能够被快速识别和解决,而无需持续的人工监督。
2. 数据可用性原则
预计每台设备都会持续提供数据,并进行评估。 一分钟间隔.
- 1 天 = 预计1,440分钟
- 可用性是衡量的 端至端直至最终存储和报告
- 这确保报告的数据反映真实、可用的信息。
3. 数据可用性状态汇总
| 可用性状态 | 这是什么意思 | 用户影响 |
|---|---|---|
| 好的——准时 | 数据在预期的 5 分钟时间窗口内到达,并已成功处理。 | 实时和历史仪表盘数据完整、准确且最终确定。 无需用户操作。 |
| 好的——延迟 | 数据已成功到达,但由于暂时延迟或缓冲,比预期晚了一些。 | 实时仪表盘可能会显示延迟更新。 历史数据看板将追溯更新,并在处理完成后完整显示。 |
| 延迟 – 设备离线 | 设备因网络或连接中断而暂时离线;数据可能在重新连接后到达。 | 实时仪表盘出现暂时性中断或延迟。 缓冲数据通常在重新连接后恢复,因此历史仪表板通常会恢复完整。 |
| 缺失 – 管道未被接收 | 数据已生成,但尚未被数据摄取管道处理。 | 实时仪表盘显示了事件发生期间的漏洞。 历史仪表盘可能是 部分或全部回填 稍后(客流量可恢复) |
| 电源缺失 | 设备未通电;未生成数据。 | 实时和历史仪表盘显示永久性数据缺口 受影响期间的数据无法恢复。 |
| 缺失 - 计数模块未运行 | 设备已通电,但计数模块未运行,因此没有产生可用数据。 | 实时和历史仪表盘显示永久性数据缺口 受影响期间的数据无法恢复。 |
| 失踪——未知 | 数据缺失,但根本原因尚未确定;需要进一步调查。 | 实时数据和历史数据可能存在差异。 影响和可恢复性是 未确定 直到根本原因分析完成,问题被重新分类为止。 |
4. 可供客户查阅的报告
4.1 单设备可用性(每天)

用于:
- 验证安装稳定性
- 识别孤立设备问题
- 必要时提供技术讨论支持
4.2 系统级可用性(30 天)

用于:
- 评估整体系统健康状况
- 支持管理和 SLA 讨论
- 跟踪长期可靠性趋势
5. 修补和修正(客户所见)
应用修正后:
-
受影响的时间窗口已被记录
-
该操作会自动记录。
-
月度总结反映以下内容:
- 受影响的是什么
- 做了什么
- 最终数据完整性
客户确实 不会 需要管理补丁工作流程。
6. 客户不需要监控什么
以下事项由内部处理 FootfallCam:
- 摄取重试和重新处理
- 管道级恢复
- 内部升级工作流程
- 根本原因诊断
- 补丁执行机制
只公布结果和透明度。
7. 数据可用性状态、责任及服务级别协议
| 可用性状态 | 责任方 | 需要采取的行动 | SLA |
|---|---|---|---|
| 好的——准时 | 无 | 没有行动 | 无 |
| 好的——延迟 | FootfallCam | 重新导入数据,验证其完整性 | ≤12小时 |
| 延迟 – 设备离线 | 客户IT | 检查设备电源、网络和 LED 指示灯状态 | ≤ 1 个工作日 |
| 缺失 – 管道未被接收 | FootfallCam | 重新导入数据,验证其完整性 | ≤12小时 |
| 电源缺失 | 客户IT | 恢复电源,检查设备状态 | ≤ 1 个工作日 |
| 缺失 - 计数模块未运行 | FootfallCam | 对受影响设备进行远程诊断 | ≤12小时 |
| 失踪——未知 | FootfallCam | 调查根本原因 | ≤ 1 个工作日 |