2023
06-02

提升运维效率与可靠性:发挥Telemetry技术优势

数据中心是企业的核心资产,承载着大量的业务和数据,数据中心的运行状况是否良好极大程度上决定了企业的正常运营和用户体验。因此,通过完善的运维管理来确保业务安全、稳定、正常运行是必不可少的。

 

 

设备、系统、应用的状态监控及日志获取是运维管理的重要一环。

 

传统企业级SSD在运维管理中,进行日志收集依赖于厂商自定义的命令行和工具,不同厂商所用到的命令和工具不尽相同,不仅会有兼容性问题,同时也增加了存储系统的运维成本和难度。

 

针对以上的问题,NVMe协议在1.3版本中新增了Telemetry功能。通过标准的、统一的接口来收集不同厂商SSD的数据和日志,允许数据中心管理员和运维人员能够实时监控SSD设备的各项关键指标和健康状况,从而更好地管理和优化存储系统。

 

 

Telemetry具体实现

 

企业级SSD运行日志数据的收集可由Host端或主控芯片端进行发起。前者是数据中心Host端出现System Crash时或者管理员主动通过命令发起需求来获取SSD的关键信息;后者则是由SSD厂商自定义触发条件,当SSD出现坏块或其他问题主动上传运行日志。

 

通过收集遥测数据来发现问题的一个重要方面是能够对收集到的不同问题进行准确的区分,来建立问题与数据收集之间的一对一映射关系。如果没有建立一对一的映射关系,那么多个数据收集可能表面上看起来是不同的问题,但实际上都是由同一个问题引起的。相反,一个数据收集可能会包含由多个问题引起的数据,这会增加确定根本原因的复杂性。因此,在Telemetry数据的收集过程中,通常采用三个阶段,并且每个阶段所收集的数据量逐步增加以获取更详细的信息。

 

 

第一阶段的Data Area 1通过收集一组最小的数据集来确定问题是否存在,以及该问题和其他问题的区别;

第二阶段的Data Area 2中有针对性地收集更深入的中等规模的有效数据,并进行分析,以确定问题的来源;

第三阶段的Data Area3能够提供最大和最完整的额外有效数据来诊断问题。

通过三段式的日志收集,能够科学、直观且精准地定位问题所在,让运维管理更加高效。

 

Telemetry的功能与常见运用

 

1、温度监测:Telemetry提供了SSD设备的温度信息。通过监测温度,管理员可以及时发现设备是否过热,从而采取适当的措施,如调整散热或增加风扇转速。

 

2、错误率报告: Telemetry提供了关于SSD设备的读取和写入错误率的报告。这使管理员能够检测设备是否出现数据传输错误,并在必要时采取纠正措施,如重新连接设备或更换有问题的存储介质。

 

3、寿命预测:Telemetry可以提供有关SSD设备剩余寿命的信息。通过监测设备使用的写入量和预测寿命,管理员可以及时识别设备是否接近使用寿命的末端,并计划操作更换以避免潜在的数据丢失风险。

 

4、性能统计:Telemetry可以提供有关SSD设备的性能统计信息,包括读取和写入的吞吐量、IOPS(每秒输入/输出操作数)以及响应时间等。这些数据统计可帮助管理员评估设备的工作负载和性能瓶颈,并进行相应地调整和优化。

 

5、预测维护:基于Telemetry的信息提供,管理员可以进行预测性维护。他们可以识别设备中的潜在问题,并在问题发生之前采取措施,如固件升级、磁盘清理或数据迁移等,以减少系统故障的风险。

 

 

宝存科技旗下企业级SSD产品及解决方案已全线支持NVMe规范中的Telemetry功能。通过统一、规范、易操作的日志收集手段提供,运维人员可以全面地了解设备的状态和性能,及时地采取措施来提高运维效率和设备可靠性,提升用户体验满意度,充分发挥信息时代下的数据潜力。