Prometheus 指标

Kueue 的 Prometheus 指标

Kueue 暴露了 prometheus 指标来监控系统的健康状况和 ClusterQueues 以及 LocalQueues 的状态。

Kueue 健康状态

使用以下指标来监控 kueue 控制器的健康状况:

指标名称 类型 描述 标签
kueue_admission_attempt_duration_seconds 直方图 一次准入尝试的延迟。
标签 ‘result’ 可以有以下值:
- ‘success’ 表示至少有一个工作负载被接纳,
- ‘inadmissible’ 表示没有工作负载被接纳。
result: 可能的值为 successinadmissible
replica_role: 可以为 leaderfollowerstandalone
kueue_admission_attempts_total 计数器 尝试接纳工作负载的总次数。
每次接纳尝试可能尝试接纳多于一个工作负载。
标签 ‘result’ 可以有以下值:
- ‘success’ 表示至少有一个工作负载被接纳,
- ‘inadmissible’ 表示没有工作负载被接纳。
result: 可能的值为 successinadmissible
replica_role: 可以为 leaderfollowerstandalone

ClusterQueue 状态

使用以下指标来监控你的 ClusterQueues 的状态:

指标名称 类型 描述 标签
kueue_admission_checks_wait_time_seconds Histogram 从工作负载获得配额预留到准入的时间,按 ‘cluster_queue’ cluster_queue: ClusterQueue 的名称
priority_class: 优先级类名称
replica_role: leader, followerstandalone 其中之一
kueue_admission_cycle_preemption_skips Gauge 在 ClusterQueue 中由于其他 ClusterQueues 在同一周期需要相同的资源而必须跳过的具有抢占候选资格的工作负载数量 cluster_queue: ClusterQueue 的名称
replica_role: leader, followerstandalone 其中之一
kueue_admission_wait_time_seconds Histogram 工作负载创建或重新排队直到准入的时间,按 ‘cluster_queue’ cluster_queue: ClusterQueue 的名称
priority_class: 优先级类名称
replica_role: leader, followerstandalone 其中之一
kueue_admitted_active_workloads Gauge 按 ‘cluster_queue’ 统计已准入且活动(未挂起且未完成)的工作负载数量 cluster_queue: ClusterQueue 的名称
replica_role: leader, followerstandalone 其中之一
kueue_admitted_workloads_total Counter 每个 ‘cluster_queue’ 已准入的工作负载总数 cluster_queue: ClusterQueue 的名称
priority_class: 优先级类名称
replica_role: leader, followerstandalone 其中之一
kueue_build_info Gauge Kueue 构建信息。1 标记了 git 版本、git 提交、构建日期、go 版本、编译器和平台 git_version: git 版本
git_commit: git 提交
build_date: 构建日期
go_version: go 版本
compiler: 编译器
platform: 平台
kueue_cluster_queue_status Gauge 报告 ‘cluster_queue’ 及其 ‘status’ (可能的值为 ‘pending’, ‘active’ 或 ’terminated’)。
对于一个 ClusterQueue,该指标仅报告其中一个状态的值为 1
cluster_queue: ClusterQueue 的名称
status: pending, activeterminated 其中之一
replica_role: leaderfollowerstandalone 其中之一
kueue_evicted_workloads_once_total Counter 每个 ‘cluster_queue’ 独特工作负载驱逐的数量,
标签 ‘reason’ 可能的值如下:
- “Preempted” 表示为了释放资源给更高优先级的工作负载或回收名义配额而驱逐。
- “PodsReadyTimeout” 表示由于 PodsReady 超时发生驱逐。
- “AdmissionCheck” 表示由于至少一个准入检查变为 False 而驱逐。
- “ClusterQueueStopped” 表示由于 ClusterQueue 停止而驱逐。
- “LocalQueueStopped” 表示由于 LocalQueue 停止而驱逐。
- “NodeFailures” 表示在使用 TopologyAwareScheduling 时由于节点故障而驱逐。
- “Deactivated” 表示由于 spec.active 设置为 false 而驱逐。
标签 ‘detailed_reason’ 可能的值如下:
- "" 表示 ‘reason’ 标签中的值是驱逐的根本原因。
- “WaitForStart” 表示自准入以来 Pod 尚未准备好,或者工作负载尚未被接纳。
- “WaitForRecovery” 表示自工作负载准入以来 Pod 已经准备好,但某些 Pod 发生了故障。
- “AdmissionCheck” 表示由 Kueue 因拒绝准入检查而驱逐。
- “MaximumExecutionTimeExceeded” 表示由 Kueue 因超过最大执行时间而驱逐。
- “RequeuingLimitExceeded” 表示由 Kueue 因超过重新排队限制而驱逐。
cluster_queue: ClusterQueue 的名称
reason: 驱逐或抢占的原因
detailed_reason: 更细粒度的驱逐原因
priority_class: 优先级类名称
replica_role: leader, followerstandalone 其中之一
kueue_evicted_workloads_total Counter 每个 ‘cluster_queue’ 驱逐的工作负载数量,
标签 ‘reason’ 可能的值如下:
- “Preempted” 表示为了释放资源给更高优先级的工作负载或回收名义配额而驱逐。
- “PodsReadyTimeout” 表示由于 PodsReady 超时发生驱逐。
- “AdmissionCheck” 表示由于至少一个准入检查变为 False 而驱逐。
- “ClusterQueueStopped” 表示由于 ClusterQueue 停止而驱逐。
- “LocalQueueStopped” 表示由于 LocalQueue 停止而驱逐。
- “NodeFailures” 表示在使用 TopologyAwareScheduling 时由于节点故障而驱逐。
- “Deactivated” 表示由于 spec.active 设置为 false 而驱逐。
标签 ‘underlying_cause’ 可能的值如下:
- "" 表示 ‘reason’ 标签中的值是驱逐的根本原因。
- “AdmissionCheck” 表示由 Kueue 因拒绝准入检查而驱逐。
- “MaximumExecutionTimeExceeded” 表示由 Kueue 因超过最大执行时间而驱逐。
- “RequeuingLimitExceeded” 表示由 Kueue 因超过重新排队限制而驱逐。
cluster_queue: ClusterQueue 的名称
reason: 驱逐或抢占的原因
underlying_cause: 驱逐的根本原因
priority_class: 优先级类名称
replica_role: leader, followerstandalone 其中之一
kueue_finished_workloads Gauge 每个 ‘cluster_queue’ 完成的工作负载数量 cluster_queue: ClusterQueue 的名称
replica_role: leader, followerstandalone 其中之一
kueue_finished_workloads_total Counter 每个 ‘cluster_queue’ 总共完成的工作负载数量 cluster_queue: ClusterQueue 的名称
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一
kueue_pending_workloads Gauge 每个 ‘cluster_queue’ 和 ‘status’ 的待处理工作负载数量。
‘status’ 可能的值如下:
- “active” 表示工作负载在准入队列中。
- “inadmissible” 表示这些工作负载有一个失败的准入尝试,并且不会重试,直到集群条件发生变化,这可能会使此工作负载变得可接受
cluster_queue: ClusterQueue 的名称
status: 状态标签(随指标变化)
replica_role: leaderfollowerstandalone 其中之一

LocalQueue 状态(Alpha)

只有在启用了 LocalQueueMetrics 特性门控时,以下度量才可用。 详情请参阅安装更改特性门控配置部分。

| 指标名称 | 类型 | 描述 | 标签 | | kueue_local_queue_admission_checks_wait_time_seconds | 直方图 | 从工作负载获得配额预留到准入的时间,按 ’local_queue’ 计 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_admission_wait_time_seconds | 直方图 | 从工作负载创建或重新排队到准入的时间,按 ’local_queue’ 计 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_admitted_active_workloads | 仪表盘 | 每个 ’localQueue’ 处于活动状态(未挂起且未完成)的已准入工作负载数 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_admitted_workloads_total | 计数器 | 每个 ’local_queue’ 已准入的工作负载总数 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_evicted_workloads_total | 计数器 | 每个 ’local_queue’ 驱逐的工作负载数
标签 ‘reason’ 可能有以下值:
- “Preempted” 表示由于为更高优先级的工作负载腾出资源或回收名义配额而驱逐了工作负载。
- “PodsReadyTimeout” 表示由于 PodsReady 超时导致驱逐。
- “AdmissionCheck” 表示由于至少一个准入检查变为 False 导致工作负载被驱逐。
- “ClusterQueueStopped” 表示由于 ClusterQueue 停止而导致工作负载被驱逐。
- “LocalQueueStopped” 表示由于 LocalQueue 停止而导致工作负载被驱逐。
- “NodeFailures” 表示在使用 TopologyAwareScheduling 时,由于节点故障导致工作负载被驱逐。
- “Deactivated” 表示因为 spec.active 设置为 false 而驱逐了工作负载。
标签 ‘underlying_cause’ 可能有以下值:
- "" 表示 ‘reason’ 标签中的值是驱逐的根本原因。
- “AdmissionCheck” 表示 Kueue 因拒绝的准入检查而驱逐了工作负载。
- “MaximumExecutionTimeExceeded” 表示 Kueue 因超过最大执行时间而驱逐了工作负载。
- “RequeuingLimitExceeded” 表示 Kueue 因超过重新排队限制而驱逐了工作负载。 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
reason: 驱逐或抢占原因
underlying_cause: 驱逐的根本原因
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_finished_workloads | 仪表盘 | 每个 ’local_queue’ 完成的工作负载数 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_finished_workloads_total | 计数器 | 每个 ’local_queue’ 完成的工作负载总数 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_pending_workloads | 仪表盘 | 每个 ’local_queue’ 和 ‘status’ 的待处理工作负载数。
‘status’ 可以有以下值:
- “active” 表示工作负载在准入队列中。
- “inadmissible” 表示这些工作负载有一次失败的准入尝试,它们不会重试,直到集群条件发生变化,可能使该工作负载可准入 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
status: 状态标签(随度量变化)
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_quota_reserved_wait_time_seconds | 直方图 | 从工作负载创建或重新排队到它获得配额预留的时间,按 ’local_queue’ 计 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_quota_reserved_workloads_total | 计数器 | 每个 ’local_queue’ 配额预留的工作负载总数 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_reserving_active_workloads | 仪表盘 | 正在预留配额的工作负载数,按 ’localQueue’ 计 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_resource_reservation | 仪表盘 | 报告 localQueue 在所有 flavors 中的总资源预留 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_resource_usage | 仪表盘 | 报告 localQueue 在所有 flavors 中的总资源使用情况 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一 | | kueue_local_queue_status | 仪表盘 | 报告 ’localQueue’ 的 ‘active’ 状态(可能的值为 ‘True’、‘False’ 或 ‘Unknown’)。
对于 LocalQueue,度量仅报告其中一个状态的值为 1 | name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
active: TrueFalseUnknown 其中之一
replica_role: leaderfollowerstandalone 其中之一 |

Cohort 状态

指标名称 类型 描述 标签
kueue_cohort_weighted_share 仪表盘 报告一个值,该值表示在 Cohort 提供的所有资源中,使用量高于名义配额与可借资源比率的最大值除以权重。
如果为零,意味着 Cohort 的使用量低于名义配额。
如果 Cohort 的权重为零且正在借用,这将返回 NaN。
cohort: Cohort 的名称
replica_role: leaderfollowerstandalone 其中之一

可选指标

以下指标仅在管理器配置中启用了 metrics.enableClusterQueueResources 时可用。

指标名称 类型 描述 标签
kueue_cluster_queue_borrowing_limit 仪表盘 报告 cluster_queue 在所有 flavors 中的资源借用限制 cohort: Cohort 的名称
cluster_queue: ClusterQueue 的名称
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一
kueue_cluster_queue_lending_limit 仪表盘 报告 cluster_queue 在所有 flavors 中的资源借出限制 cohort: Cohort 的名称
cluster_queue: ClusterQueue 的名称
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一
kueue_cluster_queue_nominal_quota 仪表盘 报告 cluster_queue 在所有 flavors 中的资源名义配额 cohort: Cohort 的名称
cluster_queue: ClusterQueue 的名称
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一
kueue_cluster_queue_resource_reservation 仪表盘 报告 cluster_queue 在所有 flavors 中的总资源预留 cohort: Cohort 的名称
cluster_queue: ClusterQueue 的名称
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一
kueue_cluster_queue_resource_usage 仪表盘 报告 cluster_queue 在所有 flavors 中的总资源使用量 cohort: Cohort 的名称
cluster_queue: ClusterQueue 的名称
flavor: 资源 flavor 名称
resource: 资源名称
replica_role: leaderfollowerstandalone 其中之一
kueue_cluster_queue_weighted_share 仪表盘 报告一个值,该值表示由 ClusterQueue 提供的所有资源中,使用量高于名义配额与可借资源比率的最大值除以权重。
如果为零,意味着 ClusterQueue 的使用量低于名义配额。
如果 ClusterQueue 的权重为零且正在借用,这将返回 NaN。
cluster_queue: ClusterQueue 的名称
cohort: Cohort 的名称
replica_role: leaderfollowerstandalone 其中之一

以下指标仅在管理器配置中启用了 waitForPodsReady 时可用。 更多详情

指标名称 类型 描述 标签
kueue_admitted_until_ready_wait_time_seconds 直方图 工作负载从被接纳到准备就绪的时间,按 ‘cluster_queue’ 分组 cluster_queue: ClusterQueue 的名称
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一
kueue_local_queue_admitted_until_ready_wait_time_seconds 直方图 工作负载从被接纳到准备就绪的时间,按 ’local_queue’ 分组 name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一
kueue_local_queue_ready_wait_time_seconds 直方图 工作负载从创建或重新排队到准备就绪的时间,按 ’local_queue’ 分组 name: LocalQueue 的名称
namespace: LocalQueue 的命名空间
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一
kueue_ready_wait_time_seconds 直方图 工作负载从创建或重新排队到准备就绪的时间,按 ‘cluster_queue’ 分组 cluster_queue: ClusterQueue 的名称
priority_class: 优先级类名称
replica_role: leaderfollowerstandalone 其中之一