fix cluster health: resolve 21/23 failures from healthcheck

- nvidia: change GPU taint NoSchedule -> PreferNoSchedule to allow overflow scheduling on k8s-node1 (frees ~7Gi capacity) - kyverno: increase reports-controller memory 256Mi -> 512Mi (OOMKilled) - speedtest: add missing DB_PORT=3306 env var (nc: service "" unknown) - realestate-crawler: increase API memory 64Mi -> 256Mi (OOMKilled) - calibre: increase liveness probe timeout 1s -> 5s (false restarts)
2026-03-15 02:33:46 +00:00 · 2026-03-15 02:33:46 +00:00 · 6f2f4c089c
commit 6f2f4c089c
parent dc576aa8b6
5 changed files with 10 additions and 5 deletions
--- a/stacks/platform/modules/kyverno/main.tf
+++ b/stacks/platform/modules/kyverno/main.tf
@ -30,11 +30,11 @@ resource "helm_release" "kyverno" {
    reportsController = {
      resources = {
        limits = {
-          memory = "256Mi"
+          memory = "512Mi"
        }
        requests = {
          cpu    = "100m"
-          memory = "128Mi"
+          memory = "384Mi"
        }
      }
    }
--- a/stacks/platform/modules/nvidia/main.tf
+++ b/stacks/platform/modules/nvidia/main.tf
@ -37,7 +37,7 @@ resource "kubernetes_resource_quota" "nvidia_quota" {
 resource "null_resource" "gpu_node_config" {
  provisioner "local-exec" {
    command = <<-EOT
-      kubectl taint nodes k8s-node1 nvidia.com/gpu=true:NoSchedule --overwrite
+      kubectl taint nodes k8s-node1 nvidia.com/gpu=true:PreferNoSchedule --overwrite
      kubectl label nodes k8s-node1 gpu=true --overwrite
    EOT
  }