infra

History

Viktor Barzin 6101fb99f9 Reduce disk write amplification across cluster (~200-350 GB/day savings) [ci skip] - Prometheus: persist metric whitelist (keep rules) to Helm template, preventing regression from 33K to 250K samples/scrape on next apply. Reduce retention 52w→26w. - MySQL InnoDB: aggressive write reduction — flush_log_at_trx_commit=0, sync_binlog=0, doublewrite=OFF, io_capacity=100/200, redo_log=1GB, flush_neighbors=1, reduced page cleaners. - etcd: increase snapshot-count 10000→50000 to reduce WAL snapshot frequency. - VM disks: enable TRIM/discard passthrough to LVM thin pool via create-vm module. - Cloud-init: enable fstrim.timer, journald limits (500M/7d/compress). - Kubelet: containerLogMaxSize=10Mi, containerLogMaxFiles=3. - Technitium: DNS query log retention 0→30 days (was unlimited writes to MySQL). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>		2026-04-09 19:01:21 +00:00
..
dashboards	monitoring + proxmox-csi: LVM snapshot RBAC, pushgateway NodePort, backup dashboard	2026-04-06 11:57:41 +03:00
server-power-cycle	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
alloy.yaml	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
Dockerfile	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
goflow2.tf	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
grafana.tf	remove caretta network mapper to free 3Gi cluster memory	2026-03-29 22:17:35 +03:00
grafana_chart_values.yaml	feat: organize Grafana dashboards into folders	2026-03-28 16:23:49 +02:00
idrac.tf	fix(monitoring): use patched idrac exporter with PSU input voltage metric	2026-03-23 22:07:36 +02:00
k8s-monitoring-values.yaml	cleanup: remove calibre and audiobookshelf stacks after ebooks migration [ci skip]	2026-03-25 23:56:07 +02:00
loki.tf	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
loki.yaml	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
main.tf	monitoring + proxmox-csi: LVM snapshot RBAC, pushgateway NodePort, backup dashboard	2026-04-06 11:57:41 +03:00
prometheus.tf	add pvc-autoresizer for automatic PVC expansion before volumes fill up [ci skip]	2026-04-03 23:30:00 +03:00
prometheus_chart_values.tpl	Reduce disk write amplification across cluster (~200-350 GB/day savings) [ci skip]	2026-04-09 19:01:21 +00:00
prometheus_snmp_chart_values.yaml	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
pve_exporter.tf	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00
snmp_exporter.tf	security(monitoring): remove public SNMP exporter ingress	2026-04-06 15:23:56 +03:00
ups_snmp_values.yaml	extract monitoring, nvidia, mailserver, cloudflared, kyverno from platform [ci skip]	2026-03-17 21:34:11 +00:00