infra

Viktor Barzin 7fe2d9780e Some checks failed ci/woodpecker/push/default Pipeline was canceled Details monitoring: add pfSense WAN/egress alerting + probes On 2026-06-27 pfSense (Proxmox VMID 101) stopped passing internet egress for ~20 min while internal routing + Unbound stayed up; recovery needed a manual reboot and NOTHING alerted — there was no egress probe and the cloudflared replica metric stayed green. Add first-class egress monitoring so the next occurrence pages in ~2 min instead of being noticed by a human. - blackbox-exporter: new icmp_egress + dns_external probe modules (+ NET_RAW so ICMP can use raw sockets). - Three in-cluster probe jobs exercising the pod->node->pfSense-NAT path that failed: wan-gateway-icmp (192.168.1.1), internet-egress-icmp (9.9.9.9 + 1.1.1.1), internet-egress-dns (cloudflare.com via both resolvers). - Prometheus alerts (group "Egress / pfSense"): WANGatewayUnreachable, InternetEgressDown (both providers dead), ExternalDNSResolutionDown, EgressOnlyDivergence (reuses the existing t3-probe legs — the incident's exact "external down while internal up" signature), PfSenseVMDown. - Loki ruler: CloudflaredTunnelConnLoss — the canary that fired first; the cloudflared replica metric is blind to tunnel-connection loss. Threshold calibrated against live Loki (steady-state ~2/6h vs 37-85/5m in-incident). - Alertmanager inhibit: WAN/egress-down suppresses the downstream egress symptom alerts so one root alert pages, not a storm. - Runbook docs/runbooks/pfsense-egress.md + .claude/CLAUDE.md. All metric names + the cloudflared threshold verified against live Prometheus/Loki. Pure GitOps, no pfSense change. Firewall-side hardening (dpinger retargeting, failover gateway, pfSense syslog -> Loki) is deferred and documented in the runbook. Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>		2026-06-28 16:46:30 +00:00
..
apiserver-audit-logging.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
beads-auto-dispatch.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
breakglass-ssh.md	break-glass SSH: drop port-knock for exposed key-only :52222; version host config	2026-06-11 18:23:39 +00:00
breakglass-ui.md	claude-breakglass: in-cluster warm break-glass UI for the devvm	2026-06-12 21:40:17 +00:00
chrome-service-snapshot.md	workstation: per-user playwright browser MCP for all users, reproducible from git	2026-06-16 20:33:47 +00:00
claude-auth-renew-workstation.md	workstation: per-user long-lived Claude token to end concurrent-refresh logout	2026-06-28 08:07:43 +00:00
fan-control.md	fan-control docs: sync runbook/env/service/design to the HA-actuator + anti-flap model	2026-06-16 08:11:48 +00:00
forgejo-open-signups.md	docs(forgejo): runbook reflects Authentik disabled + zero-click GitHub	2026-06-19 17:37:46 +00:00
forgejo-registry-breakglass.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
forgejo-registry-rebuild-image.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
forgejo-registry-setup.md	forgejo pulls: route *.viktorbarzin.me to Technitium, drop /etc/hosts pins [ci skip]	2026-06-10 07:56:31 +00:00
goldmane-flow-trail.md	cli: add `homelab edges` — who-talks-to-whom investigation helper (v0.9.0)	2026-06-28 09:51:41 +00:00
grow-pve-nfs-lv.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
homelab-vault-onboarding.md	vault: distinguish Vaultwarden vs HashiCorp Vault, add `vault kv`	2026-06-28 11:09:33 +00:00
immich-transcode-bitrate.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
job-hunter.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
k8s-node-auto-upgrades.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
k8s-version-upgrade.md	docs: update k8s-version-upgrade runbook for actionable-vs-held gate	2026-06-28 10:09:34 +00:00
kms-public-exposure.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
mailserver-pfsense-haproxy.md	pfsense: SNI-routed internal 443 — mail.viktorbarzin.me serves webmail everywhere	2026-06-10 18:41:07 +00:00
mailserver-proxy-protocol.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
nextcloud-add-archive.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
nfs-prerequisites.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
offboard-user.md	workstation: emo direct master push — allow-then-audit [ci skip]	2026-06-10 14:53:43 +00:00
pfsense-egress.md	monitoring: add pfSense WAN/egress alerting + probes	2026-06-28 16:46:30 +00:00
pfsense-unbound.md	dns: pfSense forward-zone for viktorbarzin.me, nodes fully stock [ci skip]	2026-06-10 08:32:34 +00:00
proxmox-host.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
r730-ram-upgrade-272gb.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
registry-rebuild-image.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
registry-vm.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-etcd.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-full-cluster.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-lvm-snapshot.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-mysql.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-postgresql.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-pvc-from-backup.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-vault.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
restore-vaultwarden.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
scale-k8s-cluster.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
security-incident.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
synology-storage.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
t3-drop-attribution.md	t3: connection logging across the path for drop attribution	2026-06-11 13:48:10 +00:00
t3-version-bump.md	docs: t3-migrate-idle runbook section + service-catalog + design status	2026-06-21 12:40:46 +00:00
technitium-apply.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
vault-raft-leader-deadlock.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
vault-token-renew-devvm.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00
woodpecker-onboard-forgejo-repo.md	fix: restore tree dropped by `6d224861`; land stem95su gdrive-sync (10m) [ci skip]	2026-06-09 08:45:33 +00:00