Shard: Wie ein Open-Source-Projekt dezentrale KI-Inferenz auf Consumer-GPUs neu definiert
Ein 744-Milliarden-Parameter-Modell mit ~30 Tokens pro Sekunde – nicht im Rechenzentrum, sondern über sechs GPUs in verschiedenen US-Bundesstaaten. Das Open-Source-Projekt Shard beweist: Dezentrale KI-Inferenz funktioniert praktisch.








