Viele Menschen, die heute mit KI-Agenten arbeiten, stossen irgendwann auf dieselbe Frage:  Wie kann mein Agent Informationen aus dem Web holen, ohne dass ich gleich ein halbes IT-Projekt starten muss? Gerade für Vibe Coder, No-Code-Builder, kleine Agenturen und Startups klingt das zunächst einfach. Ein Agent soll eine Website öffnen, Inhalte lesen, Preise vergleichen oder Änderungen erkennen. In der Theorie ist das ein kleiner Schritt. In der Praxis wird daraus schnell etwas viel Grösseres.

Plötzlich geht es nicht mehr nur um Inhalte, sondern um Browser-Automation, Speicherlimits, abgelaufene Logins, blockierte Zugriffe und Server, die überwacht werden wollen. Das ist der Moment, an dem viele merken: Ich wollte einen Agenten bauen, aber jetzt betreibe ich Infrastruktur.

Dieser Beitrag zeigt, wie man genau das vermeidet und stattdessen eine Struktur aufbaut, die funktioniert, bezahlbar bleibt und nicht jede Woche Wartung frisst.

Der eigentliche Fehler: zu früh zu kompliziert

Die meisten Probleme beim Webscraping entstehen nicht beim Lesen der Daten, sondern beim Betrieb der Technik drumherum. Einfache Webseiten auszulesen ist unkompliziert. Schwierig wird es erst, wenn eine Seite stark auf JavaScript setzt, einen Login verlangt oder aktiv versucht, automatische Zugriffe zu blockieren. Dann braucht man einen echten Browser im Hintergrund, der wie ein Mensch klickt, wartet und scrollt.
Gemeint ist hier nicht der Browser, mit dem du selbst surfst, sondern ein automatisierter Browser im Hintergrund, ein sogenannter Headless-Browser. Das ist ein echter Chromium (die Technik hinter Chrome) ohne sichtbares Fenster, der von einem Programm ferngesteuert wird. Werkzeuge wie Puppeteer oder Playwright geben ihm die Befehle: Seite öffnen, warten, klicken, Feld ausfüllen, Inhalt auslesen. Der Agent macht im Hintergrund also genau das, was ein Mensch mit Maus und Tastatur täte. Nötig ist das nur, wenn der Inhalt nicht einfach im Seitentext steht, sondern erst durch Login, Klicks oder nachgeladenes JavaScript entsteht.

Und genau hier beginnt die Falle. Ein solcher Browser muss betrieben, überwacht und gewartet werden. Sessions brechen ab, Speicher läuft voll, Zugänge laufen aus und Fehler treten meist dann auf, wenn niemand hinschaut. Der Agent selbst ist oft schnell gebaut. Die Infrastruktur drumherum kostet Zeit, Knowhow und Debugging Skills sind notwendig und genau darum ist er die aufwendigste Variante.

Der häufigste Denkfehler lautet deshalb: Viele starten sofort mit der schwersten Lösung, obwohl sie sie gar nicht brauchen.

Die bessere Denkweise: vom Einfachen zum Komplexen

Statt sofort einen Browser zu automatisieren, lohnt sich eine einfache Reihenfolge. Man arbeitet sich von der günstigsten und stabilsten Variante schrittweise nach oben und hört auf, sobald es funktioniert.

1. Gibt es die Daten schon fertig? Viele Websites bieten ihre Inhalte direkt an: über Schnittstellen, RSS-Feeds für News oder strukturierte Produktdaten. Das ist die beste Variante, stabil, günstig und rechtlich am saubersten. Der Agent muss die Website gar nicht erst «bedienen».

2. Reicht ein Dienst, der die Seite einfach lesbar macht? Wenn es keine fertige Schnittstelle gibt, helfen spezialisierte Dienste, die eine Website abrufen und in sauberen Text umwandeln, den ein KI-Agent direkt verarbeiten kann. Man schickt eine Adresse hin und bekommt verwertbaren Inhalt zurück, ohne eigenen Browser. Für Blogartikel, Produktseiten, Wettbewerbsbeobachtung oder Content-Monitoring ist das in den allermeisten Fällen völlig ausreichend.

3. Braucht es wirklich einen echten Browser? Nur wenn eine Seite einen Login erfordert, ein Dashboard hat oder erst nach Klicks Daten zeigt, wird ein echter Browser nötig. Auch dann muss man ihn nicht selbst betreiben: Es gibt gehostete Dienste, die diese aufwendige Infrastruktur übernehmen. Das wirkt auf dem Papier teurer, spart aber meist deutlich mehr Arbeitszeit, als es kostet.

4. Alles selbst hosten? Die eigene Browser-Infrastruktur ist die anspruchsvollste Variante. Sie lohnt sich erst bei sehr hohen Mengen und mit echtem technischem Know-how im Team, nicht als Einstieg.

Der entscheidende Punkt: Die meisten Anwendungsfälle enden bereits bei Stufe 1 oder 2. Der Browser ist die Ausnahme, nicht die Regel.

Der rote Faden: Aufwand und Kosten ehrlich abwägen

Die wichtigste Entscheidung beim Aufbau eines Agenten ist nicht technisch, sondern wirtschaftlich: Was kostet mich eine Lösung wirklich und das nicht nur in Franken, sondern in Zeit?

Eine kostenlose oder selbst gebaute Lösung wirkt günstig. Doch wenn sie jede Woche Wartung, Fehlersuche und Überwachung verlangt, ist sie am Ende oft die teuerste. Umgekehrt kann ein bezahlter Dienst, der zuverlässig läuft, die mit Abstand wirtschaftlichste Wahl sein  weil er Arbeitszeit spart, die man sonst ins Debuggen steckt.

Ein gutes Verhältnis zwischen kostenlosen und bezahlten Leistungen aufzubauen heisst deshalb:

Eine kleine, aber wirkungsvolle Massnahme dabei ist Caching: Der Agent speichert, was er einmal gelesen hat, und ruft es nicht jedes Mal neu ab. Für die meisten Fälle reicht eine Aktualisierung alle paar Stunden oder einmal täglich völlig aus. Das senkt Kosten, Last und Fehleranfälligkeit auf einen Schlag.

Saubere Infrastruktur: Damit der Agent verlässlich arbeitet

Ein Agent ist nur so gut wie die Umgebung, in der er sich bewegt. Eine saubere Struktur bedeutet nicht «möglichst viel Technik», sondern das Gegenteil: möglichst wenig, dafür verlässlich.

Dazu gehören ein paar Grundregeln, die unabhängig von einzelnen Werkzeugen gelten:

Genauso wichtig sind Datenschutz und Sicherheit, gerade in der Schweiz und der EU, wo sowohl das revidierte Datenschutzgesetz (DSG) als auch die DSGVO greifen können. Ein paar Grundsätze sollte jeder beherzigen, der einen Agenten Daten sammeln lässt:

Diese Punkte sind keine Rechtsberatung, sondern gesunder Menschenverstand mit rechtlichem Rückhalt. Bei grösseren oder heiklen Vorhaben lohnt sich der Gang zur juristischen Fachperson.

Eine einfache Faustregel

Wenn dein Agent nur lesen soll, brauchst du fast nie einen Browser. Wenn er sich einloggen oder durch ein Dashboard klicken muss, brauchst du wahrscheinlich einen aber lass ihn von einem Dienst betreiben. Und wenn dein Team keine Lust auf Server, Wartung und nächtliche Fehlersuche hat, hostet ihr besser gar nichts selbst.

Webscraping für Agenten muss nicht kompliziert sein. Kompliziert wird es vor allem dann, wenn man zu früh die schwerste Lösung wählt, um vermeintlich Kosten zu sparen. Aber genau dieser Ansatz kann zur Kostenexplosion werden, meistens durch enormen Zeiteinsatz, fehlendem Knowhow und einer fragilen Lernkurve.

Der bessere Weg ist eine bewusste Entscheidung: erst prüfen, ob die Daten schon fertig vorliegen. Dann einen einfachen Dienst nutzen, der die Seite lesbar macht. Einen echten Browser nur dort einsetzen, wo es wirklich nötig ist. Und bei allem ehrlich abwägen, was eine Lösung an Geld und an Zeit kostet.

Am Ende gewinnt nicht der technisch eindrucksvollste Aufbau, sondern der, der stabil läuft, verständlich bleibt und den Agenten in einer sauberen Umgebung arbeiten lässt.

Oder einfacher gesagt: Der beste Scraper ist oft der, der gar keinen Browser braucht.

Häufig gestellte Fragen

Für die einfachen Stufen kaum. Wer mit No-Code- oder Vibe-Coding-Werkzeugen arbeitet, kommt mit fertigen Schnittstellen und Lese-Diensten erstaunlich weit. Tieferes Wissen wird erst nötig, wenn man echte Browser selbst betreibt. Genau das sollte man so lange wie möglich vermeiden.

Öffentlich zugängliche Inhalte zu lesen ist meist unproblematisch. Heikel wird es bei personenbezogenen Daten, beim Missachten der Nutzungsbedingungen einer Website oder beim Ignorieren der robots.txt. Wer rücksichtsvoll abfragt, transparent bleibt und Personendaten meidet, ist auf der sicheren Seite. Bei grösseren Vorhaben lohnt sich juristische Beratung.

Das hängt vom Weg ab. Offene Schnittstellen und Gratis-Kontingente kosten oft nichts. Bezahlte Dienste beginnen meist im niedrigen zweistelligen Bereich pro Monat. Der grösste Kostenfaktor ist aber selten der Dienst selbst, sondern die eigene Zeit — deshalb ist die günstigste Lösung nicht immer die billigste.

Sobald eine kostenlose Lösung regelmässig Wartung, Fehlersuche oder Überwachung verlangt. Wenn du jede Woche Zeit ins Reparieren steckst, ist ein zuverlässiger bezahlter Dienst fast immer die wirtschaftlichere Wahl.

So selten wie möglich. Für die meisten Fälle reicht eine Aktualisierung alle paar Stunden oder einmal täglich. Mit Caching, also dem Zwischenspeichern bereits gelesener Inhalte, sparst du Kosten, Last und Fehler.

Dann ist das oft ein Signal, innezuhalten. Prüfe zuerst, ob es eine offizielle Schnittstelle oder eine erlaubte Alternative gibt. Technische Blockaden zu umgehen ist aufwendig, fehleranfällig und rechtlich heikel — und selten den Aufwand wert.