SL
Skeptik Log
reddit

La Crawl Army: strumenti open source per dare la memoria agli agenti AI

Autore: u/steipete Originale ↗
Nota: Le parti evidenziate in blu sono integrazioni di ricerca aggiunte per completezza, non presenti nel thread originale.

La Crawl Army risolve il problema più grosso degli agenti AI: l’amnesia. Sette CLI open source che copiano la tua cronologia Discord, Slack, WhatsApp, Notion, Twitter e Google in database SQLite locali, rendendola ricercabile e leggibile per gli agenti, senza cloud.

Fonte: Reddit r/myclaw, GitHub (steipete, vincentkoc, krausefx)

Dove andiamo

Se hai mai usato un agente AI e ti sei ritrovato a ripetere le stesse cose a ogni sessione, sai il problema: zero memoria. La Crawl Army prende i dati che hai già, chiusi nei giardini recintati di Discord, Slack, WhatsApp e compagnia, e li rende accessibili localmente. In questo articolo vediamo cosa fa ogni strumento, chi lo ha costruito e perché questo approccio local-first cambia le regole del gioco per la memoria degli agenti.

Il racconto

Sette CLI per abbattere sette muri

Il post su r/myclaw condivide sette strumenti costruiti da contributori principali di OpenClaw. La filosofia è semplice: i tuoi dati vivono dentro piattaforme chiuse e gli agenti AI non possono raggiungerli. Ogni strumento abbatte uno di quei muri, copiando i dati in un archivio SQLite locale, offline e con ricerca full-text integrata.

Il nome “crawl army” è azzeccato: ogni strumento è un soldato specializzato e insieme formano un’unità coordinata. Condividono un’architettura comune (CLI in Go + SQLite + FTS5), un’interfaccia coerente (comandi sync, search, status, doctor) e un obiettivo: rendere la tua cronologia digitale leggibile per gli agenti, senza caricare nulla nel cloud.

Gli strumenti, uno per uno

  • discrawl [steipete] - Cronologia Discord in SQLite. Sincronizza canali, thread, membri e messaggi tramite la API bot. Ha una modalità wiretap che legge la cache locale del Desktop Discord: recupera DM e conversazioni senza token utente. Supporta pubblicazione di archivi su Git per condividere la memoria organizzativa senza distribuire credenziali.

  • slacrawl [Vincent Koc] - Workspace Slack in SQLite con FTS5. Tre modalità: sincronizzazione via API, Socket Mode per tracciamento live, e ingestione della cache desktop in stile wiretap. Backfill delle risposte nei thread e sincronizzazione DM con token utente. Snapshot su Git per accesso lettura a livello di organizzazione.

  • wacrawl [steipete] - Archeologia WhatsApp. Legge i database SQLite locali di WhatsApp Desktop su macOS, li copia in uno snapshot temporaneo e importa i dati delle chat. Solo lettura: non invia messaggi, non decritta backup, non tocca la rete. Comandi come wacrawl search "note di rilascio" e output --json per l’integrazione con gli agenti.

  • notcrawl [Vincent Koc] - Workspace Notion in SQLite e Markdown normalizzato. Due percorsi: cache desktop locale e API ufficiale Notion. Output duale: SQLite per le macchine, Markdown per umani e agenti. Supporta metadati dei database, esportazione CSV/TSV e snapshot JSONL compressi per la condivisione su Git.

  • beeper-cli [Felix Krause] - Cronologia Beeper. Legge il database SQLite locale (che include già un indice FTS5). Ricerca full-text con operatori di prossimità (es. party NEAR/5 christmas). Output JSON per gli agenti e risoluzione integrata dei nomi DM tramite i database bridge delle piattaforme.

  • birdclaw [steipete] - Il crawler più ambizioso. Non solo importazione di archivi Twitter/X: letture live in cache, una UI web per la triage, flussi di risposta e ricerca FTS5 su tweet e DM. Include inbox con ranking AI per le menzioni, un hook di scoring OpenAI per filtrare il rumore, gestione blocco/silenziamento e backup di testo compatibili con Git. Supporta persino pubblicazione di tweet e risposte ai DM.

  • gog [steipete] - La CLI più estesa. Copre l’intero ecosistema Google: Gmail, Calendar, Drive, Docs, Sheets, Slides, Contacts, Tasks, Forms, Chat, Classroom e Keep. Ricerca, invio, upload, download, conversione (incluso Markdown in Google Doc), gestione label, delega e backup crittografati con age. Se la tua vita digitale gira su Google, gog rende tutto interrogabile da terminale.

Chi sono i costruttori

Peter Steinberger (steipete) è la forza trainante della crawl army. Fondatore di PSPDFKit (acquisita da Stripe nel 2023), un SDK iOS/PDF usato da Disney, IBM e SAP. Dopo PSPDFKit è diventato il “Clawdfather” di OpenClaw e a febbraio 2026 ha annunciato il suo ingresso in OpenAI. Oltre 48K follower su GitHub, vive tra Vienna e Londra.

Vincent Koc è AI Research Engineer presso Comet ML, maintainer di OpenClaw e docente al MIT. Il suo percorso passa per Qantas, Airbyte e Microsoft. L’esperienza in pipeline di dati e integrazioni si riflette nella design pulita di slacrawl e notcrawl.

Felix Krause (KrauseFx) è il creatore di fastlane, lo strumento di automazione per deploy iOS e Android usato da centinaia di migliaia di sviluppatori (ora mantenuto da Google). Fondatore di ContextSDK, vive a Vienna. Il suo beeper-cli porta la stessa filosofia developer-first di fastlane: zero configurazione, solo lettura e immediatamente utile.

Perché cambia le cose

La crawl army affronta una limitazione fondamentale degli agenti AI: sono amnesici. Ogni sessione parte da zero. Non ricordano cosa hai discusso su Slack la settimana scorsa, quali decisioni sono state prese su Discord o cosa dice Notion sulla roadmap.

Questo fa parte di una tendenza più ampia. Strumenti come ContextMesh e MemoAIr stanno costruendo layer di memoria persistente. Progetti come Claw Recall stanno creando archivi di conversazione ricercabili. Ma la crawl army prende un approccio diverso e più pragmatico: invece di creare nuovi sistemi di memoria, rende accessibili i dati che hai già. La tua cronologia Discord, i messaggi Slack, le chat WhatsApp, i documenti Notion, i bookmark Twitter e i dati Google esistono già. La crawl army li rende leggibili per gli agenti.

L’insight chiave è local-first. Tutti i dati restano sulla tua macchina in SQLite. Nessun upload nel cloud, nessun servizio di terze parti, nessuna chiave API in giro. Possiedi il tuo archivio. La condivisione via Git permette ai team di distribuire snapshot in sola lettura senza esporre credenziali. È un modello di fiducia diverso da “carica tutto su un servizio AI”.

Casi d’uso concreti

  • Onboarding accelerato: Un nuovo sviluppatore entra nel team. Invece di passare una settimana a leggere Slack e Notion, il tuo agente AI ha già indicizzato tutto tramite slacrawl e notcrawl. Chiedi “qual è stata la decisione sul redesign della API?” e ottieni una risposta con fonti.

  • Compliance cross-piattaforma: La tua azienda deve trovare ogni menzione di un cliente in anni di conversazioni su Discord, Slack e WhatsApp. Esegui discrawl search, slacrawl search e wacrawl search, poi incrocia i risultati.

  • CRM personale: Con gog, il tuo agente cerca l’intera cronologia Gmail, Calendar e Contatti. “Quando ho scritto l’ultima volta a Sarah di Acme Corp?” diventa una query SQL. L’agente ha il contesto per bozzare follow-up e preparare meeting.

  • Triage di Twitter: Ti svegli con 200 menzioni. La inbox con ranking AI di birdclaw filtra il rumore e mostra prima le interazioni ad alto segnale. L’agente può bozzare risposte basate sul tuo stile di comunicazione, pescato dall’archivio.

  • Ricerca cross-piattaforma: Ricordi vagamente di aver discusso un’idea di feature su Discord, Slack e una pagina Notion, ma non ricordi dove. Con il pattern coerente SQLite + FTS5, cerchi tutti e tre gli archivi contemporaneamente e ricostruisci il contesto completo.

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

Architettura comune

Ogni strumento della crawl army condivide lo stesso stack:

Componente Scelta Perché
Linguaggio Go Binari statici, cross-compilazione semplice
Database SQLite Zero configurazione, ovunque, single-file
Ricerca FTS5 Full-text integrata in SQLite, operatori di prossimità
Interfaccia CLI Comandi sync, search, status, doctor
Condivisione Git Snapshot in sola lettura, senza credenziali

Il pattern è sempre lo stesso: sincronizzi una volta, hai un archivio locale interrogabile. Le ricerche sono istantanee perché FTS5 indicizza tutto in un file SQLite. E l’output JSON rende ogni strumento immediatamente consumabile da un agente AI.

Il punto

Punti chiave:

  • La Crawl Army rende i tuoi dati chiusi (Discord, Slack, WhatsApp, Notion, Twitter, Google) leggibili per gli agenti AI, localmente e offline
  • L’approccio è local-first: tutto in SQLite sulla tua macchina, nessun cloud, nessuna API di terze parti
  • Ogni strumento è piccolo, focalizzato e componibile, ma insieme coprono l’intero ecosistema digitale

La memoria degli agenti non serve costruendo nuovi sistemi. Serve rendendo accessibili i dati che hai già. La crawl army lo fa un’app alla volta, un database SQLite alla volta.

Fonti

reddit Autore: u/steipete Subreddit: r/myclaw