Ogni giorno, le parole che scrivo, i cerchi che traccio e i like che metto sul telefono vengono silenziosamente raccolti da qualche grande modello. Queste cose hanno alimentato ChatGPT, hanno nutrito Claude e quelle aziende di AI con una capitalizzazione di mercato di migliaia di miliardi di dollari. Ma io non ho ricevuto nulla. Non parliamo nemmeno di dividendi, non ho mai sentito neanche un grazie.

Qualche giorno fa, un amico che lavora nel settore degli algoritmi mi ha detto una cosa: voi nel settore AI siete chiamati "data miner", i dati che estraete valgono molto di più di quelli dei miner di Bitcoin. La differenza è che loro hanno almeno un POW, voi non riuscite nemmeno ad avere una ricevuta.

Dopo ho visto sui social che Polychain ha investito in un progetto chiamato #OpenLedger e ho deciso di dare un'occhiata al white paper. Alla prima lettura, mi sembrava solo un concetto interessante, ma alla terza lettura ero lì a fissare lo schermo — ma non è che ha scritto in codice quel problema che stavo pensando da tanto tempo?

#OpenLedger Il meccanismo centrale di questo sistema è chiamato prova di attribuzione. Il nome è accademico, ma la logica non è complessa: ogni dato che contribuisci genera un'impronta hash sulla blockchain. Quando un modello AI chiama questo dato, il record della chiamata è legato all'impronta on-chain, e il contratto intelligente esegue automaticamente la divisione dei profitti. Non è necessaria l'approvazione della piattaforma, non è necessaria la riconciliazione manuale, il codice è il regolamento. Questo è come se ogni dato avesse una fattura on-chain, chi l'ha usato, quante volte, e quanto spetta, tutto è scritto nel libro mastro.

Ma ciò che merita di essere analizzato è l'algoritmo di pesatura di attribuzione di questo meccanismo. Ogni volta che l'AI genera un output tramite inferenza, il sistema estrae la finestra di token dal processo di inferenza, usa il matching N-gram per scansionare i blocchi di dati e confrontarli con i dati in Datanets. I risultati del matching portano con sé parametri di confidenza, lunghezza dell'intervallo e frequenza, per calcolare infine il peso specifico di ciascun dato per questo output. Se un'immagine medica influisce sulla diagnosi medica, il peso sarà alto. Se quello caricato è un'etichetta gonfiata, la chiamata sarà zero e le macchie sulla blockchain saranno permanenti. Il contratto intelligente gestisce automaticamente la divisione dei profitti con questo peso, fornendo dati, ottimizzando i modelli e verificando i nodi in base al contributo diviso di OPEN.

Il team ufficiale ha dichiarato in un'intervista che questa tecnologia è stata ispirata dal paper DATAINF pubblicato dal professor James Zou di Stanford, che spiega in dettaglio l'impatto del dato sui risultati dei modelli AI e OpenLedger ha trasferito questa teoria accademica sulla blockchain.

Ma questo algoritmo ha una domanda alla quale il white paper non ha dato una risposta chiara: il limite di accuratezza. Quando un'immagine AI ha correlazioni di vario grado con migliaia di immagini nel dataset di addestramento, l'accuratezza della suddivisione dell'attribuzione sarà messa alla prova. L'attuale soluzione è una combinazione di batch processing, prove off-chain e registri a rotolamento per ottimizzare, ma non sono stati pubblicati gli intervalli di errore sotto stress test su larga scala. Se l'accuratezza della suddivisione inizia a degradare a un certo livello di chiamata, le basi di questo meccanismo di incentivazione - chi contribuisce di più guadagna di più - si deterioreranno da una formula precisa a un valore approssimato. Non ci sono dati su quando l'approssimazione diventa ingiusta.

Il modello economico del token si sta orientando in questa direzione. La fornitura totale di OPEN è di 1 miliardo di token, di cui il 61,7% va alla comunità e all'ecosistema, con un periodo di sblocco di quattro anni. I dettagli chiave si trovano nella sezione 7.3 del white paper: la velocità di rilascio delle ricompense per la comunità è legata al numero di chiamate attribuite nella rete. Se il numero di chiamate è basso, il rilascio è lento. Se il numero di chiamate è alto, il rilascio è veloce. L'inflazione non è una emissione fissa, ma è guidata dalla domanda reale. Ma un altro dettaglio è altrettanto cruciale: qual è il limite inferiore della lentezza del rilascio? Se il numero di chiamate rimane a lungo basso o addirittura zero, il rilascio può realmente fermarsi o è solo una questione di rallentamento ma continuerà inevitabilmente a scorrere? Se il rilascio può arrivare a zero, allora abbiamo una vera diluizione. Se è solo rallentato, prima o poi il pool sarà comunque riempito.

HuggingFace è pieno di modelli open source, ma il 99% dei contributori dei dataset non guadagna un centesimo. La differenza non è nella tecnologia, ma nella mancanza di una layer di regolamento. OpenLedger inserisce un layer di profit sharing automatico on-chain tra le chiamate ai modelli e i contributi dei dati; l'autorizzazione dei dataset non è una vendita unica, ma un profit sharing continuo, la proprietà dei dati viene coniata come asset on-chain trasferibili e distruttibili, ogni chiamata al modello può essere tracciata retroattivamente fino al blocco di contributo specifico. Non si tratta di un'aggiunta di funzionalità, ma di un trasferimento di diritti di distribuzione.

Ma @OpenLedger questo sistema non è ancora partito su larga scala. La testnet ha una media giornaliera di circa 5000 chiamate di attribuzione, con un'entrata giornaliera di commissioni di 200 dollari, rispetto a quasi 10 milioni di token sbloccati al mese, la profondità degli acquisti è lontana dall'essere sufficiente. Per far girare il volano economico, è necessario risolvere simultaneamente tre problemi: fornitura di dati di alta qualità, vera domanda di modelli e supporto al valore del token; se non si fa bene uno di questi anelli, si può rimanere bloccati a metà strada. Nella catena di approvvigionamento dell'AI attuale, chi sviluppa i modelli prende gran parte del potere decisionale, mentre i fornitori di dati spesso affogano ai margini di valutazione. Una volta che il meccanismo di prova di attribuzione sarà adottato su larga scala, le tradizionali agenzie di intermediazione dati saranno rapidamente indebolite, e un ecosistema di base in cui i contribuenti globali possono guadagnare con i propri dati personali sarà direttamente stabilito come collegamento di fornitura.

La prova di attribuzione ha scritto sulla blockchain un motto che si sente da oltre dieci anni - i contributori di dati dovrebbero essere pagati. Ma tra il codice che funziona e l'economia che funziona, ci sono ancora tre risposte chiare da definire: il limite di scala dell'accuratezza di attribuzione, i parametri del limite inferiore del rilascio rallentato e la reale scala della domanda. Prima di riempire queste tre risposte, è un buon meccanismo. Dopo averle riempite, diventa un buon affare.

@OpenLedger $OPEN