Dietro a questo contenuto generato dall'AI, quali dati si nascondono?

tong77 · 2026-05-20T10:14:38.000Z

Quando ero piccola, mia madre cucinava e, se c'era qualcosa che non andava nel sapore, riusciva sempre a capire subito dove fosse il problema: se era troppo olio, se la cottura era andata oltre, o se un certo condimento era sbagliato. Diceva che era un'abilità affinata in decenni ai fornelli; ogni volta che un piatto veniva servito, aveva in mente un percorso chiaro, dal fare la spesa fino alla cottura, con ogni passaggio ben definito. Questa capacità di risalire a ritroso, nel mondo dell'AI, è qualcosa che è sempre mancato. Se chiedi a ChatGPT una domanda, ti dà una risposta, ma non è chiaro da quali dati di addestramento provenga, quali sezioni abbiano contribuito a determinate parole; nessuno può dirlo con certezza, nemmeno OpenAI, che l'ha sviluppato, riesce a spiegarlo. @OpenLedger Ciò che dobbiamo fare è dotare l'output dell'AI di una catena tracciabile a ritroso.

小时候我妈做菜，但凡饭菜里有点不对的味道，她总能立刻说出是哪一步出了问题，是油加多了，是火候过了，还是某一味调料放错了。她说这是几十年灶台前练出来的，每一道菜端上桌之前她脑子里都有完整的一条线，从买菜开始到下锅每个环节都清楚。这种能反向追溯的能力，在AI领域反而是一直缺的。你问ChatGPT一个问题，它给你一段回答，但这段回答到底是从哪些训练数据里来的、哪些段落贡献了哪些字眼，没人能说清楚，包括开发它的OpenAI自己也说不清楚。@OpenLedger 要做的事情，就是给AI的输出装上一条可以反向追溯的链。 
这条溯源链的技术基础叫Proof of Attribution，底层算法用的是Infini-gram，一种基于后缀数组的∞-gram框架。说人话就是，当一个AI模型生成一段输出之后，系统能把这段输出反向拆解到训练数据里的具体token位段上，告诉你"这段回答里第15到22个token主要来自数据集A里的某条记录，第40到50个token主要受数据集B里某段文字影响"。这种token级别的可追溯性，是过去十年AI领域一直在追但没真正做到的事情。 
为什么这件事难。传统n-gram模型在面对动辄上千亿参数、训练数据量级达到PB级别的大模型时，计算成本会爆炸式增长，做不到实时attribution。Infini-gram用后缀数组的方式压缩了存储和查询的开销，根据#OpenLedger 白皮书披露的数据，单次∞-gram概率查询延迟在135毫秒左右，完整分布查询180毫秒，这个速度已经接近可用的工程标准。我自己看完白皮书之后觉得这套算法最聪明的地方是它不需要重新训练模型，而是在推理层做attribution分析，这意味着任何已经训练好的模型理论上都能接入这套系统，扩展性比想象中大。 
溯源链的应用场景比单纯发代币奖励要广得多。最直接的是AI输出可解释性，过去你拿着AI生成的内容去用，万一出问题没人能追溯责任，现在有了溯源链就能精确定位是哪份数据导致了错误输出。版权合规这块也很关键，2026年欧盟AI法案的高风险义务正式生效后，企业必须证明自己用的AI模型训练数据来源合法，$OPEN 这套溯源机制天然就是合规工具。往更深一层看还有数据质量治理，劣质数据上链之后如果反复被识别为低质量输出的来源，可以在Attribution分配里被降权甚至处罚，网络因此有了自我净化的能力，这是中心化AI平台完全做不到的事情。 
Story Protocol跟OpenLedger在1月份合作推出的AI驱动版权自动支付机制，是这套溯源叙事的第一个商业落地案例。两边瞄准的是80万亿美元的IP授权空间，逻辑很直接，IP方把内容上链确权之后被AI拿去训练，每次模型推理时只要识别出输出受了这份IP的影响，就自动支付授权费。这件事如果能落地，等于把过去靠律师函和官司维系的IP保护机制，换成了纯代码自动执行的版本。 
但溯源链叙事面对的现实挑战也不小。技术层面最大的问题是attribution的精确度有上限，Infini-gram能做到token级追溯没错，但模型输出经常是多个数据源融合的结果，分到具体哪个贡献者头上需要按权重分配，权重算法本身就有主观性。一个数据贡献者可能觉得自己应该分到30%，另一个觉得应该是20%，这种分配争议在大规模商用之后必然会出现。 
计算成本和扩展性是另一个绕不开的变量。135毫秒一次的查询延迟在小规模场景下能接受，但当推理量级达到每天百万次甚至千万次时，全网的attribution计算成本会迅速攀升。OpenLedger目前还没披露主网正式启动之后的算力开销数据，这个变量会直接影响整个网络的经济可持续性，如果attribution成本最终高过分发出去的代币奖励价值，那这套机制就不成立。 
采用率是比技术更难解决的问题。溯源链的价值要随着接入的模型和数据集数量增加才会显现，如果只有少数模型用，那它的实际影响很有限。OpenLedger现在最迫切的不是技术问题，是怎么说服更多AI开发者把模型放到这套系统里来，这件事的难度比解决技术问题要大得多，因为它涉及商业利益重新分配，原本把数据来源藏得严严实实的中心化AI公司不会主动配合。 
我觉得溯源链叙事最大的意义不在于技术本身，而在于它把"AI输出从哪里来"这个一直被刻意模糊的问题变成了可验证的事实。过去AI厂商可以含糊其辞地说"我们的训练数据来自公开互联网"，现在有了溯源链就可以问"具体哪条数据，影响了具体哪段输出"。这种透明性一旦形成行业标准，整个AI价值链的分配方式都会被重写。