Per valutare se i risultati dell'allenamento siano buoni, prima di tutto bisogna vedere se possono essere replicati.

TROkik · 2026-05-28T13:47:28.000Z

I fornitori di modelli adorano mostrare risultati eccezionali, mentre le aziende temono di non poter replicare quei risultati. Un modello di controllo qualità per il servizio clienti ha un'accuratezza del 89% in demo, ma scende al 74% durante il pilot. Il fornitore spiega che l'ambiente è diverso, i dati sono diversi, il seme casuale è diverso. Tutto suona ragionevole, ma il problema è come sono stati suddivisi, ponderati e valutati durante l'allenamento; l'acquirente non vede niente di tutto ciò. Il problema che TrainingRunReceipts deve risolvere è quello della riproducibilità. L'allenamento non consiste solo nel fornire un punteggio finale, ma deve lasciare traccia del training set, validation set, test set, registrazioni di campioni ponderati, seme casuale, tempo di allenamento, versione del modello e script di valutazione. Senza queste ricevute, la cosiddetta accuratezza è solo una performance non replicabile.

模型供应商最爱展示好结果，企业采购最怕好结果复现不了。一个客服质检模型在演示里准确率89%，试点时掉到74%。供应商解释说环境不同，数据不同，随机种子不同。听起来都合理，问题是训练时到底怎么切分，怎么加权，怎么评测，买方一条都看不到。
TrainingRunReceipts要解决的是复现问题。训练不是只给一个最终分数，而要留下训练集，验证集，测试集切分记录，样本权重，随机种子，训练时间，模型版本和评测脚本。没有这些收据，所谓准确率就是一次不可重复的表演。
DataPartition尤其关键。训练集和验证集怎么切，决定分数有没有水分。同一批客户投诉数据，如果把相似样本同时放进训练和验证，模型当然看起来很好。真正部署到新客户场景，表现马上下滑。买方不是不懂AI，而是没法查供应商是不是在漂亮切分里拿分。
OPEN可以作为训练可复现收据和评测审计费用。模型方付OPEN生成TrainingRunReceipt，验证者收OPEN检查数据切分和权重记录。买方付OPEN请求复现审计，拿到的是能不能按同一收据跑出接近结果的证据。复现失败，审计费退回，模型采购等级下降。
举个账。供应商为客服质检模型提交训练收据，质押1200枚OPEN。收据包括训练集18万条，验证集2.4万条，测试集2.1万条，随机种子3组，关键样本权重和评测脚本哈希。买方付260枚OPEN做复现审计。验证者抽查后发现验证集里有14%的相似样本来自训练客户，模型分数被抬高，供应商押金被扣，模型只能进入小范围试用。
这和训练血统不是一回事。血统告诉你模型从哪里来，训练收据告诉你结果能不能重跑。前者是来源说明，后者是复现证明。一个模型可以有清楚来源，但训练切分很漂亮。也可以参数记录完整，但数据分区有问题。企业采购时，两张账都需要。
收据还要支持版本。模型v1的训练收据不能替v2背书。新增数据，调整权重，换评测脚本，都要生成新收据。买方采购时看到哪个版本，就按哪个版本结算和追责。供应商不能拿旧版本好成绩给新版本做广告。
外部复现也不一定要暴露原始数据。企业可以看到切分哈希，权重摘要，评测脚本签名和抽样证明。隐私数据不能直接交出来，但训练过程不能因此完全不可查。可复现不等于裸奔，而是让关键步骤有凭证。
这对隐私行业尤其重要。医疗，金融，客服录音都不可能把原始样本摊给所有买方，但收据可以证明切分方式和评测脚本没有临时改。买方不用拿到数据，也能知道训练过程有没有基本边界。
失败处理必须写清。复现差距在合理范围内，验证者拿完整审计费。差距过大且收据缺字段，模型方退还审计费并补齐记录。发现故意混淆训练和验证样本，押金扣罚，相关ModelCard降权。买方如果错误使用收据，也不能把锅全扣给模型方，复核记录要保留。
坏版本是平台只展示准确率和案例截图。买方试点失败，供应商说环境变了。平台说模型曾经评测过。谁也不能证明那次89%到底怎么来的。最后企业只能把AI采购当成试运气。
OpenLedger如果让OPEN购买训练可复现收据，数据切分审计和评测复跑服务，准确率才有可追踪的重量。买方需要的不是模型方保证很好，而是结果不好时能回到训练收据查原因。复现不了的高分，只适合当宣传。能复现的分数，才有资格进入预算表。$OPEN #OpenLedger