On a parlé de @OpenGradient qui n'arrête pas de dire comment vérifier les inférences, aujourd'hui on va compléter un morceau du puzzle que tout le monde a ignoré. Les données fournies à l'IA, sont-elles vraiment fiables ?
Cette affaire est en fait un grand trou.
Peu importe à quel point le processus d'inférence de l'IA est bien protégé, si on lui donne une preuve mathématique en fer, mais si les données initiales sont falsifiées, alors les résultats obtenus, aussi "vérifiables" soient-ils, ne feront que calculer un faux préjugé.
Des déchets entrent, des déchets sortent, une preuve ne vous aidera pas. Le monde de la chaîne dépend particulièrement des données externes : les prix, les retours d'API, le contenu des réseaux sociaux, tout cela doit être récupéré auprès de tiers, et c'est à ce moment-là, au moment de la capture, que c'est le plus facile d'y mettre les mains.
La solution d'OpenGradient est de créer une classe de Data Nodes pour s'occuper de ce sale boulot. Ce sont des nœuds protégés par TEE qui vont chercher des données, tout le processus s'effectue dans des enclaves matérielles.
Cela signifie que même les opérateurs de nœuds ne peuvent pas voir ni modifier les données qui circulent à travers eux. En d'autres termes, ils isolent cette étape de "récupération de données" et la protègent par une couche de sécurité matérielle, de sorte que le chemin des données de la source au modèle soit inviolable.
J'apprécie la cohérence de cette approche.
Beaucoup de projets d'IA se concentrent uniquement sur "le modèle calcule-t-il correctement", tout en supposant que les données sont propres - c'est une hypothèse dangereuse. OpenGradient pousse la frontière de confiance un peu plus loin, ne laissant pas même l'entrée des données à la chance. Chaque maillon d'une chaîne, de la récupération des données à l'inférence, jusqu'à la vérification, ne repose pas sur "faire confiance à quelqu'un", c'est ça un cercle fermé, pas un trou de serrure.
Mais la frontière doit encore être discutée, le TEE peut garantir que "les données ont été récupérées intactes depuis la source", mais il ne peut pas garantir "si cette source dit la vérité". Si les données brutes fournies par une API sont elles-mêmes incorrectes ou contaminées, le Data Node ne fera que transférer cette erreur telle quelle.
Il protège contre les falsifications en cours de route, pas contre les faux à la source. La fiabilité de la source dépend encore de vous pour choisir la provenance des données.
Alors, comment voir cela : les Data Nodes sont le véritable morceau du puzzle qui rend "vérifiable" cette affaire.
Ils résolvent la question de "si les données ont été manipulées en route", un aspect que beaucoup de projets n'ont même pas envisagé, mais rappelez-vous leurs limites - ils gardent la sécurité durant le transport, mais ne peuvent pas garantir la véracité des marchandises au départ.
#OPG #OpenGradient $OPG
Cette affaire est en fait un grand trou.
Peu importe à quel point le processus d'inférence de l'IA est bien protégé, si on lui donne une preuve mathématique en fer, mais si les données initiales sont falsifiées, alors les résultats obtenus, aussi "vérifiables" soient-ils, ne feront que calculer un faux préjugé.
Des déchets entrent, des déchets sortent, une preuve ne vous aidera pas. Le monde de la chaîne dépend particulièrement des données externes : les prix, les retours d'API, le contenu des réseaux sociaux, tout cela doit être récupéré auprès de tiers, et c'est à ce moment-là, au moment de la capture, que c'est le plus facile d'y mettre les mains.
La solution d'OpenGradient est de créer une classe de Data Nodes pour s'occuper de ce sale boulot. Ce sont des nœuds protégés par TEE qui vont chercher des données, tout le processus s'effectue dans des enclaves matérielles.
Cela signifie que même les opérateurs de nœuds ne peuvent pas voir ni modifier les données qui circulent à travers eux. En d'autres termes, ils isolent cette étape de "récupération de données" et la protègent par une couche de sécurité matérielle, de sorte que le chemin des données de la source au modèle soit inviolable.
J'apprécie la cohérence de cette approche.
Beaucoup de projets d'IA se concentrent uniquement sur "le modèle calcule-t-il correctement", tout en supposant que les données sont propres - c'est une hypothèse dangereuse. OpenGradient pousse la frontière de confiance un peu plus loin, ne laissant pas même l'entrée des données à la chance. Chaque maillon d'une chaîne, de la récupération des données à l'inférence, jusqu'à la vérification, ne repose pas sur "faire confiance à quelqu'un", c'est ça un cercle fermé, pas un trou de serrure.
Mais la frontière doit encore être discutée, le TEE peut garantir que "les données ont été récupérées intactes depuis la source", mais il ne peut pas garantir "si cette source dit la vérité". Si les données brutes fournies par une API sont elles-mêmes incorrectes ou contaminées, le Data Node ne fera que transférer cette erreur telle quelle.
Il protège contre les falsifications en cours de route, pas contre les faux à la source. La fiabilité de la source dépend encore de vous pour choisir la provenance des données.
Alors, comment voir cela : les Data Nodes sont le véritable morceau du puzzle qui rend "vérifiable" cette affaire.
Ils résolvent la question de "si les données ont été manipulées en route", un aspect que beaucoup de projets n'ont même pas envisagé, mais rappelez-vous leurs limites - ils gardent la sécurité durant le transport, mais ne peuvent pas garantir la véracité des marchandises au départ.
#OPG #OpenGradient $OPG