Największym wyzwaniem, przed którym stoi sztuczna inteligencja dzisiaj, nie jest moc obliczeniowa ani zaawansowane algorytmy. To jakość danych. Systemy AI są tak wiarygodne, jak informacje, z których się uczą, a gdy ta podstawa jest słaba, konsekwencje rozprzestrzeniają się daleko poza technologię, obejmując finanse, reklamę, opiekę zdrowotną i zatrudnianie.
Badania pokazują, że prawie 87% projektów AI nie udaje się przed osiągnięciem produkcji z powodu słabej jakości danych. W samej reklamie cyfrowej prawie jedna trzecia z 750 miliardów dolarów wydawanych rocznie jest tracona na oszustwa i nieefektywność, ponieważ dane transakcyjne nie mogą być weryfikowane. Nawet wielkie firmy technologiczne są dotknięte. Amazon słynnie porzucił swoje narzędzie rekrutacyjne AI po odkryciu, że stronnicze dane szkoleniowe prowadziły do niesprawiedliwych wyników. Sam algorytm nie był wadliwy; dane, które go wspierały, były.
W miarę jak AI staje się krytyczną infrastrukturą, jakość danych nie może być już traktowana jako kwestia drugorzędna. Wiele zbiorów danych nie ma jasnych zapisów dotyczących pochodzenia danych, sposobu ich modyfikacji ani tego, czy są kompletne. Kiedy system AI zatwierdza pożyczkę, diagnozuje pacjenta lub rekomenduje kandydata, często nie ma możliwości audytowania danych, które ukształtowały tę decyzję.
To tworzy lukę zaufania. Tak jak nikt nie ufałby samochodowi autonomicznemu trenowanemu na niebezpiecznych zachowaniach, systemy AI trenowane na danych stronniczych lub nieweryfikowalnych nie mogą być ufane na dużą skalę. Rozwiązanie problemu AI zaczyna się od rozwiązania problemu danych.

