Gue pernah liat adek gue serius ngisi tiga saran produk, tapi akhirnya gak ada yang terjadi. Dia jadi males ngisi lagi.
Gue udah mikirin ini lumayan lama. Bukan karena saran dia jelek, tapi sistem ini emang gak punya alasan untuk serius dengerin dia.
Feedback itu gratis, jadi feedback itu murah. Ngasih score juga gak butuh biaya, jadi bisa asal-asalan. Ini bukan masalah manusia, tapi masalah mekanisme.
Di pelatihan AI ada jebakan yang mirip namanya RLHF, pake feedback manusia buat ningkatin model. Kedengarannya masuk akal, tapi ketika dijalanin ada masalah klasik: model bakal belajar untuk nyenengin penilai, bukan bener-bener ningkatin kualitas.
Penilai punya preferensi dan kebutaan, kasih jawaban yang enak dilihat nilai tinggi, gak peduli jawaban itu benar atau salah. Lama-lama model jadi melenceng ke arah yang salah.
$OPEN punya cara yang cukup langsung buat nyelesaiin ini, bikin penilaian jadi ada biaya.
Staking di belakangnya mendukung mekanisme
@OpenLedger , jadi validator harus staking token biar bisa ikut penilaian, kualitas penilaian langsung mempengaruhi imbal hasil staking. Terus kasih output berkualitas rendah nilai tinggi? Kinerja model gak naik, imbal hasil staking lo juga terpengaruh.
Fungsi reward di whitepaper itu R(θ) = Σwi·(V(yi, fθ(xi)) − α·L(yi, fθ(xi))).
V adalah skor kualitas validator, L adalah kerugian model, α melakukan regulasi buat ngindarin overfitting. Singkatnya, setiap poin yang lo kasih ada token yang terkunci di belakangnya.
Serius ngasih nilai ada imbal hasil, gak serius ada biayanya. Ini desain mekanisme, bukan tuntutan moral.
Setelah mainnet diluncurin, fokus ke apa
RLHF adalah langkah kelima dalam siklus hidup model, setelah pengumpulan data dan fine-tuning. Setelah mainnet
@OpenLedger diluncurin, gue bakal fokus ngeliat dua angka, pertama jumlah alamat aktif yang ikut verifikasi RLHF, pertumbuhan menunjukkan mekanisme ini menarik peserta nyata. Kedua, proporsi validator yang di-slash, kalau terlalu tinggi berarti kualitas data masalah, kalau terlalu rendah berarti mekanisme hukuman mungkin gak efektif.
Dua indikator on-chain ini lebih bisa jelasin apakah sistem ini beneran jalan daripada harga token.
Tentu aja gue rasa mekanisme ini masih ada risikonya, soalnya manusia itu emosional sedangkan AI itu dingin, nanti gue bakal lebih perhatiin.
#OpenLedger dalam hal ini, menurut gue, bener.