Token *pikselowy* jest fundamentalną jednostką, która umożliwia modelom opartym na Transformerach przetwarzanie informacji wizualnych w taki sam sposób, w jaki przetwarzają język. Zamiast dostarczać modelowi setki tysięcy surowych wartości RGB, obraz najpierw dzieli się na małe fragmenty — zazwyczaj 16×16 pikseli — które następnie są spłaszczane i projektowane w gęste osadzenia wektorowe. Te osadzenia stają się „tokenami” obrazu, analogicznie do tokenów subwyrazowych w tekście. Ostatnie prace, takie jak _Od pikseli do tokenów: kodowanie par bajtowych na skwantyzowanych modalnościach wizualnych_, rozwijają ten pomysł dalej, stosując BPE bezpośrednio do danych wizualnych, tworząc wyuczoną słownictwo powtarzających się wzorców wizualnych, a nie stałych fragmentów siatki. To wprowadza strukturalne informacje wstępne do każdego tokena, więc na wczesnym etapie sieci token może reprezentować „krawędź” lub „teksturę”, podczas gdy głębsze warstwy łączą je w bardziej zaawansowane koncepcje, takie jak „sygnalizacja świetlna” lub „ludzkie twarze”. Zaletą jest podwójna: po pierwsze, dramatycznie zmniejsza długość sekwencji z ponad 150 000 pikseli do kilkuset tokenów, co sprawia, że samo-zwracanie się staje się wykonalne obliczeniowo; po drugie, dostosowuje format reprezentacji wizualnej do tokenów językowych, umożliwiając jednemu Transformerowi rozumienie w różnych modalnościach bez oddzielnych enkoderów. W praktyce strategia tokenizacji została wykazana jako poprawiająca zrozumienie multimodalne i efektywność danych, pomagając modelom takim jak Being-VL-0 osiągnąć lepsze wyniki nawet przy ograniczonych danych treningowych.
---
Chcesz, żebym również dał ci bardziej techniczną wersję z matematyką, czy trzymać się tej przyjaznej dla eseju wersji?
Trading is NOT a Job. Dont expect fixed paychecks from the market. It is a Business. That involves uncertainty, losses, slow periods and stress. The market gives rewards to business owners who apply strategic risk-taking, follow their business plan and make the right decisions. You are paid for Decisions, not Hours.$BTC $ETH #StrategyBTCPurchase $
Wiem, że te dni, naprawdę doceniam, proszę pana, rozwijaj się dalej 😎❤
Crypto_Jobs
·
--
Byczy
🎉 Dokładnie rok temu, wskazałem dno na #XRP wokół +/- $0.480... [Wiele razy]
👀 Dziś handlujemy powyżej $3.50! Policzcie, to ruch 7x! 🔥
📈 Moja najnowsza chart wciąż celuje w $4.90+ następnie. 🚀
Wielu ludzi zastanawia się, jak taka dokładność jest możliwa… Czego nie widzą, to niekończąca się praca, cierpliwość i poświęcenie w neutralnych lub niedźwiedzich rynkach, co stanowi 70% podróży lub więcej! 💪
Ceny kryptowalut mogą eksplodować w zaledwie rok, jedyną prawdziwą przewagą jest cierpliwość i przekonanie!
Dla tych, którzy śledzili przez długi czas; cieszcie się jazdą! 😎