Co oznacza tokenizacja?
Tokenizacja to czynno?? polegaj?ca na rozbijaniu sekwencji ci?gów znaków na fragmenty, takie jak s?owa, s?owa kluczowe, frazy, symbole i inne elementy zwane tokenami.
Tokenami mog? by? pojedyncze s?owa, frazy, a nawet ca?e zdania lub przedmioty w ?wiecie rzeczywistym. W procesie tokenizacji niektóre znaki, takie jak znaki interpunkcyjne, s? odrzucane. Tokeny staj? si? danymi wej?ciowymi dla innego procesu, takiego jak parsowanie i eksploracja tekstu.
Tokenizacja jest wykorzystywana w informatyce, gdzie odgrywa du?? rol? w procesie analizy leksykalnej.
W ?wiecie kryptowalut wspó?czesne korzenie tokenizacji si?gaj? technologii blockchain i standardów takich jak ERC-20 i ERC-721 Ethereum, które standaryzowa?y interoperacyjne tokeny.
Pocz?tkowo tokeny by?y g?ównie monetami u?ytkowymi umo?liwiaj?cymi dost?p do us?ug blockchain. Jednak koncepcja ta ewoluowa?a, obejmuj?c tokeny bezpieczeństwa dla rzeczywistych aktywów i najwy?ej oceniane NFT dla unikalnych elementów cyfrowych, nap?dzane potrzeb? bezpiecznego, przejrzystego i wydajnego zarz?dzania aktywami cyfrowymi i handlu nimi.
Techopedia wyja?nia poj?cie tokenizacji
Tokenizacja opiera si? g?ównie na prostej heurystyce w celu oddzielenia tokenów, wykonuj?c kilka kroków:
- Tokeny lub s?owa s? oddzielone bia?ymi znakami, znakami interpunkcyjnymi lub podzia?ami linii
- Bia?a spacja lub znaki interpunkcyjne mog?, ale nie musz? by? uwzgl?dniane w zale?no?ci od potrzeb.
- Wszystkie znaki w ci?g?ych ?ańcuchach s? cz??ci? tokena. Tokeny mog? sk?ada? si? ze wszystkich znaków alfa, znaków alfanumerycznych lub tylko znaków numerycznych.
Same tokeny mog? by? równie? separatorami. Na przyk?ad w wi?kszo?ci j?zyków programowania identyfikatory mog? by? umieszczane razem z operatorami arytmetycznymi bez spacji.
Chocia? wydaje si?, ?e by?oby to pojedyncze s?owo lub token, gramatyka j?zyka faktycznie traktuje operator matematyczny (token) jako separator, wi?c nawet je?li wiele tokenów jest po??czonych razem, nadal mo?na je rozdzieli? za pomoc? operatora matematycznego.