Tokenizer

Napisałem tokenizer, czyli taki programik, który zamienia ciąg znaków na pojedyncze znaki. Czyli powiedzmy mamy ciąg znaków "Siała baba mak." no to tokenizer zapisuje każde słowo osobno do listy. Czyli lista.get(0) to "Siała", lista.get(1) to "baba", a lista.get(2) to "mak.". To w tym przypadku. Jest to bardzo fajna rzecz. Można podać dowolny ciąg znaków i tokenizer je przemieli. Można np. odczytać ciąg znaków z pliku i je podzielić na słowa. Jest to przydatne kiedy tworzymy słownik i chcemy mieć wszystkie wystąpienia pojedynczych słów. Może piszemy teksty i chcemy sprawdzać, czy to co piszemy jest poprawne. Też wykorzystanie w ścieżkach do plików jest tu ważne.

Czyli podałem tekst: "Siała baba mak.". Tokeny: [Siała, baba, mak.]. I mamy swobodny dostęp do każdego ze słów. Zawsze spowrotem możemy zamienić te tokeny na tekst. Możemy sobie wygodnie wyszukiwać podanego słowa, zobaczyć jakie słowa są w jego zakresie. Podaję początek, koniec, token i odcinam kawałek ciągu znaków od początku aż do napotkania pierwszej spacji. Na samym końcu nie ma spacji więc odcinam od początku do końca tak naprawdę ciągu znaków. Po każdej iteracji ustawiam początek tam gdzie ostatnio był koniec żeby sobie przeskakiwać do kolejnych spacji i nie zaczynać wyszukiwania od zera za każdym razem.