Tokenization | RedTail

Open Table of contents

1. Tokenization

Mục tiêu là chia các văn bản, đoạn văn bản thành câu.

Word-based	Character-based
Kích thước vocab lớn	Kích thước vocab là bảng chữ cái cho nên rất nhỏ
Mất mối liên hệ giữa các từ cùng nhóm (vd: run, running, runner)	Các token không mang nhiều ý nghĩa

-> Tìm kiếm phương pháp vẫn giữ được đặc trưng của 2 phương pháp trên: subword-based tokenization

3 alogrithms phổ biến:
- Byte-Pair Encoding
- Unigram language modeling tokenization
- WordPiece

Ý tưởng:

Thay vì tách mỗi chuỗi corpus thành các kí tự thì đoạn text đầu vào sẽ được chuyển đổi sang dạng UTF-8.

Việc dịch từ source language(input) sang target language(output) thuộc về bài toán optimization:

\hat{w}(t) = \arg\max_{w(t)} \theta(w(s), w(t)).

Yêu cầu 2 thành phần:

Thay vì chia đoạn văn bản thành các tokens thì chia trực tiếp thành các chuỗi bytes.
Xây dựng chuỗi bytes dựa trên entropy