Skip to content

Tokenization

Published: at 02:18 AMSuggest Changes

Table of contents

Open Table of contents

1. Tokenization

1.1. Sentence Tokenization

Mục tiêu là chia các văn bản, đoạn văn bản thành câu. image

1.2. Word Tokenization

Word-basedCharacter-based
Kích thước vocab lớnKích thước vocab là bảng chữ cái cho nên rất nhỏ
Mất mối liên hệ giữa các từ cùng nhóm (vd: run, running, runner)Các token không mang nhiều ý nghĩa

-> Tìm kiếm phương pháp vẫn giữ được đặc trưng của 2 phương pháp trên: subword-based tokenization

2. Subword-based tokenization

2.1. Byte-Pair encoding

Ý tưởng:

2.1.1. Byte-level Byte-Pair encoding.

Thay vì tách mỗi chuỗi corpus thành các kí tự thì đoạn text đầu vào sẽ được chuyển đổi sang dạng UTF-8. image image

3. Machine Translating

Việc dịch từ source language(input) sang target language(output) thuộc về bài toán optimization:

w^(t)=argmaxw(t)θ(w(s),w(t)).\hat{w}(t) = \arg\max_{w(t)} \theta(w(s), w(t)).

Yêu cầu 2 thành phần:

3.1. Byte Latent Transformer

∞. Câu hỏi

  1. BPE hay BPPE được xài thuờng xuyên hơn?

Previous Post
Phương pháp đọc bài báo khoa học
Next Post
Quan hệ bạn bè