Homo-mex 2024 Paper 1

Open Table of contents

1. Abstraction
2. Introduction
3. Proposed procedure
∞. Câu hỏi

1. Abstraction

Sử dụng transformer-based techniques cho bài toán multi-class, multi-label classification, và binary classification.

2. Introduction

Hướng giải quyết xử lý imbalance trong training set

3. Proposed procedure

3.1. Đối với track 1

Không thực hiện prepocessing vì nó làm giảm khả năng nhận diện các đăng trưng liên quan \ Không thực hiện cân bằng dữ liệu vì không chênh lệch quá lớn
So sánh với nhiều bản tunned của pre-trained xlm-RoBERTa \

3.2. Đối với track 2

Coi những nhóm labels khả thi là 1 class.

Đối với lại augmentation, không có phương pháp nào quá hiệu quả. Thực hiện gán thresholds cho các label để minority label có thể được detect một cách tốt hơn.

Sử dụng xlm-RoBERTa cho kết quả tốt nhất.

Label NR không được gán cho bất kì dữ liệu nào do đó không có hàm classifer nào nhận diện được. Thành ra nếu có dữ liệu nào không được gán thì sẽ được gán Label NR.

3.3. Model

Để đánh giá các mô hình BERT, sử dụng soft and hard voting. For the soft-voting variants, we use simple heuristics to determine the weight of each model’s vote, such as the average arithmetic sum.