Blog

Collocation là gì? Collocation trong các ứng dụng xử lý ngôn ngữ tự nhiên

227

Collocation rất phổ biến trong ngôn ngữ tự nhiên và được gặp trong mọi tài liệu chuyên hoặc không chuyên. Khái niệm collocation là một khái niệm khó hiểu đối với những người không chuyên về ngôn ngữ học. Có rất nhiều cách khác nhau để định nghĩa collocation, tuy nhiên chưa có một định nghĩa thật đầy đủ và chính xác. Bài viết dưới đây nhằm đưa ra khái niệm Collocation và Collocation trong các ứng dụng xử lý ngôn ngữ tự nhiên.

Collocation là gì?

Collocation là một cụm từ gồm hai hay nhiều từ trở lên thường đi liền với nhau theo một trật tự nhất định (theo cách nói của người bản xứ).

Thật vậy, trong mỗi ngôn ngữ đều có một hệ thống collocation riêng biệt. Ví dụ như trong Tiếng Việt, người Việt sẽ thường sử dụng cụm “hổ gầm” hay “vượn hú” để chỉ việc những loài vật này tạo ra âm thanh thay vì “hổ hú”, “vượn gầm”.

Tiếng Anh cũng tương tự, có những từ luôn đi kèm với nhau để tạo thành một cụm từ hoàn chỉnh nhằm diễn đạt một ý nào đó.

Ví dụ:

“pay attention” (tập trung, chú ý) chứ không dùng “give attention”

“make attention”; hay “blonde” đi với “hair” và “heavy” đi với “rain”.

Trong ngôn ngữ giao tiếp hàng ngày, người học có thể sử dụng “yellow hair” hay “strong rain” mà vẫn truyền đạt được phần nào ý của bản thân tới người bản xứ. Tuy nhiên, ngôn ngữ của người học sẽ không tự nhiên, và trong một số trường hợp có thể gây hiểu lầm cho người nghe.

Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên

Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ như sinh ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản và xây dựng từ điển… Chính vì tầm quan trọng của collocation, nên người ta đặt ra một vấn đề là làm thế nào để xác định collocation.

Bài toán xác định collocation (hay còn gọi là Bài toán trích chọn collocation – Collocation extraction) được phát biểu như sau “Xác định collocation là việc sử dụng máy tính để trích chọn ra các collocation một cách tự động từ một kho ngữ liệu (copus)”.

Howarth và Nasi cho rằng hầu hết trong các đoạn văn bản đều có chứa ít nhất một collocation.

Sinh ngôn ngữ tự nhiên (Natural language generation) là việc tạo câu hoặc văn bản từ một trình diễn phi ngôn ngữ. Có thể nhìn nhận việc phân tích ngôn ngữ là dịch từ ngôn ngữ tự nhiên sang một kiểu trình diễn có ý nghĩa khác. Vì vậy, cần xem xét việc sinh ngôn ngữ (language generation) như là phép dịch ngược lại từ một trình diễn có ý nghĩa sang ngôn ngữ tự nhiên. Việc phân tích một bài luận khó hơn việc phân tích các câu riêng lẻ, việc sinh ra văn bản cũng khó hơn nhiều việc sinh ra chuỗi các câu độc lập. Để có một văn bản dễ hiểu, phải dựa vào các nguyên tắc sắp xếp từ và câu theo đặc trưng riêng của mỗi loại ngôn ngữ.

Dịch tự động (Machine translation) được xem như là một trong những công việc khó khăn nhất trong xử lý ngôn ngữ tự nhiên, và trong trí tuệ nhân tạo. Việc dịch đúng dường như là không thể nếu không có những hiểu biết về văn bản. Theo Gitsaki, một collocation trong ngôn ngữ này khác với chính nó trong ngôn ngữ khác, vì thế việc dịch collocation là một việc không dễ.

Thông tin về collocation cũng là chủ yếu trong các công việc tóm tắt văn bản (Text simplification task). Điều này đòi hỏi phải có những kỹ thuật để thay thế các từ khó bởi những từ đơn giản hơn. Không có hiểu biết về collocation và các ràng buộc liên quan thì có thể dẫn đến những văn bản không dùng được.

Collocation cũng quan trọng trong lĩnh vực xây dựng từ điển (Computational lexicography). Chúng được sử dụng để mô tả một cách đầy đủ các mục từ vựng. Theo Richardson “đối với một phân tích từ điển chi tiết, chỉ các collocation có mặt trong từ điển mới cung cấp thêm các đặc điểm biểu diễn trực tiếp các mối quan hệ ngữ nghĩa trong các mục từ”.

Smith xem xét các collocation để tìm ra các sự kiện liên quan đến thông tin ngày tháng và địa điểm trong văn bản không có cấu trúc.

Kết luận: Collocation là một phần của Ngôn ngữ tự nhiên, việc Xử lý ngôn ngữ tự nhiên sẽ thuận lợi hơn nhiều nếu xác định được các collocation có ý nghĩa. Collocation được sử dụng trong một số ứng dụng như: dịch máy, sinh ngôn ngữ tự nhiên, tóm tắt văn bản, xây dựng từ điển… Chính vì vậy nghiên cứu các phương pháp xác định collocation là một công việc rất đáng được quan tâm.

0 ( 0 bình chọn )

Trịnh Song Phúc

https://trinhsongphuc.com
Trinhsongphuc.com - Blog tổng hợp các kiến thức về MXH Facebook, Game và những thông tin bổ ích khác được biên tập bởi Trịnh Song Phúc

Ý kiến bạn đọc (0)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Bài viết liên quan

Bài viết mới

Xem thêm