Các hướng nghiên cứu chính:
- Dịch máy đa ngôn ngữ dựa trên mạng nơ-ron (NMT): Về cặp ngôn ngữ, tập trung nghiên cứu dịch giữa tiếng Việt và các ngôn ngữ tiếng Anh, tiếng Trung, tiếng Lào, tiếng Khmer, tiếng Nhật. Về tiếp cận dịch, sử dụng kiến trúc mã hoá-giải mã dựa trên LSTM, Transformer. Nghiên cứu giải quyết các vấn đề tài nguyên hạn chế (low resource), thích ứng miền (domain adaptation), cơ chế khai thác sự tương đồng giữa các ngôn ngữ (language similarity), …
- Các bài toán về ngữ nghĩa của từ: nhận diện tự động các quan hệ ngữ nghĩa bao gồm tương tự, đồng nghĩa, trái nghĩa, bao thuộc, …; biểu diễn từ dưới dạng vec-tơ nhúng chuyên biệt, …
- Xây dựng các kho ngữ liệu dùng cho xử lý tiếng Việt: treebank, propbank, coreference resolution, …
- Xử lý văn bản luật (legal engineering): nhận diện thực thể có tên, phân tích cấu trúc văn bản, trích rút nội dung chính, hỏi đáp, ...
- Chatbot: Xây dựng chatbot thích ứng miền ứng dụng như giáo dục, luật, thương mại.