Máy dịch ngôn ngữ – bước nhảy vọt về công nghệ
Google vừa cho ra mắt phiên bản dịch thuật mới nhất hiện nay. Đây được đánh giá là bước nhảy vọt về công nghệ chưa từng thấy trong suốt môt thập kỷ qua. Máy dịch ngôn ngữ của Google Dịch sử dụng hệ thống dịch bằng nơ ron. Thay vì dịch từng từ như trước, hệ thống này dịch toàn bộ câu trong cùng một lúc. Theo các nhà nghiên cứu, bản dịch máy sẽ giống với bản dịch do người dịch và dễ đọc hơn.
Vào tháng 9 năm 2016, Google thông báo hệ thống nơ ron sẽ bắt đầu áp dụng cho Google Dịch. Công nghệ ngày đã được áp dụng với 8 cặp ngôn ngữ vào giữa tháng 11. Chúng bao gồm: Tiếng Anh, Pháp, Tây Ban Nha, Bồ Đào Nha, Trung Quốc, Nhật Bản, Hàn Quốc, Thổ Nhĩ Kỳ. Hệ thống vẫn chưa hoàn hảo và vẫn gặp số lỗi như dịch thiếu từ hoặc không hiểu tên người. Tuy nhiên, ở một số ngôn ngữ, lỗi đã giảm từ 55% đến 85%.
Liệu đây có phải sự khởi đầu cho một kỷ nguyên mới của ngành dịch thuật? Nếu bạn là một biên dịch viên, hẳn bạn sẽ hiểu sự khó khăn khi dịch từ ngôn ngữ này sang ngôn ngữ khác. Biên dịch viên phải đảm bảo dịch sát nghĩa và giữ nguyên sắc thái của bản dịch. Đồng thời, bản dịch phải thể hiện giá trị và bối cảnh văn hoá cụ thể từ nền văn hoá này sang nền văn hoá khác. Nhưng làm thế nào để một cỗ máy có thể thực hiện một nhiệm vụ phức tạp như vậy?
Máy dịch ngôn ngữ học sâu dựa trên cụm từ và AI
Hệ thống dịch bằng nơ ron (MNT) trong máy dịch ngôn ngữ sử dụng công nghệ hiện đại hơn. Công nghệ này cung cấp một bản dịch chính xác hơn dựa trên ngữ cảnh.
Chất lượng bản dịch cải thiện đáng kể vì máy không còn dịch từng từ khiến câu văn trở nên gượng gạo như trước. Máy dịch ngôn ngữ sử dụng mạng nơ ron hồi quy bộ nhớ ngắn hạn (LSTM_RNN). Nó được đào tạo bởi bộ xử lý đồ hoạ (GPU) và bộ xử lý Tensor (TPU). Chuyển giao kiến thức là “nguyên liệu” chính trong công thức mới này. Google gọi thủ thuật dịch mới là “Dịch thuật Zero-shot”. Về cơ bản, máy dịch ngôn ngữ có thể dịch các cặp ngôn ngữ mà không cần “học” trước. Ví dụ, hệ thống mới có thể dạy máy dịch tiếng Anh và tiếng Hàn mà không cần học trước về cặp ngôn ngữ đó.
Các nhà nghiên cứu của Google đã tiến hành một thử nghiệm:
Thử nghiệm này nhằm đào tạo hệ thống đa ngôn ngữ với các cặp ngôn ngữ mong muốn. Ví dụ như cặp ngôn ngữ Nhật-Anh và Hàn-Anh. Hệ thống GNMT sau đó đã chia sẻ tham số để dịch giữa 4 cặp ngôn ngữ này. Họ phát hiện ra hệ thống có thể dịch giữ tiếng Hàn-Nhật mà không cần học trước. Nhưng tại sao?
Họ phát hiện ra hệ thống mới chuyển “kiến thức dịch thuật” từ cặp ngôn ngữ này sang cặp ngôn ngữ khác. Theo các nhà nghiên cứu của Google, “điều này có nghĩa là mạng phải mã hoá ngữ nghĩa của câu thay vì ghi nhớ bản dịch từ cụm từ này sang cụm từ khác. Đây có thể là dấu hiệu cho thấy sự tồn tại của ngôn ngữ Khoa học Quốc tế trong mạng”. Chi tiết về đột phá này còn khá mơ hồ, tuy nhiên nó vẫn là một phát minh tiên phong. Đây là lần đầu tiên loại học tập chuyển tiếp này hoạt trong dịch máy.
Kết luận
GNMT đã được chứng minh là phần mềm dịch thuật hiệu quả nhất hiện nay. Hệ thống coi câu văn là một đoạn văn hoàn chỉnh để dịch. Đồng thời, nó cũng cố gắng nắm bắt sắc thái đằng sau các từ đơn lẻ. Tuy nhiên, hệ thống vẫn còn mắc một số lỗi và cần khắc phục. Ví dụ, khi gặp từ hiếm hoặc tên riêng, hệ thống sẽ mặc dịch dịch lại từng từ một. Sẽ luôn tồn tại tại khoảng cách giữa bản dịch máy và bản dịch do con người dịch. Chắc chắn dịch giả sẽ cần thời gian để đọc và biên tập bản dịch máy.
Thành tựu mới nhất của Google đã đánh dấu việc tiên phong trong công nghệ dịch thuật. Nó mở đầu cho kỷ nguyên mới với các bản dịch máy tiên tiến. Không chỉ vậy, đây còn là một thành tựu mang tiềm năng cách mạng hoá truyền thông toàn cầu. Thế giới cần những người đi trước thời đại và Google có thể đạt đỉnh cao một lần nữa để thực hiện điều đó.