|
Bài viết “Dịch thuật bằng máy:
Niềm mơ ước còn hoài” của tôi đăng trên talawas hồi tháng 7, 2005 và
trên khoahoc.net hồi tháng 9, 2005 kêu gọi độc giả bốn phương với lời lẽ
thống thiết xin cho biết thông tin liên quan đến một nhóm chuyên gia thực hiện
nhu liệu dịch tiếng Việt bằng máy. Tiếng kêu cứu của tôi trên mạng lưới quốc tế,
những tưởng chỉ là “tiếng kêu trên sa mạc”.
Nhưng không! Mới đây tôi nhận được
lá thư của một vị độc giả thuộc Nhóm Nghiên Cứu Việt Ngữ tại California, gồm đa
số là những chuyên viên Tin học, đề nghị tôi hợp tác trong vai trò Điều phối
viên trong Dự án Máy dịch (Machine Translation Project). Hoạt động của Nhóm
Nghiên cứu này ra sao? Tôi xin được trình bày trong phần cuối của bài viết này.
Nay thì xin được thuật lại những điều tai nghe mắt thấy trong thời gian qua.
Khoảng hai tháng sau
khi bài viết của tôi lên mạng talawas, tôi đã vượt gió (chứ không vượt
sóng) từ Sydney đến Los Angeles, thành phố của Tiểu bang California (đông đảo
người Việt), chủ yếu là thăm viếng họ hàng, bạn bè và những người thân quen (mà
đa số là 10 năm không gặp), riêng có một người 20 năm không gặp (tưởng tình đã
cũ) cũng sẽ từ xa đến vùng Orange County này thăm chị thăm em, đặc biệt là thăm
cô em thứ 5 trong gia đình có 7 chị em gái, đang chữa trị ung thư mũi họng
(naso-pharyngeal cancer), tại thành phố Westminster.
Liên hệ đến chuyện đi
tìm, khi ở Santa Ana tôi có ý tìm gặp một chị nhà giáo Tin học, người đã từng
giới thiệu tôi làm quen với máy dịch Systran mấy năm trước đó. Ưu tư của tôi ở
thời điểm gặp chị là làm sao thực hiện kho trữ liệu văn bản tiếng Việt
(Vietnamese text corpus) để có hàng trăm, hàng ngàn triệu chữ Việt cất giữ trong
kho, cho việc nghiên cứu làm từ điển kết hợp từ (collocation dictionary)
Anh-Việt/Việt-Anh. Nói khác đi là tôi muốn thực hiện một dự án cho tiếng Việt,
tương tự như Dự án Cobuild mà Giáo sư John McH. Sinclair đã làm cho tiếng Anh
tại Đại học Birmingham bên Anh Quốc (tôi đã có 2 lần đến tham quan tại trường
này vào những năm đầu thập niên 1990). Cái lợi của kho trữ liệu văn bản là mình
khi muốn có trích dẫn làm thí dụ cho từ điển thì, nói có sách mách có chứng,
những từ hoặc cụm từ dùng ấy thực sự có xuất hiện bên nhau, chứ không do mình
tưởng tượng ra hay dựa vào trí nhớ. Cái lợi khác là cho việc làm từ điển kết
hợp từ vì nó giúp mình biết được một từ hay một cụm từ nào thường xuất hiện sau
nó hoặc trước nó trong thực tế.
Tôi đã gặp chị bạn lần
đầu, bằng xương bằng thịt, tại nơi làm việc vào giờ tan sở ở Brookhurst Street,
sau đó được chị cho quá giang xe về nhà riêng ở West First Street, Santa Ana.
Trước máy vi tính, chị đã cho tôi biết không dễ gì và có thể không cần phải thực
hiện một dự án to lớn như vậy. Nếu muốn biết từ nào đi trước đi sau từ nào, thì
mình chỉ việc vào < yahoo.com > đánh máy từ đó, nếu là tiếng Việt, dùng loại chữ
‘unicode’, thì ta sẽ được vô số những câu có từ đó xuất hiện. Chẳng hạn như
muốn biết chữ < kinh nghiệm > thường xuất hiện với những từ gì, cụm từ nào đứng
trước hoặc đứng sau nó, thì đánh chữ đó vào ô trống, rồi bấm < search > thì ta
có cả triệu ca trong đó có từ hoặc cụm từ xuất hiện với < kinh nghiệm >. Có
điều trong triệu ca đó thì có những từ, những cụm từ xuất hiện với cả < kinh >
lẫn < nghiệm > nữa. Tôi đã thử và đã nhận diện được một số từ kết hợp với <
kinh nghiệm > như:
< kinh nghiệm > + [sống;
bản thân; ngoài đời; tình trường; cận chết; rời khỏi thân thể; mắt thấy tai
nghe; công nghệ thông qua sản phẩm…].
Ở giai đoạn cuối của
chuyến đi, 3 tuần lễ, trong đó có vài ngày bay sang Tampa, Florida, thăm một anh
bạn cố tri cựu Sĩ quan Hải quân VNCH (vẫn phòng không một bóng) mới từ
Milwaulkee, Wisconsin dọn xuống đấy, tôi đã thuê chiếc xe du lịch (2 ngày US$32
+ US$24 bảo hiểm 2 chiều một ngày) cùng với bà xã (mới từ Sydney sang được 2
ngày), và bà chị ruột vốn đã ở vùng này, để lái đi từ Santa Ana đến San Diego (2
tiếng đồng hồ lái xe). Trước là để tham quan cho biết sự tình, sau là tò mò đến
nhìn tận mắt sào huyệt Cơ quan Systran Software ở Mĩ (họ còn sào huyệt nữa ở
Canada), và tìm gặp trực tiếp giới đầu não, chóp bu của họ để hỏi xem lí do gì
khiến họ không có dịch máy tiếng Việt, và nhân tiện cũng ướm thử xem họ có sẵn
sàng giúp đỡ tài chính và kĩ thuật cho mình để thực hiện nhu liệu dịch tiếng
Việt tự động cho họ hay không.
Khởi hành lúc 5 giờ
sáng, trời còn tối, phải bật đèn xe, tôi lái xe ra từ một căn nhà ở West
Central Avenue, khu Santa Ana, phía Đông Nam của Orange County, chạy theo chiếc
xe của đứa cháu gái hướng dẫn một đoạn đường dài chưa đầy 10 phút. Khi bảng
chỉ 405 South là cháu giơ tay ra hiệu cho tôi ghẹo mặt, trong khi xe cháu chạy
thẳng để vòng về nhà (có thể là để ngủ tiếp). Xe tôi bon bon quặt vào Freeway
405 rồi cứ thế chân thì ‘dzoọt’ ga trực chỉ hướng Nam giữa giòng xe chạy vun
vút, ánh đèn pha cốt lập lòe, mắt thì chăm chú nhìn bảng hiệu chỉ đường đến San
Diego, đầu óc thì tập trung để không quẹo vào nhầm Exit bậy bạ mà thành sai một
li đi một dặm.
Chúng tôi tới San Diego
thì trời đã tảng sáng, chạy lòng vòng, chẳng biết đường nào phố nào. Sau đó chạy
xe vào một trạm bán xăng thì mới mua được cái bản đồ thành phố. Với bản đồ cầm
sẵn trong tay, tôi lái xe chạy loanh quanh dạo chơi trong cái thành phố miền
biển nổi tiếng là nơi nghỉ mát của nhiều giai nhân tài tử, trong đó có cả danh
thủ quần vợt Mark Phillippoussis. Anh chàng thể tháo gia thuộc loại ‘playboy’
người Úc này (từng cặp bồ với nhiều cô gái ‘sexy’, kể cả nữ danh thủ quần vợt
người Nga Anna Kournicova) đã dùng bãi biển miền Nam Cali này cho những ngày
nghỉ trượt sóng (surfing) cách đó mấy tháng trước. Ở vào thời điểm đó báo chí
Úc xôn xao về chuyện ‘tình lên cao vút’ giữa anh với cô ca sĩ kiêm soạn nhạc của
Úc trẻ đẹp (trông thấy là thèm rỏ dãi) tên là Delta Goodrem, lúc đó nàng đang
chữa trị ung thư bạch huyết cầu (non-Hodgkins disease).
Khi tìm đến được Trụ sở
của Systran Software Inc., nằm trên đường Genesee Avenue, ở San Diego, cho xe
vào đậu tầng dưới hầm (underground, Úc gọi là basement) của toà nhà cao 3 tầng
(phải trả tiền đậu xe tính theo giờ), là lúc giờ hãng sở sắp sửa nghỉ ăn trưa
(lunch break). Tôi được cho biết là Thủ trưởng (President) của họ đi vắng, không
có mặt tại sở, nếu muốn gặp thì phải đợi đến ngày hôm sau. Tôi cho họ biết là
tôi ở Sydney sang và phải về lại Orange County trong ngày, nên họ sắp xếp cho
người biết chuyện, biết việc tiếp tôi. Họ mời tôi uống nước cô-ca, vào ngồi đợi
trong một phòng họp trên tầng 1 (first floor), trong lúc đó thì bà xã và bà chị
ngồi chơi ở dưới nhà khu ngoài trời tầng trệt (ground floor). Sau hơn một tiếng
đồng hồ ngồi đợi, đọc sách báo, gọi vài cú điện thoại đó đây, tôi đã được gặp
anh Cris A. Fitch, dáng người cao mảnh khảnh, khoảng ngoài 30 tuổi, khi anh đi
ăn trưa về. Qua danh thiếp trao đổi tôi được biết anh là Kĩ sư Trưởng/Quản lí
Dự án (Senior Engineer/Project Manager) của cơ quan.

Trụ sở Systran
Software tại Genesee Avenue, San Diego
Tôi vội cho anh biết lí
do và mục đích chuyến viếng thăm đột ngột của mình. Cách đó mấy tuần tôi đã gửi
thư bằng đường bưu điện từ Úc, mà không thấy hồi âm. Sau đôi ba câu xã giao
thường lệ, anh cho biết vào giữa thập niên 90 chỉ có hai công ty chính là
Globalink và Micro Tak chế tạo sản phẩm và cung cấp dịch vụ dịch thuật bằng máy.
Hai công ti này sau đó sáp nhập làm một, nhưng chẳng bao lâu sau công ti hợp
doanh này bị phá sản. Chuyện dịch tiếng Việt bằng máy cũng đã được Globalink
thực hiện nhưng vì không có chất lượng và chắc không đáp ứng được nhu cầu lợi
nhuận nên họ không tiếp tục.
Anh cũng cho biết thêm
là cơ quan Systran không nghĩ đến đem tiếng Việt vào làm một ngôn ngữ dịch máy,
nhưng anh đặt giả thuyết là nếu trong vài năm nữa, năm 2008 chẳng hạn, Google
hay Systran tài trợ cho dự án dịch tiếng Việt thì công việc cho những ai muốn
tham gia dự án là phải bắt đầu chuẩn bị nghiên cứu hai ngôn ngữ Anh Việt (khoan
nói tới văn phạm, cú pháp) về những chuyện như sau:
1.
Văn bản song đôi (parallel
corpora/twin texts): văn bản có nội dung tương tự.
2.
Vốn từ vựng (lexicon): toàn
thể từ vựng có trong từ điển.
3.
Hình thái học/hình vị học
(morphology): cấu trúc, cách tạo từ ngữ.
4.
Những từ đồng tự
(homographs): chữ viết giống nhau mà khác nghĩa.
Anh cũng cho tôi biết
mặc dù tiếng Việt có hơn 80 triệu người sử dụng, nhưng cũng còn có những ngôn
ngữ khác mà anh đã kể ra, như Bengali có 200 triệu người sử dụng, hoặc tiếng còn
tiếng Nam dương, tiếng Thái, tiếng Tamil, v.v…là những tiếng có đông người sử
dụng mà về mặt dịch máy cũng không được quan tâm mấy. Systran đã không đặt ưu
tiên số đông người sử dụng mà để ý nhu cầu thực tiễn thương mại cho sản phẩm
phần mềm của họ, nếu có.
Sau chuyến Mĩ du, tôi
trở về Úc được khoảng 2 tuần lễ, thì có chuyện đưa đẩy tôi bay về Việt Nam,
trong đó có việc liên lạc hợp tác với Trường Cao đẳng Hoa Sen ở Sài Gòn (nổi
tiếng nhất nước về Tin học với chương trình dạy vi tính mua sẵn của Viện NIIT Ấn
độ), trong việc chuẩn bị thiết lập văn bằng Cử nhân Biên dịch Phiên dịch khi
trường này tiến lên qui chế Đại học. Chị Bùi Trần Phượng, Hiệu Trưởng Trường Hoa
Sen, mới cho tôi biết là họ đang hoàn tất thủ tục trong ba tháng đầu năm 2006 để
trở thành một Đại học tư thục (nghĩa là, ngoài môr số chuyện khác, họ có quyền
quyết định học phí sinh viên phải trả). Liên quan đến dự án làm từ điển cho máy
dịch của tôi, chị Phượng (cựu nữ sinh Marie Curie và cựu sinh viên cao học Đại
học Sorbonne), hiện đang say mê trau dồi thêm tiếng Anh (nghe nói vậy), còn cho
tôi biết: “Nếu chúng tôi có thể làm gì để góp phần rất khiêm tốn của mình vào
dự án của anh, xin anh cứ đề nghị cụ thể”.
Trong chuyến về Việt
Nam này, tôi đồng thời cũng liên hệ với Trưởng phòng Quan hệ Đối ngoại, Trường
Đại học Sư phạm Hà Nội, để tổ chức hội thảo, trao đổi kinh nghiện giảng dạy Anh
ngữ và thông ngôn phiên dịch tại Úc với các giảng viên Anh ngữ và một số sinh
viên Khoa Anh của trường. Ngoài ra, tôi còn phải liên hệ với một vài sinh viên
tham gia trong dự án làm từ điển song ngữ kết hợp từ của tôi. Cô cháu gái,
chuyên viên máy vi tính, người giúp tôi lo việc liên lạc tại Hà Nội, đã cho tôi
biết báo Thanh Niên trực tuyến, số ra ngày 6-6-2005 có thông tin về phần
mềm dịch tự động tiếng Việt.
Qua những thông tin này
khác nữa, tôi được biết các chuyên gia vi tính của Phòng Công nghệ Phần mềm Máy
tính, Viện Nghiên cứu Ứng dụng Công nghệ, Bộ Khoa học Công nghệ và Môi trường,
đã giới thiệu phác thảo sơ khai về dịch máy năm 1990 và được sự quan tâm của một
số cơ quan nghiên cứu và đào tạo. Từ đó sản phẩm phần mềm EVTRAN 1.0 dịch tự
động từ tiếng Anh sang tiếng Việt đã được thành hình như một thương phẩm đóng
gói lần đầu tiên tại Việt Nam năm 1997 (với từ điển dịch chứa gần 80.000 mục
từ).
Bản EVTRAN 2.0 được
giới thiệu từ năm 2000 và đã thực sự góp phần hỗ trợ những người sử dụng máy vi
tính khi làm việc với văn bản tiếng Anh. Và mới đây là bản EVTRAN 3.0 (còn có
tên gọi là EV-SHUTTLE) là phần mềm dịch tự động hai chiều Anh-Việt/Việt-Anh.

Ngồi xe ôm đến Viện Nghiên cứu Ứng
dụng Công nghệ Phần mềm
Nỗi vui mừng trước tiên
và trên hết của tôi là biết có tiếng Việt cho máy dịch, mặc dù biết hơi trễ, và
máy đọc được tiếng Việt và dịch ra được tiếng Anh. Tôi đã tìm cơ hội đến tận
Phòng Công nghệ Phần mềm Máy tính của Viện Nghiên cứu Ứng dụng Công nghệ này ở
C6 Thanh Xuân Bắc, Hà Nội, để gặp và nói chuyện với ông Lê Khánh Hùng, cùng với
anh Lê Minh Hoàn và 2 người bạn trẻ nữa.
Trong một tài liệu đưa
tay cho tôi, ông Hùng đã viết về sản phẩm dịch máy như sau:
Trong mọi sản
phẩm dịch máy phần trọng tâm là động cơ dịch: thành phần thực thi việc phiên
dịch từ ngôn ngữ này sang ngôn ngữ khác. Người ta phân ra hai loại kiến trúc
chính của động cơ dịch:
-
Kiến trúc trực tiếp (dựa trên chuyển đổi
văn phạm)
-
Kiến trúc gián tiếp (dựa trên kiến thức
ngôn ngữ)
Các thương phẩm dịch
máy hiện hành hoặc có kiến thức chuyển đổi trực tiếp (như Systran …) hoặc là sự
lai ghép giữa kiến thức chuyển đổi với việc áp dụng tri thức về ngôn ngữ (như
Globallink, IBM…). Động cơ dịch của phần mềm EVTRAN cũng dựa trên sự lai ghép
của hai kiến thức nêu trên.
Khung động cơ dịch của
EVTRAN có thể mô tả vắn tắt như sau:
1. Phân tích
văn phạm: Từ câu cần dịch xây dựng cây cú pháp nguồn.
2. Chuyển
đổi: Biến đổi cây cú pháp nguồn thành cây cú pháp đích.
3. Tổng hợp
câu: Từ cây cú pháp đích xây dựng câu dịch.
Với mỗi câu có thể dựng
được nhiều cây cú pháp khác nhau, đó là tính nhập nhằng nội tại của ngôn ngữ
nguồn. Việc chọn cây thích hợp được thực hiện trong bước Phân tích Văn phạm.
Đối với những nhập nhằng do chuyển ngữ thì có thể thực hiện trong bước chuyển
đổi, khi có sẵn thông tin của ngôn ngữ đích.
Công cụ hình thức để mô
tả cú pháp là Văn phạm Phi ngữ cảnh. Tuy nhiên, mô hình này nhìn chung không
thể thể hiện những tình huống ngôn ngữ tinh tế.
Những nghiên cứu tại
Viện Nghiên cứu Ứng dụng Công nghệ tập trung vào việc mở rộng mô hình văn phạm
để mô tả được những Luật hành văn (bao gồm Ngữ vựng, Ngữ pháp, Ngữ nghĩa
và Ngữ dụng). Cách tiếp cận là những ứng dụng khác nhau để mô tả những qui luật
hành văn khác nhau của ngôn ngữ.
Tôi đã có dịp thử phần
mềm EVTRAN 2.0 dịch tự động sang tiếng Việt một đoạn viết bằng tiếng Anh thì
thấy là như sau:
Nguyên bản
Life is short: Think BPP
Dalai Lama, the chief
lama and until 1959 ruler of Tibet once said:
“I believe that the
very purpose of our life is to seek happiness. That is clear. Whether one
believes in religion or not, whether one believes in this religion or that
religion, we all are seeking something better in life. So, I think, the very
motion of our life is towards happiness… And happiness can be achieved through
training the mind.”
The leader of the
Tibetan people was not referring to “the mind’ merely as one’s cognitive ability
or intellect. Rather, he was using the term in the sense of the Tibetan word
Sem, which has a much broader meaning, encompassing intellect and
feeling, heart and mind. By bringing about a certain inner discipline, we can
undergo a transformation of our attitude, and our approach to living.
I have started
thinking about how to spend the twilight of my life in a peaceful state of mind.
My recent motto happens to be “Think BPP”. Confusing, isn’t it? Let me explain
it fully.
Dưới đây là bản dịch bằng máy:
Bản máy dịch
Cuộc sống (thì) ngắn : Nghĩ BPP
Hà mã Dalai, Hà mã
chính và cho đến khi 1959 thước đo (của) Tibet một lần nói:
“Tôi tin tưởng rằng
chính mục đích (của) cuộc sống (của) chúng ta sẽ tìm kiếm hạnh phúc. Cái đó
(thì) sáng sủa. Dù một tin tưởng vào tôn giáo hay không, dù một tin tưởng vào
tôn giáo này hoặc tôn giáo đó, chúng ta hoàn toàn đang tìm kiếm cái gì đó tốt
hơn trong cuộc sống. Như vậy, Tôi nghĩ, chính sự chuyển động (của) cuộc sống
(của) chúng ta về phía hạnh phúc … Và hạnh phúc có thể được đạt được xuyên qua
việc huấn luyện tâm trí.”
Người lãnh đạo (của)
Người Tây tạng (mà) những người đang không viện dẫn “ Tâm trí ' Đơn thuần như
ability nhận thức hoặc sự hiểu biết (của) ai đó. Khá, (Mà) anh ta đang sử dụng
Thời hạn trong cảm giác về từ Tây tạng Sem, Mà có một nhiều sự hiểu biết và cảm
giác đầy ý nghĩa, xung quanh rộng hơn, trái tim và tâm trí. Bởi việc dẫn đến một
kỷ luật (môn) bên trong nhất định, chúng ta có thể trải qua một sự biến đổi
(của) thái độ (của) chúng ta, và (sự) tiếp cận để sống (của) chúng ta.
Tôi đã bắt đầu
nghĩ quanh làm sao để tiêu thụ lúc hoàng hôn (của) cuộc sống (của) Tôi trong một
trạng thái hòa bình (của) tâm trí. Khẩu hiệu gần đây (của) Tôi xảy ra Tới “
Nghĩ BPP ”. Làm bối rối, (thì) không phải là nó. Cho phép tôi giải thích nó hoàn
toàn.
Dưới đây là bản dịch của tôi:
Bản
người dịch
Đời
người ngắn ngủi: Hãy nghĩ BPP
Đức Đại-la Lạt-ma, Giáo
chủ Phật giáo và là Nhân vật cai trị nước Tây tạng cho đến năm 1959 đã có lần
nói:
“Tôi tin rằng mục
đích chính yếu của cuộc sống chúng ta là tìm hạnh phúc. Điều đó thật rõ ràng.
Cho dù ta có niềm tin tôn giáo hay không, cho dù ta tin vào tôn giáo này hoặc
tôn giáo nọ, chúng ta đều đi tìm một cái gì tốt đẹp hơn trong đời. Cho nên, tôi
nghĩ, cái động năng chính của cuộc sống chúng ta là hướng đến hạnh phúc… Và hạnh
phúc có thể đạt được qua việc tập luyện trí tuệ.”
Vị lãnh đạo dân tộc Tây
tạng không nói đến “trí tuệ” chỉ trong ý nghĩa là khả năng nhận thức hay trí
tuệ. Mà Ngài đã dùng từ này với nghĩa của từ ‘Sem’ trong tiếng Tây tạng,
có nghĩa rộng hơn, bao gồm cả tri thức lẫn cảm quan, cả tâm lẫn trí. Bằng cách
tạo dựng một kỉ luật nội tâm nào đó, chúng ta có thể biến đổi được thái độ và
lối sống của mình.
Tôi đã bắt đầu nghĩ về
chuyện làm sao sống cảnh hoàng hôn của đời mình cho tâm hồn được an bình. Phương
châm mới đây của tôi là: Hãy nghĩ BPP. Nghe khó hiểu nhỉ? Để tôi giải thích
tường tận cho nghe nhe!
Có nhiều bạn có thể
thất vọng, không vừa lòng với máy dịch ở giai đoạn này, nhưng máy là vật vô tri
vô giác, bảo sao theo vậy, có sao làm vậy, đâu có lỗi, đâu có tội tình gì? Lỗi
chăng là do ở người cung cấp thông tin cho máy xử lí theo hiệu lệnh của người.
Chính ông Hùng cũng đã không ngần ngại nhìn nhận rằng sản phẩm của họ, cũng như
sản phẩm của đa số ngôn ngữ khác, chưa thật sự có chất lượng tốt (chưa được đến
50% toàn hảo). Ông còn cho biết Nhóm Nghiên cứu tại Hà Nội, cũng như Nhóm
Nghiên cứu tại Sài Gòn (tôi chưa có dịp làm quen họ), vẫn đang tiếp tục quá
trình hoàn chỉnh sản phẩm này.
Tôi không hiểu là Nhà
Nước có đặt vấn đề ưu tiên cho dự án loại này không? Có giúp đỡ tài chính và kĩ
thuật cho tư nhân khai thác không? Có chuyện dấu nghề, bảo vệ bản quyền không?
Nhất là một khi sản phẩm này xử dụng vào mục đích thương mại. Làm sao tránh
được những bọn hackers phá đám, chôm chỉa (piracy).
Tôi đã từ Úc gửi mua
được phần mềm EV-SHUTTLE (giá 290.000 đồng VN, khoảng 26 đô-la Úc) và sẽ thử
nghiệm trong việc dịch tự động chiều từ Việt sang Anh trong nay mai. Thế nhưng,
đó sẽ là đề tài cho một bài viết khác.

Ông Lê Khánh Hùng, Phòng Công nghệ Phần
mềm
Mới đây, sau khi hỏi về mã kích
hoạt (activation key) phần mềm mới mua, tôi cũng nhận
được điện thư (email) ngày
15-12-2005 của anh Hùng tại Hà Nội như sau:
Kính gửi anh Frank Trịnh Nhật,
Chúng tôi đã gửi mã trả lời; nếu có gì trục trặc
mời anh liên lạc ngay. Thú thật với anh là trong những ngày anh về Việt nam
chúng tôi quá bận để thực hiện sản phẩm nên có phần thất lễ với anh. Bản thân
tôi rất ân hận, đặc biệt là việc không kịp sang trường sư phạm được. Mong anh
thể tất.
Bây giờ mới tạm thu xếp một phần, nhân nhận được
thư anh, tôi xin có vài dòng trao đổi. Tôi đã xem một số bài viết của anh, (và
của một số người khác) trên talawas về tiếng Việt và dịch thuật. Trước hết cần
nói ngay với anh rằng chúng tôi là người ngoại đạo, mặc dù tất cả chúng ta đều
ngày ngày sử dụng cái tiếng Việt này. Nếu anh quan tâm, chúng tôi có thể trình
bày một số suy nghĩ của mình để anh góp ý ngõ hầu ta có thể tạo ra sản phẩm dịch
máy (cũng như những công cụ ngôn ngữ) tốt hơn trong tương lai. Mong anh cho
biết ý kiến.
Hùng
Tôi còn nhớ gặp anh Hùng tại văn phòng 2 lần,
một lần vào đầu tháng 11 và một lần vào giữa tháng 11, 2005, ở thời điểm anh
đang bận rộn sửa soạn giấy tờ đi công du tại Nhật Bản. Có thể đó là lí do khiến
anh không đến tham gia vào cuộc hội thảo của tôi về “niềm mơ ước về dịch thuật
tiếng Việt bằng máy” tại trường Đại học Sư phạm Hà Nội chiều ngày 2-11-2005.
Trở lại chuyện tôi được mời làm Điều phối viên
trong Dự án Máy dịch (Machine Translation Project) của Nhóm Nghiên Cứu Việt Ngữ
tại California. Dưới đây là lá thư của Ông Phạm Hải, Tiến sĩ về Khoa học Điện
toán (PhD in Computer Science) viết cho tôi ngày 21-12-2005 như sau:
“Thưa Ông Trịnh Nhật,
Tôi vẫn đọc nhiều bài viết của ông trên vny2k.com và những
websites khác về vấn đề Phiên Dịch Anh Việt. Xin tự giới thiệu, chúng tôi thuộc
Nhóm Nghiên Cứu Việt Ngữ, "bản doanh" ở California, đa số là những chuyên viên
Tin học. Từ năm 1995, chúng tôi đã có kế hoạch làm software phiên dịch Anh Viêt,
nhưng không thành công vì thiếu bảo trợ tài chính. Từ đầu năm nay (2005) Nhóm sẽ
hoạt động theo đường hướng mới. Nhóm sẽ kêu gọi chuyên viên và học giả khắp thế
giới làm việc trên căn bản tự nguyện và vô vị lợi, với mục đích nghiên cứu Việt
Ngữ, giúp Nhóm thiết lập Machine Translation software. Software này sẽ là
freeware cho cộng đồng người Việt khắp thế giới, giúp chúng ta phiên dịch các
tài liệu Anh Ngữ qua Việt Ngữ. Việc
phiên dịch này rất cần thiết trong việc phát triển đất nước.
Chúng tôi bắt
đầu bằng đề nghị
qua sự bảo trợ của
Viện Việt Học (Wesminster, California ).
Nhóm chúng tôi đã
làm
một software Chú Thích Hán Việt (www.petrustvk.com/ChuThich.html
).
Được biết Ông đang
làm từ điển collocation để phiên dịch, chúng tôi thiết nghĩ chúng ta có
thể hợp tác vì Nhóm
đã bắt đầu công tác này từ lâu và đã có một số kết quả qua các software Nhóm
chúng tôi thiết kế. Từ điển collocation cũng là thành phần nồng cốt trong Dự Án
Ngữ Toán. Chúng tôi đã có một website từ điển Anh Việt (lưu hành nội bộ). Muốn
làm bộ Machine Translation hoàn hảo, chúng tôi cần những chuyên viên Phiên Dịch
chuyên nghiệp như Ông, giúp chúng tôi thử nghiệm những phương pháp trong khi
nghiên cứu Machine Translation Anh > Việt, Việt > Anh.
Website chúng tôi <
vietngu.org > vừa shutdown vì có trục trặc với hosting company. Chúng tôi đang
thiết lập server mới và sẽ dùng nó để host Machine Translation project. Chúng
tôi sẽ host từ điển Anh-Việt, từ điển collocation và từ điển dịch thuật trên <
vietngu.org >. Chúng tôi xin mời Ông làm điều phối viên cho các websites này.
Xin ý kiến Ông về dự
án Machine Translation của Nhóm chúng tôi. Mong tin Ông.
Kính,
Phạm Hải
Nhóm Nghiên Cứu Việt Ngữ
Mới đây ông Phạm Hải còn cho tôi
biết một tin vui: “Chúng tôi đã có kế hoạch xúc tiến giai đoạn 1 cho dự án
Ngữ Toán Tiếng Việt. Trong vòng 6 tháng, chúng tôi sẽ công bố text corpus cho
hơn 10.000 tiếng đơn và hơn 100.000 tiếng kép. Chúng tôi cũng xúc tiến song
song dự án Từ Điển Ngữ Nghĩa tiếng Việt, bắt đầu bằng Tử Điển của Lê Ngọc Trụ và
Lê Văn Đức.”
Liên hệ đến 2 lá thư mời họp tác
của hai vị chuyên gia tin học đầu ngành về phần mềm dịch tự động tiếng Việt: một
ở Hoa kì và một ở Việt Nam, tôi chưa có dịp bàn thảo và cam kết gì trước những
đề nghị của họ. Ở thời điểm này, tôi xin được tạm hoãn trả lời khẳng định với họ
để có thời giờ suy nghĩ xem mình có thể đóng góp được những gì, chi tiết hình
thức hợp tác, và thời lượng cần có để thực hiện công tác. Người Anh họ nói:
“Two heads are better than one”, còn người Việt thì lại bảo: “Ba cây chụm
lại nên hòn núi cao!”
Cái thú vị trước mắt, đối với tôi
lúc này, là sự đáp ứng của những người cùng có chung một mục đích—mục đích phục
vụ cho tiếng Việt, cho việc dịch thuật tiếng Việt trong chiều hướng ứng dụng kĩ
thuật, công nghệ phần mềm tiên tiến, hiện đại trong đệ tam thiên niên kỉ.
Cái
thú vị nữa là, sau chuyến đi nửa vòng trái đất, tôi đã tình cờ bắt gặp được phần
mềm… ngay trong lòng đất Mẹ!
Trịnh Nhật
Sydney, Tháng Giêng 2006
Trở về Trang Chính |