Sydney-San Diego-Hà Nội:

Một chuyến đi tìm phần mềm



TS Trịnh Nhật

 

 

Bài viết “Dịch thuật bằng máy: Niềm mơ ước còn hoài” của tôi đăng trên talawas hồi tháng 7, 2005 và trên khoahoc.net hồi tháng 9, 2005 kêu gọi độc giả bốn phương với lời lẽ thống thiết xin cho biết thông tin liên quan đến một nhóm chuyên gia thực hiện nhu liệu dịch tiếng Việt bằng máy. Tiếng kêu cứu của tôi trên mạng lưới quốc tế, những tưởng chỉ là “tiếng kêu trên sa mạc”.

 

Nhưng không!  Mới đây tôi nhận được lá thư của một vị độc giả thuộc Nhóm Nghiên Cứu Việt Ngữ tại California, gồm đa số là những chuyên viên Tin học, đề nghị tôi hợp tác trong vai trò Điều phối viên trong Dự án Máy dịch (Machine Translation Project). Hoạt động của Nhóm Nghiên cứu này ra sao?  Tôi xin được trình bày trong phần cuối của bài viết này. Nay thì xin được thuật lại những điều tai nghe mắt thấy trong thời gian qua.

 

Khoảng hai tháng sau khi bài viết của tôi lên mạng talawas, tôi đã vượt gió (chứ không vượt sóng) từ Sydney đến Los Angeles, thành phố của Tiểu bang California (đông đảo người Việt), chủ yếu là  thăm viếng họ hàng, bạn bè và những người thân quen (mà đa số là 10 năm không gặp), riêng có một người 20 năm không gặp (tưởng tình đã cũ) cũng sẽ từ xa đến vùng Orange County này thăm chị thăm em, đặc biệt là thăm cô em thứ 5 trong gia đình có 7 chị em gái, đang chữa trị ung thư mũi họng (naso-pharyngeal cancer), tại thành phố Westminster. 

 

Liên hệ đến chuyện đi tìm, khi ở Santa Ana tôi có ý tìm gặp một chị nhà giáo Tin học, người đã từng giới thiệu tôi làm quen với máy dịch Systran mấy năm trước đó.  Ưu tư của tôi ở thời điểm gặp chị là làm sao thực hiện kho trữ liệu văn bản tiếng Việt (Vietnamese text corpus) để có hàng trăm, hàng ngàn triệu chữ Việt cất giữ trong kho, cho việc nghiên cứu làm từ điển kết hợp từ (collocation dictionary) Anh-Việt/Việt-Anh.  Nói khác đi là tôi muốn thực hiện một dự án cho tiếng Việt, tương tự như Dự án Cobuild mà Giáo sư John McH. Sinclair đã làm cho tiếng Anh tại Đại học Birmingham bên Anh Quốc (tôi đã có 2 lần đến tham quan tại trường này vào những năm đầu thập niên 1990).  Cái lợi của kho trữ liệu văn bản là mình khi muốn có trích dẫn làm thí dụ cho từ điển thì, nói có sách mách có chứng, những từ hoặc cụm từ dùng ấy thực sự có xuất hiện bên nhau, chứ không do mình tưởng tượng ra hay dựa vào trí nhớ.  Cái lợi khác là cho việc làm từ điển kết hợp từ vì nó giúp mình biết được một từ hay một cụm từ nào thường xuất hiện sau nó hoặc trước nó trong thực tế. 

 

Tôi đã gặp chị bạn lần đầu, bằng xương bằng thịt, tại nơi làm việc vào giờ tan sở ở Brookhurst Street, sau đó được chị cho quá giang xe về nhà riêng ở West First Street, Santa Ana.  Trước máy vi tính, chị đã cho tôi biết không dễ gì và có thể không cần phải thực hiện một dự án to lớn như vậy.  Nếu muốn biết từ nào đi trước đi sau từ nào, thì mình chỉ việc vào < yahoo.com > đánh máy từ đó, nếu là tiếng Việt, dùng loại chữ ‘unicode’, thì ta sẽ được vô số những câu có từ đó xuất hiện.  Chẳng hạn như muốn biết chữ  < kinh nghiệm > thường xuất hiện với những từ gì, cụm từ nào đứng trước hoặc đứng sau nó, thì đánh chữ đó vào ô trống, rồi bấm < search > thì ta có cả triệu ca trong đó có từ hoặc cụm từ xuất hiện với < kinh nghiệm >.  Có điều trong triệu ca đó thì có những từ, những cụm từ xuất hiện với cả < kinh > lẫn < nghiệm > nữa.  Tôi đã thử và đã nhận diện được một số từ kết hợp với < kinh nghiệm > như: 

 

< kinh nghiệm > + [sống; bản thân; ngoài đời; tình trường; cận chết; rời khỏi thân thể; mắt thấy tai nghe; công nghệ thông qua sản phẩm…].

 

Ở giai đoạn cuối của chuyến đi, 3 tuần lễ, trong đó có vài ngày bay sang Tampa, Florida, thăm một anh bạn cố tri cựu Sĩ quan Hải quân VNCH (vẫn phòng không một bóng) mới từ Milwaulkee, Wisconsin dọn xuống đấy, tôi đã thuê chiếc xe du lịch (2 ngày US$32 + US$24 bảo hiểm 2 chiều một ngày) cùng với bà xã (mới từ Sydney sang được 2 ngày), và bà chị ruột vốn đã ở vùng này, để lái đi từ Santa Ana đến San Diego (2 tiếng đồng hồ lái xe). Trước là để tham quan cho biết sự tình, sau là tò mò đến nhìn tận mắt sào huyệt Cơ quan Systran Software ở Mĩ (họ còn sào huyệt nữa ở Canada), và tìm gặp trực tiếp giới đầu não, chóp bu của họ để hỏi xem lí do gì khiến họ không có dịch máy tiếng Việt, và nhân tiện cũng ướm thử xem họ có sẵn sàng giúp đỡ tài chính và kĩ thuật cho mình để thực hiện nhu liệu dịch tiếng Việt tự động cho họ hay không.

 

Khởi hành lúc 5 giờ sáng, trời còn tối, phải bật đèn xe,  tôi lái xe ra từ một căn nhà ở West Central Avenue, khu Santa Ana, phía Đông Nam của Orange County, chạy theo chiếc xe của đứa cháu gái hướng dẫn một đoạn đường dài chưa đầy 10 phút.  Khi  bảng chỉ  405 South là cháu giơ tay ra hiệu cho tôi ghẹo mặt, trong khi xe cháu chạy thẳng để vòng về nhà (có thể là để ngủ tiếp).  Xe tôi bon bon quặt vào Freeway 405 rồi cứ thế chân thì ‘dzoọt’ ga trực chỉ hướng Nam giữa giòng xe chạy vun vút, ánh đèn pha cốt lập lòe, mắt thì chăm chú nhìn bảng hiệu chỉ đường đến San Diego, đầu óc thì tập trung để không quẹo vào nhầm Exit bậy bạ mà thành sai một li đi một dặm. 

 

Chúng tôi tới San Diego thì trời đã tảng sáng, chạy lòng vòng, chẳng biết đường nào phố nào. Sau đó chạy xe vào một trạm bán xăng thì mới mua được cái bản đồ thành phố.  Với bản đồ cầm sẵn trong tay, tôi lái xe chạy loanh quanh dạo chơi trong cái thành phố miền biển nổi tiếng là nơi nghỉ mát của nhiều giai nhân tài tử, trong đó có cả danh thủ quần vợt Mark Phillippoussis. Anh chàng thể tháo gia thuộc loại ‘playboy’ người Úc này (từng cặp bồ với nhiều cô gái ‘sexy’, kể cả nữ danh thủ quần vợt người Nga Anna Kournicova) đã dùng bãi biển miền Nam Cali này cho những ngày nghỉ trượt sóng (surfing) cách đó mấy tháng trước.  Ở vào thời điểm đó báo chí Úc xôn xao về chuyện ‘tình lên cao vút’ giữa anh với cô ca sĩ kiêm soạn nhạc của Úc trẻ đẹp (trông thấy là thèm rỏ dãi) tên là Delta Goodrem, lúc đó nàng đang chữa trị ung thư bạch huyết cầu (non-Hodgkins disease).

 

Khi tìm đến được Trụ sở của Systran Software Inc., nằm trên đường Genesee Avenue, ở San Diego, cho xe vào đậu tầng dưới hầm (underground, Úc gọi là basement) của toà nhà cao 3 tầng (phải trả tiền đậu xe tính theo giờ), là lúc giờ hãng sở sắp sửa nghỉ ăn trưa (lunch break). Tôi được cho biết là Thủ trưởng (President) của họ đi vắng, không có mặt tại sở, nếu muốn gặp thì phải đợi đến ngày hôm sau. Tôi cho họ biết là tôi ở Sydney sang và phải về lại Orange County trong ngày, nên họ sắp xếp cho người biết chuyện, biết việc tiếp tôi.  Họ mời tôi uống nước cô-ca, vào ngồi đợi trong một phòng họp trên tầng 1 (first floor), trong lúc đó thì bà xã và bà chị ngồi chơi ở dưới nhà khu ngoài trời tầng trệt (ground floor).  Sau hơn một tiếng đồng hồ ngồi đợi, đọc sách báo, gọi vài cú điện thoại đó đây, tôi đã được gặp anh Cris A. Fitch, dáng người cao mảnh khảnh, khoảng ngoài 30 tuổi,  khi anh đi ăn trưa về.  Qua danh thiếp trao đổi tôi được biết anh là Kĩ sư Trưởng/Quản lí Dự án (Senior Engineer/Project Manager) của cơ quan.

 

   Trụ sở Systran Software tại Genesee Avenue, San Diego

 

 

Tôi vội cho anh biết lí do và mục đích chuyến viếng thăm đột ngột của mình. Cách đó mấy tuần tôi đã gửi thư bằng đường bưu điện từ Úc, mà không thấy hồi âm.  Sau đôi ba câu xã giao thường lệ, anh cho biết vào giữa thập niên 90 chỉ có hai công ty chính là Globalink và Micro Tak chế tạo sản phẩm và cung cấp dịch vụ dịch thuật bằng máy. Hai công ti này sau đó sáp nhập làm một, nhưng chẳng bao lâu sau công ti hợp doanh này bị phá sản.  Chuyện dịch tiếng Việt bằng máy cũng đã được Globalink thực hiện nhưng vì không có chất lượng và chắc không đáp ứng được nhu cầu lợi nhuận nên họ không tiếp tục. 

 

Anh cũng cho biết thêm là cơ quan Systran không nghĩ đến đem tiếng Việt vào làm một ngôn ngữ dịch máy, nhưng anh đặt giả thuyết là nếu trong vài năm nữa, năm 2008 chẳng hạn, Google hay Systran tài trợ cho dự án dịch tiếng Việt thì công việc cho những ai muốn tham gia dự án là phải bắt đầu chuẩn bị nghiên cứu hai ngôn ngữ Anh Việt (khoan nói tới văn phạm, cú pháp) về những chuyện như sau:

 

1.      Văn bản song đôi (parallel corpora/twin texts): văn bản có nội dung tương tự.

2.      Vốn từ vựng (lexicon): toàn thể từ vựng có trong từ điển.

3.      Hình thái học/hình vị học (morphology): cấu trúc, cách tạo từ ngữ.

4.      Những từ đồng tự (homographs): chữ viết giống nhau mà khác nghĩa.

 

Anh cũng cho tôi biết mặc dù tiếng Việt có hơn 80 triệu người sử dụng, nhưng cũng còn có những ngôn ngữ khác mà anh đã kể ra, như Bengali có 200 triệu người sử dụng, hoặc tiếng còn tiếng Nam dương, tiếng Thái, tiếng Tamil, v.v…là những tiếng có đông người sử dụng mà về mặt dịch máy cũng không được quan tâm mấy.  Systran đã không đặt ưu tiên số đông người sử dụng mà để ý nhu cầu thực tiễn thương mại cho sản phẩm phần mềm của họ, nếu có.

 

Sau chuyến Mĩ du, tôi trở về Úc được khoảng 2 tuần lễ, thì có chuyện đưa đẩy tôi bay về Việt Nam, trong đó có việc liên lạc hợp tác với Trường Cao đẳng Hoa Sen ở Sài Gòn (nổi tiếng nhất nước về Tin học với chương trình dạy vi tính mua sẵn của Viện NIIT Ấn độ), trong việc chuẩn bị thiết lập văn bằng Cử nhân Biên dịch Phiên dịch khi trường này tiến lên qui chế Đại học. Chị Bùi Trần Phượng, Hiệu Trưởng Trường Hoa Sen, mới cho tôi biết là họ đang hoàn tất thủ tục trong ba tháng đầu năm 2006 để trở thành một Đại học tư thục (nghĩa là, ngoài môr số chuyện khác, họ có quyền quyết định học phí sinh viên phải trả). Liên quan đến dự án làm từ điển cho máy dịch của tôi, chị Phượng (cựu nữ sinh Marie Curie và cựu sinh viên cao học Đại học Sorbonne), hiện đang say mê trau dồi thêm tiếng Anh (nghe nói vậy), còn cho tôi biết: “Nếu chúng tôi có thể làm gì để góp phần rất khiêm tốn của mình vào dự án của anh, xin anh cứ đề nghị cụ thể”.  

 

Trong chuyến về Việt Nam này, tôi đồng thời cũng liên hệ với Trưởng phòng Quan hệ Đối ngoại, Trường Đại học Sư phạm Hà Nội, để tổ chức hội thảo, trao đổi kinh nghiện giảng dạy Anh ngữ và thông ngôn phiên dịch tại Úc với các giảng viên Anh ngữ và một số sinh viên Khoa Anh của trường.  Ngoài ra, tôi còn phải liên hệ với một vài sinh viên tham gia trong dự án làm từ điển song ngữ kết hợp từ của tôi. Cô cháu gái, chuyên viên máy vi tính, người giúp tôi lo việc liên lạc tại Hà Nội,  đã cho tôi biết báo Thanh Niên trực tuyến, số ra ngày 6-6-2005 có thông tin về phần mềm dịch tự động tiếng Việt.

 

Qua những thông tin này khác nữa, tôi được biết các chuyên gia vi tính của Phòng Công nghệ Phần mềm Máy tính, Viện Nghiên cứu Ứng dụng Công nghệ, Bộ Khoa học Công nghệ và Môi trường, đã giới thiệu phác thảo sơ khai về dịch máy năm 1990 và được sự quan tâm của một số cơ quan nghiên cứu và đào tạo.  Từ đó sản phẩm phần mềm EVTRAN 1.0 dịch tự động từ tiếng Anh sang tiếng Việt đã được thành hình như một thương phẩm đóng gói lần đầu tiên tại Việt Nam năm 1997 (với từ điển dịch chứa gần 80.000 mục từ).  

 

Bản  EVTRAN 2.0 được giới thiệu từ năm 2000 và đã thực sự góp phần hỗ trợ những người sử dụng máy vi tính khi làm việc với văn bản tiếng Anh.   Và mới đây là bản EVTRAN 3.0 (còn có tên gọi là EV-SHUTTLE) là phần mềm dịch tự động hai chiều Anh-Việt/Việt-Anh.

Ngồi xe ôm đến  Viện Nghiên cứu Ứng dụng Công nghệ Phần mềm

 

Nỗi vui mừng trước tiên và trên hết của tôi là biết có tiếng Việt cho máy dịch, mặc dù biết hơi trễ, và máy đọc được tiếng Việt và dịch ra được tiếng Anh. Tôi đã tìm cơ hội đến tận Phòng Công nghệ Phần mềm Máy tính của Viện Nghiên cứu Ứng dụng Công nghệ này ở C6 Thanh Xuân Bắc, Hà Nội, để gặp và nói chuyện với ông Lê Khánh Hùng, cùng với anh Lê Minh Hoàn và 2 người bạn trẻ nữa.

 

Trong một tài liệu đưa tay cho tôi, ông Hùng đã viết về sản phẩm dịch máy như sau:

 

Trong mọi sản phẩm dịch máy phần trọng tâm là động cơ dịch:  thành phần thực thi việc phiên dịch từ ngôn ngữ này sang ngôn ngữ khác. Người ta phân ra hai loại kiến trúc chính của động cơ dịch:

 

-                     Kiến trúc trực tiếp (dựa trên chuyển đổi văn phạm)

-                     Kiến trúc gián tiếp (dựa trên kiến thức ngôn ngữ)

 

Các thương phẩm dịch máy hiện hành hoặc có kiến thức chuyển đổi trực tiếp (như Systran …) hoặc là sự lai ghép giữa kiến thức chuyển đổi với việc áp dụng tri thức về ngôn ngữ (như Globallink, IBM…).  Động cơ dịch của phần mềm EVTRAN cũng dựa trên sự lai ghép của hai kiến thức nêu trên.

 

Khung động cơ dịch của EVTRAN có thể mô tả vắn tắt như sau:

 

1.         Phân tích văn phạm: Từ câu cần dịch xây dựng cây cú pháp nguồn.

2.         Chuyển đổi:  Biến đổi cây cú pháp nguồn thành cây cú pháp đích.

3.         Tổng hợp câu: Từ cây cú pháp đích xây dựng câu dịch.

 

Với mỗi câu có thể dựng được nhiều cây cú pháp khác nhau, đó là tính nhập nhằng nội tại của ngôn ngữ nguồn.  Việc chọn cây thích hợp được thực hiện trong bước Phân tích Văn phạm.  Đối với những nhập nhằng  do chuyển ngữ thì có thể thực hiện trong bước chuyển đổi, khi có sẵn thông tin của ngôn ngữ đích.

 

Công cụ hình thức để mô tả cú pháp là Văn phạm Phi ngữ cảnh.  Tuy nhiên, mô hình này nhìn chung không thể thể hiện những tình huống ngôn ngữ tinh tế.

 

Những nghiên cứu tại Viện Nghiên cứu Ứng dụng Công nghệ tập trung vào việc mở rộng mô hình văn phạm để mô tả được những Luật hành văn (bao gồm Ngữ vựng, Ngữ pháp, Ngữ nghĩa và Ngữ dụng).  Cách tiếp cận là những ứng dụng khác nhau để mô tả những qui luật hành văn khác nhau của ngôn ngữ.

 

Tôi đã có dịp thử phần mềm EVTRAN 2.0 dịch tự động sang tiếng Việt một đoạn viết bằng tiếng Anh thì thấy là như sau:

 

Nguyên bản

Life is short: Think BPP

 

Dalai Lama, the chief lama and until 1959 ruler of Tibet once said:

 

“I believe that the very purpose of our life is to seek happiness.  That is clear.  Whether one believes in religion or not, whether one believes in this religion or that religion, we all are seeking something better in life.  So, I think, the very motion of our life is towards happiness… And happiness can be achieved through training the mind.”

 

The leader of the Tibetan people was not referring to “the mind’ merely as one’s cognitive ability or intellect.  Rather, he was using the term in the sense of the Tibetan word Sem, which has a much broader meaning, encompassing intellect and feeling, heart and mind.  By bringing about a certain inner discipline, we can undergo a transformation of our attitude, and our approach to living.

 

I have started thinking about how to spend the twilight of my life in a peaceful state of mind. My recent motto happens to be “Think BPP”. Confusing, isn’t it? Let me explain it fully. 

 

Dưới đây là bản dịch bằng máy:

Bản máy dịch 

Cuộc sống (thì) ngắn : Nghĩ BPP

 

Hà mã Dalai, Hà mã chính và cho đến khi 1959 thước đo (của) Tibet một lần nói: 

 

“Tôi tin tưởng rằng chính mục đích (của) cuộc sống (của) chúng ta sẽ tìm kiếm hạnh phúc. Cái đó (thì) sáng sủa. Dù một tin tưởng vào tôn giáo hay không, dù một tin tưởng vào tôn giáo này hoặc tôn giáo đó, chúng ta hoàn toàn đang tìm kiếm cái gì đó tốt hơn trong cuộc sống. Như vậy, Tôi nghĩ, chính sự chuyển động (của) cuộc sống (của) chúng ta về phía hạnh phúc … Và hạnh phúc có thể được đạt được xuyên qua việc huấn luyện tâm trí.”

 

Người lãnh đạo (của) Người Tây tạng (mà) những người đang không viện dẫn “ Tâm trí ' Đơn thuần như ability nhận thức hoặc sự hiểu biết (của) ai đó.  Khá, (Mà) anh ta đang sử dụng Thời hạn trong cảm giác về từ Tây tạng Sem, Mà có một nhiều sự hiểu biết và cảm giác đầy ý nghĩa, xung quanh rộng hơn, trái tim và tâm trí. Bởi việc dẫn đến một kỷ luật (môn) bên trong nhất định, chúng ta có thể trải qua một sự biến đổi (của) thái độ (của) chúng ta, và (sự) tiếp cận để sống (của) chúng ta.

 

Tôi đã bắt đầu nghĩ quanh làm sao để tiêu thụ lúc hoàng hôn (của) cuộc sống (của) Tôi trong một trạng thái hòa bình (của) tâm trí.  Khẩu hiệu gần đây (của) Tôi xảy ra Tới “ Nghĩ BPP ”. Làm bối rối, (thì) không phải là nó. Cho phép tôi giải thích nó hoàn toàn.

 

Dưới đây là bản dịch của tôi:

Bản người dịch 

Đời người ngắn ngủi:  Hãy nghĩ BPP

 

Đức Đại-la Lạt-ma, Giáo chủ Phật giáo và là Nhân vật cai trị nước Tây tạng cho đến năm 1959 đã có lần nói: 

 

“Tôi tin rằng mục đích chính yếu của cuộc sống chúng ta là tìm hạnh phúc. Điều đó thật rõ ràng.  Cho dù ta có niềm tin tôn giáo hay không, cho dù ta tin vào tôn giáo này hoặc tôn giáo nọ, chúng ta đều đi tìm một cái gì tốt đẹp hơn trong đời. Cho nên, tôi nghĩ, cái động năng chính của cuộc sống chúng ta là hướng đến hạnh phúc… Và hạnh phúc có thể đạt được qua việc tập luyện trí tuệ.”

 

Vị lãnh đạo dân tộc Tây tạng không nói đến “trí tuệ” chỉ trong ý nghĩa là khả năng nhận thức hay trí tuệ. Mà Ngài đã dùng từ này với nghĩa của từ ‘Sem’ trong tiếng Tây tạng, có nghĩa rộng hơn, bao gồm cả tri thức lẫn cảm quan, cả tâm lẫn trí. Bằng cách tạo dựng một kỉ luật nội tâm nào đó, chúng ta có thể biến đổi được thái độ và lối sống của mình.

 

Tôi đã bắt đầu nghĩ về chuyện làm sao sống cảnh hoàng hôn của đời mình cho tâm hồn được an bình. Phương châm mới đây của tôi là: Hãy nghĩ BPP. Nghe khó hiểu nhỉ?  Để tôi giải thích tường tận cho nghe nhe!

 

Có nhiều bạn có thể thất vọng, không vừa lòng với máy dịch ở giai đoạn này, nhưng máy là vật vô tri vô giác, bảo sao theo vậy, có sao làm vậy,  đâu có lỗi, đâu có tội tình gì?  Lỗi chăng là do ở người cung cấp thông tin cho máy xử lí theo hiệu lệnh của người.  Chính ông Hùng cũng đã không ngần ngại nhìn nhận rằng sản phẩm của họ, cũng như sản phẩm của đa số ngôn ngữ khác, chưa thật sự có chất lượng tốt (chưa được đến 50% toàn hảo).  Ông còn cho biết Nhóm Nghiên cứu tại Hà Nội, cũng như Nhóm Nghiên cứu tại Sài Gòn (tôi chưa có dịp làm quen họ), vẫn đang tiếp tục quá trình hoàn chỉnh sản phẩm này.

 

Tôi không hiểu là Nhà Nước có đặt vấn đề ưu tiên cho dự án loại này không? Có giúp đỡ tài chính và kĩ thuật cho tư nhân khai thác không? Có chuyện dấu nghề, bảo vệ bản quyền không?  Nhất là một khi sản phẩm này xử dụng vào mục đích thương mại.  Làm sao tránh được những bọn hackers phá đám, chôm chỉa (piracy). 

 

Tôi đã từ Úc gửi mua được phần mềm EV-SHUTTLE (giá 290.000 đồng VN, khoảng 26 đô-la Úc) và sẽ thử nghiệm trong việc dịch tự động chiều từ Việt sang Anh trong nay mai. Thế nhưng, đó sẽ là đề tài cho một bài viết khác.

 


  

Ông Lê Khánh Hùng, Phòng Công nghệ Phần mềm

 

Mới đây, sau khi hỏi về mã kích hoạt (activation key) phần mềm mới mua, tôi cũng nhận

được điện thư (email) ngày 15-12-2005 của anh Hùng tại Hà Nội như sau: 

 

Kính gửi anh Frank Trịnh Nhật,  

 

Chúng tôi đã gửi mã trả lời; nếu có gì trục trặc mời anh liên lạc ngay.  Thú thật với anh là trong những ngày anh về Việt nam chúng tôi quá bận để thực hiện sản phẩm nên có phần thất lễ với anh. Bản thân tôi rất ân hận, đặc biệt là việc không kịp sang trường sư phạm được. Mong anh thể tất.  

 

Bây giờ mới tạm thu xếp một phần, nhân nhận được thư anh, tôi xin có vài dòng trao đổi.  Tôi đã xem một số bài viết của anh, (và của một số người khác) trên talawas về tiếng Việt và dịch thuật. Trước hết cần nói ngay với anh rằng chúng tôi là người ngoại đạo, mặc dù tất cả chúng ta đều ngày ngày sử dụng cái tiếng Việt này.  Nếu anh quan tâm, chúng tôi có thể trình bày một số suy nghĩ của mình để anh góp ý ngõ hầu ta có thể tạo ra sản phẩm dịch máy (cũng như những công cụ ngôn ngữ) tốt hơn trong tương lai.  Mong anh cho biết ý kiến.  

 

Hùng 

 

Tôi còn nhớ gặp anh Hùng tại văn phòng 2 lần, một lần vào đầu tháng 11 và một lần vào giữa tháng 11, 2005, ở thời điểm anh đang bận rộn sửa soạn giấy tờ đi công du tại Nhật Bản.  Có thể đó là lí do khiến anh không đến tham gia vào cuộc hội thảo của tôi về “niềm mơ ước về dịch thuật tiếng Việt bằng máy” tại trường Đại học Sư phạm Hà Nội chiều ngày 2-11-2005.

Trở lại chuyện tôi được mời làm Điều phối viên trong Dự án Máy dịch (Machine Translation Project) của Nhóm Nghiên Cứu Việt Ngữ tại California. Dưới đây là lá thư của Ông Phạm Hải, Tiến sĩ về Khoa học Điện toán (PhD in Computer Science) viết cho tôi ngày 21-12-2005 như sau:

 

“Thưa Ông Trịnh Nhật,

 

Tôi vẫn đọc nhiều bài viết của ông trên vny2k.com và những websites khác về vấn đề Phiên Dịch Anh Việt. Xin tự giới thiệu, chúng tôi thuộc Nhóm Nghiên Cứu Việt Ngữ, "bản doanh" ở California, đa số là những chuyên viên Tin học. Từ năm 1995, chúng tôi đã có kế hoạch làm software phiên dịch Anh Viêt, nhưng không thành công vì thiếu bảo trợ tài chính. Từ đầu năm nay (2005) Nhóm sẽ hoạt động theo đường hướng mới. Nhóm sẽ kêu gọi chuyên viên và học giả khắp thế giới làm việc trên căn bản tự nguyện và vô vị lợi, với mục đích nghiên cứu Việt Ngữ, giúp Nhóm thiết lập Machine Translation software. Software này sẽ là freeware cho cộng đồng người Việt khắp thế giới, giúp chúng ta phiên dịch các tài liệu Anh Ngữ qua Việt Ngữ. Việc phiên dịch này rất cần thiết trong việc phát triển đất nước.

 

Chúng tôi bắt đầu bằng đề nghị

một Dự Án Ngữ Toán (http://www.viethoc.org/content.php?menu=2400&page_id=56 )

qua sự bảo trợ của Viện Việt Học (Wesminster, California ).

 

Nhóm chúng tôi đã làm

một software Chú Thích Hán Việt (www.petrustvk.com/ChuThich.html ).

 

Được biết Ông đang làm từ điển collocation để phiên dịch, chúng tôi thiết nghĩ chúng ta có

thể hợp tác vì Nhóm đã bắt đầu công tác này từ lâu và đã có một số kết quả qua các software Nhóm chúng tôi thiết kế. Từ điển collocation cũng là thành phần nồng cốt trong Dự Án Ngữ Toán. Chúng tôi đã có một website từ điển Anh Việt (lưu hành nội bộ). Muốn làm bộ Machine Translation hoàn hảo, chúng tôi cần những chuyên viên Phiên Dịch chuyên nghiệp như Ông, giúp chúng tôi thử nghiệm những phương pháp trong khi nghiên cứu Machine Translation Anh > Việt, Việt > Anh.

 

Website chúng tôi < vietngu.org > vừa shutdown vì có trục trặc với hosting company. Chúng tôi đang thiết lập server mới và sẽ dùng nó để host Machine Translation project. Chúng tôi sẽ host từ điển Anh-Việt, từ điển collocation và từ điển dịch thuật trên < vietngu.org >. Chúng tôi xin mời Ông làm điều phối viên cho các websites này.

 

Xin ý kiến Ông về dự án Machine Translation của Nhóm chúng tôi. Mong tin Ông.

 

Kính,

Phạm Hải
Nhóm Nghiên Cứu Việt Ngữ

 

Mới đây ông Phạm Hải còn cho tôi biết một tin vui: “Chúng tôi đã có kế hoạch xúc tiến giai đoạn 1 cho dự án Ngữ Toán Tiếng Việt.  Trong vòng 6 tháng, chúng tôi sẽ công bố text corpus cho hơn 10.000 tiếng đơn và hơn 100.000 tiếng kép.  Chúng tôi cũng xúc tiến song song dự án Từ Điển Ngữ Nghĩa tiếng Việt, bắt đầu bằng Tử Điển của Lê Ngọc Trụ và Lê Văn Đức.”

 

Liên hệ đến 2 lá thư mời họp tác của hai vị chuyên gia tin học đầu ngành về phần mềm dịch tự động tiếng Việt: một ở Hoa kì và một ở Việt Nam, tôi chưa có dịp bàn thảo và cam kết gì trước những đề nghị của họ. Ở thời điểm này, tôi xin được tạm hoãn trả lời khẳng định với họ để có thời giờ suy nghĩ xem mình có thể đóng góp được những gì, chi tiết hình thức hợp tác, và thời lượng cần có để thực hiện công tác.  Người Anh họ nói: “Two heads are better than one”, còn người Việt thì lại bảo: “Ba cây chụm lại nên hòn núi cao!”

 

Cái thú vị trước mắt, đối với tôi lúc này, là sự đáp ứng của những người cùng có chung một mục đích—mục đích phục vụ cho tiếng Việt, cho việc dịch thuật tiếng Việt trong chiều hướng ứng dụng kĩ thuật, công nghệ phần mềm tiên tiến, hiện đại trong đệ tam thiên niên kỉ.

 

Cái thú vị nữa là, sau chuyến đi nửa vòng trái đất, tôi đã tình cờ bắt gặp được phần mềm… ngay trong lòng đất Mẹ! 

Trịnh Nhật

Sydney, Tháng Giêng 2006

 

 

 Trở về Trang Chính