Các sai lầm của thuyết ‘Chữ Hán ưu việt’ - Máy Ép Cám Nổi | Dây Chuyền Sản Xuất Thức Ăn Thủy Sản Tối Ưu

Tác giả: Mễ A Luân[1] | Biên dịch và chú thích: Nguyễn Hải Hoành

Đã nhiều năm nay thuyết “chữ Hán ưu việt” rất thịnh hành ở Trung Quốc (TQ). Thuyết này trái ngược nghiêm trọng với các nguyên lý khoa học kỹ thuật, gây ra sự ngộ nhận cực lớn trong xã hội, đồng thời gây ra trở ngại cực lớn cho sự phát triển khoa học công nghệ (KHCN) thông tin Trung văn. Muốn tự chủ phát triển sáng tạo các công nghệ cốt lõi và giành lấy quyền chủ động chiến lược phát triển KHCN thông tin Trung văn, TQ cần phải tiến hành dọn sạch các sai lầm của thuyết “chữ Hán ưu việt”.

1. Thuyết “Chữ Hán ưu việt” bắt đầu tràn ngập đại lục TQ từ năm 1989. Quan điểm phổ biến nhất hồi đó là: Trong các văn kiện của Liên Hợp Quốc (LHQ), những tệp [file] văn kiện in chữ Hán có độ dày nhỏ nhất, cho nên chữ Hán ưu việt hơn các loại ngôn ngữ như Anh văn. Vì người cổ súy cho thuyết “Chữ Hán ưu việt” từng làm công tác phiên dịch tại trụ sở LHQ nên quan điểm đó đã làm nhiều người nhầm lẫn.[2]

Ta đều biết, khi tiến hành bất kỳ sự so sánh nào phải có một tiền đề tối thiểu: điều kiện và phương thức phải như nhau. Thế nhưng cách viết tiếng Anh và cách viết chữ Hán là hai phương thức có điều kiện khác nhau: tiếng Anh dùng cách viết nối liền một dòng đơn [đơn tuyến] các ký tự chữ cái, còn chữ Hán dùng cách vẽ các nét bộ thủ trên bình diện. Nếu các nét bộ thủ ấy cũng dùng cách viết liền các ký tự trên một dòng thì độ dài của dòng cần thiết cho một chữ Hán thường là lớn hơn dòng viết chữ cái tiếng Anh. Nếu các từ tiếng Anh cũng dùng cách vẽ trên bình diện thì không gian bình diện cần vẽ chẳng khác mấy so với chữ Hán.

Xin nêu một ví dụ: “中国人Trung Quốc nhân” [người TQ], Trung văn dùng 3 ký hiệu chữ Hán, còn Anh văn “CHINESE” dùng 7 ký tự không thể chia cắt nhau viết liền một dòng. Nhưng nếu chữ Hán cũng dùng các ký tự không thể chia cắt viết theo cách viết liền một dòng, thí dụ các nét bộ thủ viết liền nhau, thì sẽ có 14 ký hiệu “sổ (nét thẳng đứng), triết (nét gập), hoành (nét ngang), sổ … ”, nối nhau trên chiều dài lớn hơn nhiều so với dãy chữ tiếng Anh. Có thể vì thế mà nói rằng văn bản in bằng chữ Hán sẽ mỏng hơn in bằng tiếng Anh, từ đó nói Hán ngữ “ưu việt” hơn Anh ngữ chăng? Dĩ nhiên là không.

Như vậy, quan điểm nói “Trong các văn kiện của Liên Hợp Quốc, những tệp văn kiện in chữ Hán có độ dày nhỏ nhất, cho nên chữ Hán ưu việt hơn các loại ngôn ngữ như Anh văn… ” là quan điểm hoàn toàn không có chút thường thức tối thiểu về so sánh, phân tích; sự so sánh như thế là không có ý nghĩa gì hết.

2. Những người cổ súy thuyết “chữ Hán ưu việt” nói: vì chữ Hán có lượng thông tin bình quân [平均信息量, Average information content] lớn, cho nên chữ Hán ưu việt hơn tiếng Anh.

Đây là cách nói theo kiểu đoán mò.

Nguyên lý cơ bản của khoa học thông tin cho thấy: lượng thông tin bình quân của hệ thống ký hiệu mà dữ liệu sử dụng càng lớn thì tính bất ổn định và phí tổn [nguyên văn: tiêu hao] của hệ thống đó càng lớn, là yếu tố bất lợi cho việc quản lý và truyền thông tin. Ví dụ Entropy thông tin bình quân [平均信息熵] của Anh văn vào khoảng 4,03 bit, của chữ Hán khoảng 9,6 bit, tức lượng thông tin bình quân của chữ Hán lớn hơn nhiều so với của ký hiệu Anh văn. Khi làm cùng một tác nghiệp dữ liệu thì hệ thống ký hiệu chữ Hán có phí tổn tổng thể lớn nhất, vì vậy lượng thông tin lớn của chữ Hán chính là yếu tố bất lợi. Nếu lượng thông tin bình quân lớn mà có thể đổi lấy độ chính xác tinh vi bình quân cao hơn (ví dụ tính tin cậy và tránh được sự đa nghĩa…) thì có lẽ cũng đáng giá. Nhưng theo sự khảo sát phân tích của các chuyên gia TQ và nước ngoài thì độ dư thừa bình quân [平均多余度, Average redundancy] của các hệ ký tự chữ Hán và Anh văn lại suýt soát như nhau, cũng tức là nói, lượng thông tin bình quân lớn của chữ Hán không mang lại độ chính xác tinh vi cao hơn, cũng chẳng mang lại hiệu quả thực tế tăng được tính tin cậy và tránh được sự đa nghĩa. Muốn đạt được độ chính xác tinh vi và tính tin cậy đại để như nhau thì hệ ký hiệu chữ Hán lại có phí tổn cao hơn rất nhiều so với hệ ký hiệu Anh văn. Như vậy có thể nói chữ Hán “ưu việt” hơn tiếng Anh được chăng?

Quan niệm cứ thấy “lớn” thì cho là tốt đã chiếm lĩnh đầu óc của nhiều người, bởi vậy khi thấy nói “chữ Hán có lượng thông tin bình quân lớn”, người ta bèn đoán mò nghĩ rằng điều đó thật là “ưu việt” xiết bao. Họ đâu có biết rằng đấy chính là yếu tố bất lợi cho việc quản lý và truyền dữ liệu. Lấy “chữ Hán có lượng thông tin bình quân lớn” làm lý do cho quan điểm “chữ Hán ưu việt” là việc làm đi ngược lại nguyên lý khoa học và tri thức cơ bản của lý thuyết thông tin.

3. Những người cổ súy thuyết “chữ Hán ưu việt” nói: trong thao tác máy tính, thao tác đưa chữ Hán vào máy tính nhanh hơn tiếng Anh, chỉ gõ vài phím là trên màn hình đã xuất hiện cả một cụm từ hoặc câu ngắn, trong khi tiếng Anh thì phải gõ từng chữ cái, vì thế chữ Hán “ưu việt” hơn tiếng Anh.

Đây là cách nói thiếu hiểu biết về máy tính.

Ai hiểu nguyên lý đưa vào lấy ra từ máy tính đều biết rằng mối quan hệ giữa cách hiển thị ký tự và việc thao tác bàn phím hoàn toàn là quy định của trình tự do con người làm ra. Ví dụ có trình tự quy định: Zhongguo = “中国 (Trung Quốc)”, ren = “人 (người)”; zgr = Zhongguo + ren. Như vậy khi gõ “zgr” thì sẽ hiển thị ba chữ Hán “中国人”. Cũng theo phương pháp đó, người ta soạn một trình tự đưa vào lấy ra theo cách gõ các ký tự “Shakespeare_12” sẽ hiển thị toàn bộ tác phẩm “Đêm thứ 12” gồm mấy trăm nghìn ký tự tiếng Anh. Như vậy có thể nói đưa tiếng Anh vào máy tính nhanh hơn tiếng TQ, do đó nói hệ thống chữ viết Anh văn “ưu việt” hơn hệ thống văn tự chữ Hán được không? Rõ ràng là không.

Thao tác máy tính tiếng Anh phổ biến dùng phương pháp đưa vào từng chữ cái, nhằm để việc quản lý toàn diện dữ liệu tiếng Anh có một tiêu chuẩn thống nhất, nhằm đạt được hiệu quả giá thành tốt hơn, chứ không phải là do nhân viên làm công tác quản lý dữ liệu máy tính tiếng Anh không biết gì về thiết kế trình tự đơn giản quy định cụm từ, câu ngắn như thế nào, lại càng không phải vì tiếng Anh có “hơn kém” gì so với các ký hiệu văn tự khác.

4. Thuyết “chữ Hán ưu việt” còn có một phát biểu nữa: “Vì chữ Hán có đặc điểm tượng hình, biểu ý nên nó đặc biệt thích hợp dùng cho khoa học kỹ thuật hiện đại, là thứ ngôn ngữ máy tính lý tưởng.”

Nói như thế là không đúng sự thật, cũng không hợp với nguyên lý làm việc của máy tính.

Từ ngày công nghệ máy tính Trung văn bắt đầu phát triển, thời gian dùng cho việc làm ra phương pháp đưa chữ Hán vào máy tính đã tốn mất hơn 30 năm, kinh phí và nhân lực bỏ ra lại càng không thể tính toán được. Thế nhưng cho tới nay do kho dữ liệu chữ Hán vẫn không đủ dùng, việc đăng ký hộ khẩu tại cơ quan công an, việc đăng ký chủ tài khoản ngân hàng từng nhiều lần xảy ra trục trặc khó xử; vấn đề truyền và xử lý dữ liệu Trung văn xảy ra loạn mã cho đến nay cũng chưa hoàn toàn giải quyết xong. Kho dữ liệu chữ Hán hiện có dùng 2 bites [nhị tự tiết]; muốn bao gồm tất cả các chữ Hán thì tất phải dùng 4 bites [tứ tự tiết],[3] khi đó chẳng nói cũng biết là giá thành sẽ cao và hiệu suất sẽ thấp. Điều đáng chú ý nữa là cứ cho rằng đã hoàn tất việc xây dựng kho dữ liệu chữ Hán đi nữa, thì cũng không thể đáp ứng nhu cầu quản lý toàn diện dữ liệu Trung văn. Mọi việc vẫn cứ phải làm lại từ đầu. Trước những sự thật đó, sao mà có thể nói “chữ Hán đặc biệt thích hợp dùng cho KHKT hiện đại” và là “thứ ngôn ngữ máy tính lý tưởng hơn”?

Cái gọi là “ngôn ngữ máy tính” vừa không phải là Anh văn lại cũng chẳng phải là Trung văn hoặc ký hiệu văn tự nào khác loài người đang sử dụng. Nó là ngôn ngữ hệ nhị phân do “0” và “1” họp thành, tức “ngôn ngữ máy”. Cho dù dữ liệu thuộc chủng loại hình vẽ, âm thanh hay chữ viết, việc xử lý máy tính của chúng đều được hoàn thành bởi thao tác đóng mở công tắc chế độ nhị phân, hoàn toàn không có quan hệ gì với việc ký hiệu văn tự nó sử dụng là tượng hình, biểu ý và với cách viết thư pháp của nó. Nếu ký hiệu chữ Hán là “ngôn ngữ máy tính lý tưởng hơn” hệ nhị phân, thế thì tại sao trên thế giới chưa có một máy tính nào (kể cả máy tính TQ sử dụng) bỏ hệ nhị phân, sử dụng hệ ký hiệu chữ Hán để thiết kế chế tạo?

5. Từ lâu Chính phủ TQ đã công bố Phương án Pinyin Hán ngữ hiện đại [Scheme for Chinese phonetic alphabet] và các quy phạm tiêu chuẩn ngôn ngữ văn tự như Chính từ pháp [正词法, orthography, phép chính tả; ở đây là Phép chính tả của Pinyin Hán ngữ]… cùng các quy phạm tiêu chuẩn quốc tế được các tổ chức quốc tế chính thức như Liên Hợp Quốc tiếp nhận sử dụng trên toàn cầu.

Thế nhưng những người cố súy thuyết “chữ Hán ưu việt” lại nói các quy phạm tiêu chuẩn đó là “tả khuynh” và “mù quáng phương Tây hóa”; họ chủ trương trở về “Chú âm chữ Hán (Hán tự chú âm汉字注音) ” cách nay ngót trăm năm.[4] Do sự dẫn dắt sai lầm nghiêm trọng của thuyết “chữ Hán ưu việt”, hiện nay hầu hết tài liệu Trung văn và nhiều tài liệu chữ viết phát hành trong, ngoài TQ đều dùng phương pháp “Chú âm chữ Hán”, đem lại hậu quả tiêu cực nghiêm trọng cho công tác quản lý dữ liệu Trung văn.

Ví dụ câu “Bắc Kinh là thủ đô TQ”, theo phương thức viết pinyin Hán ngữ hiện đại của quy phạm tiêu chuẩn quốc gia, câu này viết là: “Beijing shi Zhongguo de shoudu”. Nhưng phương thức viết “Chú âm chữ Hán” do thuyết “chữ Hán ưu việt” chủ trương lại viết: “bei jing shi zhong guo de shou du”. Đến khi xử lý dữ liệu thì phương thức là “beijingshizhongguodeshoudu”. Chẳng cần nói nhiều, dùng phương thức này để xử lý dữ liệu Trung văn sẽ đem lại phí tổn lớn hoàn toàn không cần thiết cho việc phán đoán ranh giới từ [nguyên văn từ giới, 词界, word boundary], khiến cho những việc xử lý dữ liệu như tra cứu, xếp thứ tự, và tự động phiên dịch sẽ xảy ra nhiều sai lầm khác nghĩa, làm giảm đáng kể hiệu suất công việc, thậm chí làm cho công tác quản lý vốn dĩ có thể hoàn thành một cách thoải mái lại trở nên khó hoàn thành; hơn nữa, cho dù có thể bỏ qua chuyện khác nghĩa thì vấn đề giá thành cao vẫn vượt quá sức tưởng tượng. Chính vì thế mà bao năm nay việc nghiên cứu các công nghệ đọc tự động và dịch tự động của TQ hầu như không có tiến triển thực chất nào.

Xét từ góc độ lịch sử văn hóa, cách viết Trung văn đã nhập khẩu phương pháp đánh dấu chấm câu của phương Tây, làm cho văn tự chữ Hán biểu đạt rõ ràng hơn, chuẩn xác hơn và dễ đọc hơn, tạo điều kiện cho việc xóa nạn mù chữ và giúp nhiều người hưởng cơ hội học tập. Cũng với lý lẽ như vậy, việc sử dụng các phương pháp như Chính từ pháp để xác định ranh giới từ đã làm cho cách viết Hán ngữ tiến thêm một bước theo hướng rõ ràng, chuẩn xác và dễ đọc, có ý nghĩa quan trọng đối với việc phát triển công nghệ thông tin Trung văn và hiện đại hóa văn hóa. Việc áp dụng cách “Chú âm chữ Hán” như chủ trương của thuyết “chữ Hán ưu việt” chẳng những là sự thụt lùi văn hóa và tạo trở ngại cho nhiệm vụ phát triển công nghệ thông tin Trung văn, mà hơn nữa, xét từ góc độ đời sống quốc gia, việc chưa trải qua trình tự pháp lý đã phủ định, thậm chí có hành động chống đối các quy phạm tiêu chuẩn liên quan Chính từ pháp nhà nước đã ban hành, là một việc vô lý.

Thuyết “chữ Hán ưu việt” đi ngược lại sự thật và trái với nguyên lý khoa học, nhưng nhiều năm nay thuyết này đã lan tràn khắp xã hội TQ, đầy rẫy trên các báo đài. Thậm chí không ít quan chức nhà nước, viện sĩ, danh nhân, học giả và các nhà văn cũng theo nhau ai nói sao ta cũng bào hao nói vậy.

Muốn tự chủ sáng tạo phát triển công nghệ thông tin Trung văn, muốn nắm quyền chủ động chiến lược thì TQ phải dọn sạch các sai lầm nghiêm trọng do thuyết “chữ Hán ưu việt” gây ra.

Vì vậy, tác giả trịnh trọng kiến nghị: Xin hãy chớ tiếp tục gieo rắc thuyết “chữ Hán ưu việt” đi ngược lại nguyên lý khoa học và trái với sự thật.

Nguồn bài dịch: 学者：清理 “汉字优越” 论的误导

—————

[1] Mễ A Luân là bút danh của một học giả được Nhân dân Nhật báo (NDNB) TQ giới thiệu là “nông dân số hóa” sống ở Mỹ, chắc là chuyên gia máy tính TQ. Mạng people.com.cn cho biết: các bài viết của Mễ A Luân đều được bạn đọc hoan nghênh; đó là công lao của nhóm làm chuyên mục “Xóm Mễ A Luân”, do Chinabyte (của NDNB và Tập đoàn Tin tức cùng tổ chức) chủ trì. Các thành viên Chinabyte đều là chuyên viên chủ chốt của NDNB, mạng people.com, tạp chí Computer World… Các bài viết nhẹ nhàng nhưng sâu sắc, đều nhằm chấn chỉnh những xu hướng sai lầm lớn trong đời sống văn hóa xã hội TQ.

[2] Tỷ lệ sử dụng 6 ngôn ngữ làm việc của LHQ trong soạn thảo các văn kiện ban đầu ở LHQ như sau: Tiếng Anh 80%, Pháp – 15%, Tây Ban Nha – 4%, còn lại 1% – Nga, A Rập, TQ (theo nhà ngôn ngữ số một TQ Châu Hữu Quang).

[3] Nhị tự tiết: dùng 2 bytes để mã hóa 1 ký tự. Tứ tự tiết: dùng 4 bytes để mã hóa 1 ký tự.

[4] Cách ghi âm chữ Hán bằng ký tự chữ Hán cổ, không dùng chữ cái Latin, không viết hoa được, không viết liền được, do đó không phân biệt được danh từ riêng.

Rate this post

Viết một bình luận Hủy