Tiếng Romania: Ngôn ngữ Rômanh ở Đông Âu

OpenL Team 5/21/2026

TABLE OF CONTENTS

Một ngôn ngữ Rôman phát triển ở vùng Balkan, giữ lại hệ thống cách ngữ pháp Latinh và học cách đặt “the” ở cuối mỗi từ.

Phân loại

Tiếng România thuộc nhánh Italik của họ ngôn ngữ Ấn-Âu, nằm trong nhóm ngôn ngữ Rôman cùng với tiếng Pháp, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và tiếng Catalan. Cụ thể hơn, nó tạo thành phân nhóm nhỏ Rôman phương Đông — một nhóm ngôn ngữ nhỏ xuất phát từ tiếng Latinh được nói ở tỉnh Dacia của La Mã và khu vực Balkan lân cận.

Các nhà ngôn ngữ học thường phân biệt bốn phương ngữ lịch sử của Rôman phương Đông:

  • Daco-Romanian — ngôn ngữ tiêu chuẩn và là chủ đề của hướng dẫn này
  • Aromanian — được nói bởi các cộng đồng ở Hy Lạp, Bắc Macedonia, Albania, Bulgaria, Kosovo và Serbia
  • Megleno-Romanian — gần như tuyệt chủng, chỉ còn tồn tại ở một vài làng phía bắc Hy Lạp
  • Istro-Romanian — gần như tuyệt chủng, được nói ở một số làng tại Istria, Croatia

Khi hầu hết mọi người nói về “tiếng România”, họ ám chỉ Daco-Romanian tiêu chuẩn, ngôn ngữ chính thức của România và Moldova.

Tiếng România được nói ở đâu

Tiếng România có khoảng 24–26 triệu người nói bản ngữ trên toàn thế giới, cùng với vài triệu người nói như ngôn ngữ thứ hai (Wikipedia: Romanian language). Đây là ngôn ngữ chính thức của hai quốc gia và có các cộng đồng kiều dân lớn khắp châu Âu và Bắc Mỹ.

Khu vựcSố người nói bản ngữ (ước tính)Tình trạng chính thức
România~19 triệuNgôn ngữ chính thức duy nhất
Moldova~2,5–3 triệuNgôn ngữ chính thức (đổi tên từ “Moldovan” năm 2023)
Ý~1 triệuCộng đồng kiều dân lớn nhất
Tây Ban Nha~600.000Kiều dân lớn
Ukraina (Bukovina, Odesa)~400.000Được công nhận là dân tộc thiểu số khu vực
Serbia (Vojvodina)~30.000Đồng chính thức tại Vojvodina
Hoa Kỳ, Canada, Đức, Anh, IsraelTổng cộng ~1 triệu+Kiều dân

Tiếng România cũng là ngôn ngữ chính thức của Liên minh Châu Âu — một trong 24 ngôn ngữ — điều này đảm bảo tất cả các tài liệu của EU đều được dịch sang tiếng România và mọi công dân EU đều có quyền liên hệ với các cơ quan EU bằng tiếng România.

Tiếng Moldova có phải là một ngôn ngữ riêng biệt không?

Không — và điều này hiện đã được xác nhận chính thức. Vào ngày 16 tháng 3 năm 2023, Quốc hội Moldova đã thông qua một đạo luật đổi tên ngôn ngữ quốc gia từ “Moldovan” thành “Romanian” trong tất cả các văn bản pháp luật và trong hiến pháp. Tổng thống Maia Sandu đã ban hành luật này vào ngày 22 tháng 3 năm 2023.

Các nhà ngôn ngữ học luôn đồng ý rằng “Moldovan” tiêu chuẩn và tiếng România tiêu chuẩn là giống hệt nhau — sự phân biệt này là một sản phẩm chính trị thời Liên Xô nhằm nhấn mạnh bản sắc riêng của Moldova. Trong giao tiếp hàng ngày ở Moldova, có nhiều từ mượn từ tiếng Nga hơn và giọng nói cũng khác biệt, nhưng chuẩn viết, ngữ pháp và từ vựng đều giống nhau. Hiện nay, nhãn “Moldovan” chủ yếu còn tồn tại ở Transnistria, khu vực ly khai thân Nga. Vào tháng 12 năm 2025, quốc hội Ukraina cũng đã loại bỏ “Moldovan” khỏi danh sách các ngôn ngữ thiểu số được bảo vệ, công nhận đó là tiếng România.

Các phương ngữ & biến thể vùng miền

Tiếng Daco-Romanian tiêu chuẩn có năm phương ngữ vùng chính, tất cả đều có thể hiểu lẫn nhau:

  • Muntenian (miền nam România, bao gồm cả Bucharest) — là cơ sở của chuẩn ngôn ngữ
  • Moldavian (miền đông România và Moldova) — phát âm nhẹ nhàng hơn, ảnh hưởng tiếng Nga nhiều hơn ở Moldova
  • Transylvanian — tốc độ nói chậm hơn, có ảnh hưởng từ tiếng Đức và tiếng Hungary
  • Banat (miền tây România) — giữ lại một số đặc điểm cổ xưa
  • Crișana / Maramureș (miền tây bắc) — ngữ điệu đặc trưng

Khác với tiếng Ý hay tiếng Đức, chỉ có một chuẩn viết duy nhất được sử dụng rộng rãi, và truyền hình, radio cùng giáo dục đã làm cho cách nói trở nên đồng nhất đáng kể trong thế kỷ qua.

Old town view of Bucharest, Romania at sunset

Lược sử tiếng România

Ngôn ngữ România, theo một nghĩa nào đó, là một “người sống sót” về mặt ngôn ngữ. Trong khi các ngôn ngữ Rôman khác phát triển trong sự tiếp xúc địa lý gần gũi với nhau ở Tây Âu, thì tiếng România lại lớn lên một mình — bị bao quanh bởi các dân tộc nói tiếng Slav, Hungary, Thổ Nhĩ Kỳ và Hy Lạp, bị tách biệt khỏi các “anh em” Rôman của mình hơn một nghìn năm. Kết quả là một ngôn ngữ vừa mang đậm dấu ấn La-tinh, vừa không thể nhầm lẫn với bản sắc Balkan.

Dacia thuộc La Mã (106–271 CN)

Câu chuyện bắt đầu với cuộc chinh phục Dacia của Hoàng đế Trajan vào năm 106 CN — tức khu vực România ngày nay, phía bắc sông Danube. Những người định cư, binh lính và quan chức La Mã đã mang đến tiếng La-tinh bình dân — tức tiếng La-tinh nói hàng ngày vào cuối thời Đế chế — và chỉ sau vài thế hệ, nó đã gần như thay thế hoàn toàn ngôn ngữ bản địa Dacian. Mặc dù La Mã chính thức rút khỏi tỉnh này vào năm 271 CN dưới thời Hoàng đế Aurelian, nhưng cộng đồng nói tiếng La-tinh vẫn ở lại.

Thời kỳ Tăm tối (271–1521 CN)

Trong hơn một nghìn năm sau khi La Mã rút đi, hầu như không còn tài liệu viết nào về ngôn ngữ này còn sót lại. Khu vực này lần lượt bị xâm lược hoặc định cư bởi người Goth, Hung, Slav, Avar, Bulgar, Pecheneg, Cuman và Mông Cổ. Trong giai đoạn này:

  • Ngôn ngữ đã tiếp nhận một lớp từ vựng Slav đáng kể, đặc biệt trong các lĩnh vực tôn giáo, nông nghiệp và đời sống hàng ngày.
  • Tiếng Slav Giáo hội cổ trở thành ngôn ngữ hành chính và của Giáo hội Chính thống, và duy trì vai trò này cho đến thế kỷ 16.
  • Tiếng România được viết bằng chữ cái Kirin, mượn từ các nước láng giềng Slav.

Tài liệu viết đầu tiên còn sót lại bằng tiếng România là Thư của Neacșu (Scrisoarea lui Neacșu), được một thương nhân ở Câmpulung viết vào năm 1521 gửi cho thị trưởng thành phố Brașov, cảnh báo về một cuộc tấn công sắp xảy ra của người Thổ Nhĩ Kỳ. Bức thư này được viết bằng chữ Kirin.

Phong trào La-tinh hóa (1780–1881)

Lịch sử hiện đại của tiếng Romania bắt đầu với Trường phái Transylvania (Școala Ardeleană), một nhóm học giả Công giáo Hy Lạp, những người vào năm 1780 đã xuất bản cuốn ngữ pháp tiếng Romania đầu tiên — Elementa linguae daco-romanae sive valachicae — do Samuil Micu và Gheorghe Șincai biên soạn.

Những học giả này đã chủ động xác định lại tiếng Romania là một ngôn ngữ Rôman bắt nguồn từ tiếng Latinh, đồng thời giảm nhẹ vai trò của các yếu tố vay mượn từ tiếng Slav và tiếng Hy Lạp. Trong thế kỷ tiếp theo, hệ thống chữ viết dần được chuyển đổi từ chữ Kirin sang bảng chữ cái Latinh, và vốn từ vựng được làm giàu thêm với lượng lớn từ mượn từ tiếng Pháp, tiếng Ý và tiếng Latinh nhằm “La-tinh hóa lại” ngôn ngữ này. Hệ thống chính tả dựa trên Latinh hiện nay được Viện Hàn lâm Romania áp dụng hoàn toàn vào năm 1881.

Moldova vẫn giữ chữ Kirin dưới thời Liên Xô và chỉ chuyển sang bảng chữ cái Latinh vào năm 1989.

Hệ thống chữ viết & Phát âm

Tiếng Romania hiện đại sử dụng bảng chữ cái Latinh với năm ký tự bổ sung, tổng cộng 31 chữ cái. Chính tả chủ yếu dựa trên nguyên tắc ngữ âm — từ được viết như cách chúng phát âm.

Chữ cáiÂm thanhVí dụ
Ă ăâm schwa /ə/ — giống “a” trong “sofa”măr (“táo”)
 ânguyên âm giữa khép không tròn môi /ɨ/câine (“chó”)
Î îâm giống hệt â, nhưng dùng ở đầu hoặc cuối từînainte (“trước”)
Ș ș/ʃ/ — như “sh” trong “shoe”șapte (“bảy”)
Ț ț/t͡s/ — như “ts” trong “cats”țară (“đất nước”)

Các chữ cái K, Q, WY chỉ được sử dụng trong các từ mượn nước ngoài và tên riêng.

Một điều thú vị về lịch sử: âî biểu thị cùng một âm. Cho đến năm 1953 chỉ dùng â; dưới cải cách chính tả của chế độ cộng sản chỉ dùng î; từ năm 1993 Viện Hàn lâm România đã khôi phục hệ thống hỗn hợp — â xuất hiện bên trong từ và î xuất hiện ở ranh giới từ (început, “khởi đầu”). Moldova không áp dụng ngay cải cách chính tả România năm 1993, và việc sử dụng vẫn còn lẫn lộn trong nhiều năm; các tiêu chuẩn chính thức và giáo dục sau đó đã phần lớn đồng bộ với chính tả România.

Ghi chú về phát âm

Tiếng România có 7 nguyên âm: /a, e, i, o, u, ə, ɨ/. Hai nguyên âm cuối — schwa ă và nguyên âm trung đóng â/î — là những âm khiến tiếng România khác biệt rõ rệt so với các ngôn ngữ Rômanh khác, và cũng là những âm mà người nói tiếng Anh cần luyện tập nhiều nhất.

Ngoài các nguyên âm đơn lẻ, tiếng România còn giữ lại các nguyên âm đôi và nguyên âm ba từ tiếng Latinh mà tiếng Tây Ban Nha và tiếng Pháp đã làm mượt đi — các tổ hợp phổ biến gồm ea, oa, ie, ia, và thậm chí nguyên âm ba như eai (beai, “bạn đã uống”). Trọng âm có thể rơi vào bất kỳ âm tiết nào và việc thay đổi trọng âm có thể làm thay đổi nghĩa: cópii (“bản sao”) so với copíi (“trẻ em”).

Tổng quan về ngữ pháp

Ngữ pháp tiếng România là nơi ngôn ngữ này trở nên thực sự thú vị. Đây vừa là ngôn ngữ Rômanh cổ nhất về mặt ngữ pháp — giữ lại những đặc điểm mà tiếng Pháp, Tây Ban Nha và Ý đã mất từ lâu — vừa là một ngôn ngữ Balkan chia sẻ các đặc điểm cấu trúc với tiếng Bulgaria và Albania.

Hệ thống cách

Tiếng România là ngôn ngữ Rômanh duy nhất còn giữ lại hệ thống cách từ tiếng Latinh. Tiếng România hiện đại có năm cách, mặc dù một số cách đã hợp nhất về mặt hình thái:

  • Chủ cách (chủ ngữ)
  • Đối cách (tân ngữ trực tiếp) — giống với chủ cách về hình thức
  • Sở hữu cách (chỉ sở hữu)
  • Gián tiếp cách (tân ngữ gián tiếp) — giống với sở hữu cách về hình thức
  • Gọi cách (gọi trực tiếp) — hình thức riêng biệt, dùng khi gọi ai đó

Vì vậy, mặc dù về mặt khái niệm có năm cách, nhưng thường chỉ có ba dạng khác biệt: chủ/nghiệp, sở/dữ, và gọi.

Danh từ giống cái số ít "fată" ("cô gái"):
Chủ/Nghiệp:  fată / fata (cô gái)
Sở/Dữ:  fete / fetei (của/cho cô gái)
Gọi: fato! (này cô gái!)

Mạo từ xác định là hậu tố

Đây là đặc điểm khiến người học các ngôn ngữ Roman bất ngờ nhất khi tiếp cận tiếng România. Khác với tiếng Tây Ban Nha la casa, tiếng Pháp la maison, hay tiếng Ý la casa, tiếng România gắn mạo từ xác định vào cuối danh từ:

Tiếng AnhTiếng RomâniaMẫu
một cô gáio fatămạo từ không xác định đứng trước
cô gáifatahậu tố -a
một cậu béun băiat
cậu bébăiatulhậu tố -ul
một ngôi nhào casă
ngôi nhàcasahậu tố -a

Đặc điểm này đặt tiếng România vào nhóm Balkan Sprachbund — một nhóm các ngôn ngữ không cùng nguồn gốc (Bulgarian, Albanian, Macedonian và România) nhưng chia sẻ các đặc điểm cấu trúc do tiếp xúc qua nhiều thế kỷ.

Ba giống (bao gồm trung tính)

Tiếng România có giống đực, giống cái và giống trung tính — là ngôn ngữ Roman chuẩn hiện đại duy nhất còn giữ giống trung tính như một loại sản xuất. Trong tiếng România, giống trung tính hoạt động như một “giống hỗn hợp”: danh từ trung tính cư xử như giống đực ở số ít và giống cái ở số nhiều.

un scaun     → două scaune    ("một cái ghế → hai cái ghế")
giống đực       giống cái

Hệ thống động từ

Tiếng România chia động từ theo ngôi, số, thì, thể, và dạng. Chỉ riêng thể xác định đã có thì hiện tại, quá khứ chưa hoàn thành, quá khứ đơn (văn học, hiếm dùng trong lời nói), quá khứ ghép, quá khứ hoàn thành và thì tương lai. Thể giả định vẫn còn rất sống động, được đánh dấu bằng tiểu từ trước động từ — và được sử dụng thường xuyên hơn nhiều so với tiếng Anh hay thậm chí tiếng Pháp.

Vreau să merg.     "Tôi muốn đi." (nghĩa đen: "Tôi muốn rằng tôi-đi-GIẢ ĐỊNH")
Trebuie să plecăm. "Chúng ta phải rời đi."

Trật tự từ

Giống như các ngôn ngữ Rôman khác, tiếng România mặc định sử dụng cấu trúc SVO (chủ ngữ - động từ - tân ngữ), nhưng hệ thống cách của nó mang lại sự linh hoạt đáng kể để nhấn mạnh ý nghĩa. Tính từ thường đứng sau danh từ (o casă mare, “một ngôi nhà lớn”), tuy nhiên một số tính từ phổ biến có thể đứng trước để nhấn mạnh hoặc tạo hiệu ứng thơ ca.

Lâu đài Bran ở Transilvania, România

Từ vựng & Từ mượn

Nếu bạn phân tích toàn bộ vốn từ của tiếng România — bao gồm cả từ ngữ kỹ thuật ít gặp — bạn sẽ thấy khoảng (PoliLingua):

  • ~75% có nguồn gốc Latinh (kế thừa từ tiếng Latinh bình dân hoặc vay mượn lại trong quá trình Latinh hóa thế kỷ 19)
  • ~14% gốc Slavơ (Slavơ Giáo hội cổ, Bulgaria, Ukraina, Nga)
  • ~3% Thổ Nhĩ Kỳ
  • ~2% Hy Lạp
  • ~2% Hungary
  • ~1% Pháp và các ngôn ngữ khác (từ mượn hiện đại)

Nếu chỉ xét 2.500 từ phổ biến nhất, tỷ lệ từ Latinh còn tăng lên và tỷ lệ từ Slavơ giảm xuống — nghĩa là lõi từ vựng sử dụng hàng ngày chủ yếu là Latinh, còn các từ gốc Slavơ tập trung ở các lĩnh vực tôn giáo, nông nghiệp và truyền thống.

Một số ví dụ về từ mượn:

Nguồn gốcTừNghĩa
Latinhapă, pâine, carte, lunănước, bánh mì, sách, mặt trăng
Slavơprieten, iubire, mulțumescbạn bè, tình yêu, cảm ơn
Thổ Nhĩ Kỳcafea, cearșaf, ciorbăcà phê, ga trải giường, canh chua
Hy Lạpprosop, politicoskhăn tắm, lịch sự
Hungaryoraș, neamthành phố, dòng tộc/dân tộc
Phápfotoliu, birou, garajghế bành, văn phòng, ga-ra

Cụm từ thông dụng & Đoạn văn mẫu

Bộ cụm từ khởi đầu dành cho du khách và người mới bắt đầu hoàn toàn.

Chào hỏi

RomanianTiếng AnhKhi nào sử dụng
Bună! / Salut!Chào / Xin chàoThân mật, với bạn bè hoặc người cùng trang lứa
Bună ziua!Chào buổi trưa / Xin chàoTrang trọng, với người lạ hoặc người lớn tuổi
Bună dimineața!Chào buổi sángTrước khoảng 11 giờ sáng
Bună seara!Chào buổi tốiSau khi trời tối
Noapte bună!Chúc ngủ ngonKhi chia tay vào buổi tối
La revedere!Tạm biệtChia tay thông thường
Pa!Tạm biệt!Thân mật

Cụm từ sinh tồn

RomanianTiếng Anh
Mulțumesc.Cảm ơn.
Cu plăcere.Không có gì.
Vă rog.Làm ơn. (trang trọng)
Scuze. / Nu vă supărați.Xin lỗi. / Xin thứ lỗi.
Da. / Nu.Có. / Không.
Nu înțeleg.Tôi không hiểu.
Vorbiți engleză?Bạn có nói tiếng Anh không?
Cât costă?Bao nhiêu tiền?
Unde este toaleta?Nhà vệ sinh ở đâu?
Mă numesc…Tôi tên là…
Îmi pare bine.Rất vui được gặp bạn.
Noroc!Chúc mừng! / Chúc may mắn!

Số đếm từ 1–10

SốRomanianPhiên âm
1unu/ˈunu/
2doi/doj/
3trei/trej/
4patru/ˈpatru/
5cinci/tʃintʃʲ/
6șase/ˈʃase/
7șapte/ˈʃapte/
8opt/opt/
9nouă/ˈnowə/
10zece/ˈzetʃe/

Một đoạn văn mẫu

Một câu thơ trong Luceafărul (1883) của Mihai Eminescu, bài thơ quốc gia nổi tiếng nhất của Romania:

A fost odată ca-n povești, A fost ca niciodată. Din rude mari împărătești, O prea frumoasă fată.

“Ngày xửa ngày xưa, như trong truyện cổ tích, / đã từng có, chưa từng có, / từ dòng dõi hoàng gia cao quý, / một cô gái vô cùng xinh đẹp.”

Tiếng Romania có khó học không?

Đối với người nói tiếng Anh, không — tiếng Romania là một trong những ngôn ngữ dễ học nhất. Viện Dịch vụ Nước ngoài Hoa Kỳ (FSI) xếp tiếng Romania vào Nhóm ngôn ngữ Loại I, cùng nhóm với tiếng Tây Ban Nha, tiếng Pháp, tiếng Ý và tiếng Bồ Đào Nha, chỉ cần khoảng 600–750 giờ học trên lớp để đạt trình độ làm việc chuyên nghiệp (Bảng xếp hạng độ khó ngôn ngữ của FSI). So sánh với tiếng Nga (~1.100 giờ), tiếng Ả Rập (~2.200 giờ) hoặc tiếng Nhật (~2.200 giờ).

Điểm Dễ

  • Bảng chữ cái quen thuộc chỉ thêm 5 ký tự mới
  • Chính tả theo phát âm — cách phát âm phần lớn có thể đoán được từ cách viết
  • Từ vựng gốc Latinh chung — các từ học thuật và kỹ thuật thường dễ nhận ra (animal, doctor, minut, important, universitate)
  • Trật tự từ SVO giống tiếng Anh
  • Không có thanh điệu như tiếng Quan thoại hoặc tiếng Việt

Điểm Khó

  • Ba giống ngữ pháp bao gồm giống trung tính khá hiếm gặp
  • Hệ thống cách với năm cách (dù chỉ có ba dạng khác biệt)
  • Mạo từ xác định gắn sau danh từ — một đặc điểm cấu trúc lạ lẫm với hầu hết người học
  • Chia động từ với nhiều thì và thể giả định
  • Danh từ số nhiều bất quy tắc theo nhiều mẫu khác nhau thay vì chỉ thêm -s/-i đơn giản
  • Âm ă và â/î cần luyện tập riêng đối với người nói tiếng Anh

Tiếng Romania Có Giống Tiếng Ý Không?

Về mặt ngữ pháp thì có — tiếng Romania gần với tiếng Ý nhất trong các ngôn ngữ Rôman và chia sẻ phần lớn từ vựng cơ bản. Người nói tiếng Ý thường có thể đoán nghĩa của từ tiếng Romania mà không cần học trước. Tuy nhiên, các đuôi cách, mạo từ xác định gắn sau và từ vay mượn gốc Slavơ của tiếng Romania vẫn sẽ là những điểm mới lạ ngay cả với người Ý thành thạo.

Mẹo Học Tiếng Romania

Bắt Đầu Từ Đâu

  1. Học thuộc năm chữ cái đặc biệt trước. Dành vài ngày luyện tập ă, â, î, ș, ț cho đến khi bạn có thể phát âm chúng một cách tự nhiên.
  2. Học sớm về mạo từ xác định hậu tố. Làm quen với việc the được gắn ở cuối danh từ. Luyện tập các cặp danh từ + mạo từ (casa, băiatul, cartea) cho đến khi thành phản xạ.
  3. Tập trung vào 1.000 từ phổ biến nhất. Sử dụng phương pháp lặp lại ngắt quãng (Anki, Memrise) và học danh từ kèm theo giống của chúng.
  4. Đừng học thuộc lòng các cách — hãy luyện tập trong ngữ cảnh. Đọc các đoạn văn ngắn và chú ý cách các đuôi từ thay đổi.

Tài nguyên khuyến nghị

Tài nguyênPhù hợp nhất choGhi chú
Pimsleur RomanianPhát âm, nghe hiểuBài học chỉ có âm thanh, 30 phút/ngày
RomanianPod101Từ sơ cấp đến trung cấpBài học âm thanh kèm bản PDF transcript
italki / PreplyGia sư 1 kèm 1Gia sư bản ngữ, giá từ ~$10–20/giờ
ClozemasterTừ vựng trình độ trung cấpĐiền vào chỗ trống theo câu mẫu
Omniglot RomanianTham khảo câu mẫuDanh sách câu miễn phí kèm âm thanh
LearnRo.comBài học sơ cấp miễn phíÂm thanh + giải thích ngữ pháp
r/learnromanianCộng đồngSubreddit hoạt động sôi nổi để hỏi đáp

Lộ trình thực tế

Với 30–60 phút luyện tập đều đặn mỗi ngày:

  • 3 tháng — Nắm được các câu giao tiếp cơ bản, tự giới thiệu, gọi món ăn
  • 6 tháng — Trò chuyện đơn giản, đọc tin tức ngắn với từ điển
  • 12 tháng — Giao tiếp trung cấp thoải mái, xem TV Romania có phụ đề
  • 2 năm — Thành thạo nâng cao, đọc văn học, hiểu lời nói nhanh, thân mật

Dịch thuật AI và tiếng Romania

Tiếng Romania là một trong những ngôn ngữ có mức độ hỗ trợ tốt nhất trong nhóm ngôn ngữ tài nguyên thấp đến trung bình trên các nền tảng dịch máy hiện đại, nhưng vẫn còn nhiều thách thức thực sự.

Những thách thức

Hình thái học. Hệ thống cách, ba giống và các kiểu chia động từ của tiếng Romania làm tăng số lượng hình thái mà một từ có thể có. Một danh từ có thể xuất hiện ở khoảng sáu dạng bề mặt khác nhau (số ít/số nhiều × ba nhóm cách); một động từ có thể có hơn 100 dạng ở các thì và thức khác nhau. Việc phân tách từ con trong các mô hình thần kinh thường chia nhỏ những từ này thành các mảnh và làm mất dấu các mối quan hệ ngữ pháp.

Sự phong phú về thành ngữ. Tiếng Romania dày đặc các thành ngữ mà nếu dịch sát nghĩa sẽ trở thành vô nghĩa: a freca menta (“chà bạc hà” = lãng phí thời gian), te îmbeți cu apă rece (“bạn say nước lạnh” = ngây thơ), la paștele cailor (“vào lễ Phục Sinh của ngựa” = không bao giờ). Các hệ thống dịch được huấn luyện trên các kho ngữ liệu song song về tin tức thường hoàn toàn bỏ sót những thành ngữ này.

Các mức độ trang trọng. Tiếng Romania phân biệt tu (“bạn” thân mật), dumneata (bán trang trọng), và dumneavoastră (trang trọng). Việc lựa chọn đại từ này mang ý nghĩa xã hội quan trọng, và một công cụ dịch mặc định chọn một mức độ có thể tạo ra văn bản nghe thiếu tôn trọng hoặc quá cứng nhắc.

Dấu phụ âm. Nhiều văn bản tiếng Romania trên mạng được viết không có dấu phụ âm — strazi thay vì străzi, fata thay vì față. Điều này tạo ra sự mơ hồ thực sự (fată “cô gái” so với față “khuôn mặt”) mà các hệ thống AI phải giải quyết dựa vào ngữ cảnh.

Những gì hoạt động tốt

Các hệ thống hiện đại dựa trên transformer xử lý tiếng Romania khá tốt đối với văn bản thuộc lĩnh vực chung. OpenL hỗ trợ tiếng Romania trong hơn 100 ngôn ngữ, với các tính năng hữu ích cho các ngôn ngữ giàu hình thái:

  • Dịch theo ngữ cảnh giúp xử lý nhất quán các mức độ trang trọng (bạn thân mật/trang trọng) xuyên suốt tài liệu
  • Dịch tài liệu PDF, Word và các định dạng khác mà vẫn giữ nguyên định dạng — điều này rất quan trọng với các văn bản pháp lý và học thuật tiếng Romania, nơi bố cục có ý nghĩa
  • Dịch hình ảnh và OCR cho biển báo, thực đơn và ghi chú viết tay
  • Khôi phục dấu phụ âm trong quy trình OCR, giúp văn bản đầu vào không có dấu được sửa đúng trước khi dịch

Đối với các văn bản quan trọng — hợp đồng pháp lý, hồ sơ y tế, dịch thuật văn học — sản phẩm của máy móc nên được xem như bản nháp đầu tiên. Việc chỉnh sửa hậu kỳ bởi con người vẫn là điều cần thiết, đặc biệt với nội dung chứa nhiều thành ngữ hoặc mang tính đặc thù văn hóa.

Hướng dẫn liên quan:

Nguồn