Meta(Facebook)의 새로운 언어 AI 모델인 NLLB(https://github.com/facebookresearch/fairseq/tree/nllb) 를 구현하기 위해서는
메타가 쓰는 언어 코드인 FLORES-200을 맞춰야 한다.
현재 NLLB는 자동 언어 인식기능이 없기 때문에, LibreTranslator와 같은 서드파티 번역을 이용해 언어 인식을 먼저 해야 하는데
눈씻고 찾아봐도 거의 대부분 언어 번역기가 사용하는 ISO 639 표준(2~3자리 영어 코드)과 FLORES-200 표준의 연동은 찾기 힘들다.
그래서!
https://github.com/facebookresearch/flores/blob/main/flores200/README.md
https://ko.wikipedia.org/wiki/ISO_639-1_%EC%BD%94%EB%93%9C_%EB%AA%A9%EB%A1%9D
두 언어 코드 정보를 합치고, 데이터 처리를 해서,
FLORES 200개를 모두 처리하진 못했지만, 142개를 ISO-639-1 (2자리 코드), 또는 ISO-639-2 (3자리 코드)로 변환에 성공했다.
우선순위는 639-1임을 밝힌다.
Language |
ISO 639 Code |
FLORES-200 code |
Afrikaans |
af |
afr_Latn |
Akan |
ak |
aka_Latn |
Amharic |
am |
amh_Ethi |
Arabic |
ar |
arb_Arab |
Assamese |
as |
asm_Beng |
Awadhi |
awa |
awa_Deva |
Aymara |
ay |
ayr_Latn |
Azerbaijani |
az |
azb_Arab |
Bashkir |
ba |
bak_Cyrl |
Bambara |
bm |
bam_Latn |
Balinese |
ban |
ban_Latn |
Belarusian |
be |
bel_Cyrl |
Bemba |
bem |
bem_Latn |
Bengali |
bn |
ben_Beng |
Bhojpuri |
bho |
bho_Deva |
Tibetan |
bo |
bod_Tibt |
Bosnian |
bs |
bos_Latn |
Buginese |
bug |
bug_Latn |
Bulgarian |
bg |
bul_Cyrl |
Cebuano |
ceb |
ceb_Latn |
Czech |
cs |
ces_Latn |
Kurdish |
ku |
ckb_Arab |
Tatar |
tt |
crh_Latn |
Welsh |
cy |
cym_Latn |
Danish |
da |
dan_Latn |
German |
de |
deu_Latn |
Dinka |
din |
dik_Latn |
Dyula |
dyu |
dyu_Latn |
Dzongkha |
dz |
dzo_Tibt |
English |
en |
eng_Latn |
Esperanto |
eo |
epo_Latn |
Estonian |
et |
est_Latn |
Basque |
eu |
eus_Latn |
Ewe |
ee |
ewe_Latn |
Faroese |
fo |
fao_Latn |
Fijian |
fj |
fij_Latn |
Finnish |
fi |
fin_Latn |
Fon |
fon |
fon_Latn |
French |
fr |
fra_Latn |
Friulian |
fur |
fur_Latn |
Irish |
ga |
gle_Latn |
Galician |
gl |
glg_Latn |
Guarani |
gn |
grn_Latn |
Gujarati |
gu |
guj_Gujr |
Hausa |
ha |
hau_Latn |
Hebrew |
he |
heb_Hebr |
Hindi |
hi |
hin_Deva |
Croatian |
hr |
hrv_Latn |
Hungarian |
hu |
hun_Latn |
Armenian |
hy |
hye_Armn |
Igbo |
ig |
ibo_Latn |
Indonesian |
id |
ind_Latn |
Icelandic |
is |
isl_Latn |
Italian |
it |
ita_Latn |
Javanese |
jv |
jav_Latn |
Japanese |
ja |
jpn_Jpan |
Kabyle |
kab |
kab_Latn |
Kamba |
kam |
kam_Latn |
Kannada |
kn |
kan_Knda |
Kashmiri |
ks |
kas_Arab |
Georgian |
ka |
kat_Geor |
Kanuri |
kr |
knc_Arab |
Kazakh |
kk |
kaz_Cyrl |
Kinyarwanda |
rw |
kin_Latn |
Kimbundu |
kmb |
kmb_Latn |
Kurdish |
ku |
kmr_Latn |
Korean |
ko |
kor_Hang |
Lao |
lo |
lao_Laoo |
Lingala |
ln |
lin_Latn |
Lithuanian |
lt |
lit_Latn |
Ganda |
lg |
lug_Latn |
Latvian |
lv |
lvs_Latn |
Magahi |
mag |
mag_Deva |
Maithili |
mai |
mai_Deva |
Malayalam |
ml |
mal_Mlym |
Marathi |
mr |
mar_Deva |
Minangkabau |
min |
min_Arab |
Macedonian |
mk |
mkd_Cyrl |
Maltese |
mt |
mlt_Latn |
Bengali |
bn |
mni_Beng |
Mongolian |
mn |
khk_Cyrl |
Mossi |
mos |
mos_Latn |
Maori |
mi |
mri_Latn |
Burmese |
my |
mya_Mymr |
Norwegian |
no |
nno_Latn |
Nepali |
ne |
npi_Deva |
Oromo |
om |
gaz_Latn |
Pangasinan |
pag |
pag_Latn |
Papiamento |
pap |
pap_Latn |
Persian |
fa |
pes_Arab |
Polish |
pl |
pol_Latn |
Portuguese |
pt |
por_Latn |
Quechua |
qu |
quy_Latn |
Rundi |
rn |
run_Latn |
Russian |
ru |
rus_Cyrl |
Sango |
sg |
sag_Latn |
Sanskrit |
sa |
san_Deva |
Santali |
sat |
sat_Olck |
Sicilian |
scn |
scn_Latn |
Shan |
shn |
shn_Mymr |
Slovak |
sk |
slk_Latn |
Slovenian |
sl |
slv_Latn |
Samoan |
sm |
smo_Latn |
Shona |
sn |
sna_Latn |
Sindhi |
sd |
snd_Arab |
Somali |
so |
som_Latn |
Albanian |
sq |
als_Latn |
Sardinian |
sc |
srd_Latn |
Serbian |
sr |
srp_Cyrl |
Swati |
ss |
ssw_Latn |
Sundanese |
su |
sun_Latn |
Swedish |
sv |
swe_Latn |
Swahili |
sw |
swh_Latn |
Tamil |
ta |
tam_Taml |
Tatar |
tt |
tat_Cyrl |
Telugu |
te |
tel_Telu |
Tajik |
tg |
tgk_Cyrl |
Tagalog |
tl |
tgl_Latn |
Thai |
th |
tha_Thai |
Tigrinya |
ti |
tir_Ethi |
Tok Pisin |
tpi |
tpi_Latn |
Tswana |
tn |
tsn_Latn |
Tsonga |
ts |
tso_Latn |
Turkmen |
tk |
tuk_Latn |
Tumbuka |
tum |
tum_Latn |
Turkish |
tr |
tur_Latn |
Twi |
tw |
twi_Latn |
Ukrainian |
uk |
ukr_Cyrl |
Umbundu |
umb |
umb_Latn |
Urdu |
ur |
urd_Arab |
Uzbek |
uz |
uzn_Latn |
Vietnamese |
vi |
vie_Latn |
Waray |
war |
war_Latn |
Wolof |
wo |
wol_Latn |
Xhosa |
xh |
xho_Latn |
Yiddish |
yi |
ydd_Hebr |
Yoruba |
yo |
yor_Latn |
Chinese |
zh |
zho_Hans |
Chinese |
zho |
zho_Hant |
Malay |
ms |
zsm_Latn |
Zulu |
zu |
zul_Latn |