short terms
Language Code, ISO 639, FLORES-200
presentj94
2022. 11. 25. 01:37
Meta(Facebook)의 새로운 언어 AI 모델인 NLLB(https://github.com/facebookresearch/fairseq/tree/nllb) 를 구현하기 위해서는
메타가 쓰는 언어 코드인 FLORES-200을 맞춰야 한다.
현재 NLLB는 자동 언어 인식기능이 없기 때문에, LibreTranslator와 같은 서드파티 번역을 이용해 언어 인식을 먼저 해야 하는데
눈씻고 찾아봐도 거의 대부분 언어 번역기가 사용하는 ISO 639 표준(2~3자리 영어 코드)과 FLORES-200 표준의 연동은 찾기 힘들다.
그래서!
https://github.com/facebookresearch/flores/blob/main/flores200/README.md
https://ko.wikipedia.org/wiki/ISO_639-1_%EC%BD%94%EB%93%9C_%EB%AA%A9%EB%A1%9D
두 언어 코드 정보를 합치고, 데이터 처리를 해서,
FLORES 200개를 모두 처리하진 못했지만, 142개를 ISO-639-1 (2자리 코드), 또는 ISO-639-2 (3자리 코드)로 변환에 성공했다.
우선순위는 639-1임을 밝힌다.
Language | ISO 639 Code | FLORES-200 code |
Afrikaans | af | afr_Latn |
Akan | ak | aka_Latn |
Amharic | am | amh_Ethi |
Arabic | ar | arb_Arab |
Assamese | as | asm_Beng |
Awadhi | awa | awa_Deva |
Aymara | ay | ayr_Latn |
Azerbaijani | az | azb_Arab |
Bashkir | ba | bak_Cyrl |
Bambara | bm | bam_Latn |
Balinese | ban | ban_Latn |
Belarusian | be | bel_Cyrl |
Bemba | bem | bem_Latn |
Bengali | bn | ben_Beng |
Bhojpuri | bho | bho_Deva |
Tibetan | bo | bod_Tibt |
Bosnian | bs | bos_Latn |
Buginese | bug | bug_Latn |
Bulgarian | bg | bul_Cyrl |
Cebuano | ceb | ceb_Latn |
Czech | cs | ces_Latn |
Kurdish | ku | ckb_Arab |
Tatar | tt | crh_Latn |
Welsh | cy | cym_Latn |
Danish | da | dan_Latn |
German | de | deu_Latn |
Dinka | din | dik_Latn |
Dyula | dyu | dyu_Latn |
Dzongkha | dz | dzo_Tibt |
English | en | eng_Latn |
Esperanto | eo | epo_Latn |
Estonian | et | est_Latn |
Basque | eu | eus_Latn |
Ewe | ee | ewe_Latn |
Faroese | fo | fao_Latn |
Fijian | fj | fij_Latn |
Finnish | fi | fin_Latn |
Fon | fon | fon_Latn |
French | fr | fra_Latn |
Friulian | fur | fur_Latn |
Irish | ga | gle_Latn |
Galician | gl | glg_Latn |
Guarani | gn | grn_Latn |
Gujarati | gu | guj_Gujr |
Hausa | ha | hau_Latn |
Hebrew | he | heb_Hebr |
Hindi | hi | hin_Deva |
Croatian | hr | hrv_Latn |
Hungarian | hu | hun_Latn |
Armenian | hy | hye_Armn |
Igbo | ig | ibo_Latn |
Indonesian | id | ind_Latn |
Icelandic | is | isl_Latn |
Italian | it | ita_Latn |
Javanese | jv | jav_Latn |
Japanese | ja | jpn_Jpan |
Kabyle | kab | kab_Latn |
Kamba | kam | kam_Latn |
Kannada | kn | kan_Knda |
Kashmiri | ks | kas_Arab |
Georgian | ka | kat_Geor |
Kanuri | kr | knc_Arab |
Kazakh | kk | kaz_Cyrl |
Kinyarwanda | rw | kin_Latn |
Kimbundu | kmb | kmb_Latn |
Kurdish | ku | kmr_Latn |
Korean | ko | kor_Hang |
Lao | lo | lao_Laoo |
Lingala | ln | lin_Latn |
Lithuanian | lt | lit_Latn |
Ganda | lg | lug_Latn |
Latvian | lv | lvs_Latn |
Magahi | mag | mag_Deva |
Maithili | mai | mai_Deva |
Malayalam | ml | mal_Mlym |
Marathi | mr | mar_Deva |
Minangkabau | min | min_Arab |
Macedonian | mk | mkd_Cyrl |
Maltese | mt | mlt_Latn |
Bengali | bn | mni_Beng |
Mongolian | mn | khk_Cyrl |
Mossi | mos | mos_Latn |
Maori | mi | mri_Latn |
Burmese | my | mya_Mymr |
Norwegian | no | nno_Latn |
Nepali | ne | npi_Deva |
Oromo | om | gaz_Latn |
Pangasinan | pag | pag_Latn |
Papiamento | pap | pap_Latn |
Persian | fa | pes_Arab |
Polish | pl | pol_Latn |
Portuguese | pt | por_Latn |
Quechua | qu | quy_Latn |
Rundi | rn | run_Latn |
Russian | ru | rus_Cyrl |
Sango | sg | sag_Latn |
Sanskrit | sa | san_Deva |
Santali | sat | sat_Olck |
Sicilian | scn | scn_Latn |
Shan | shn | shn_Mymr |
Slovak | sk | slk_Latn |
Slovenian | sl | slv_Latn |
Samoan | sm | smo_Latn |
Shona | sn | sna_Latn |
Sindhi | sd | snd_Arab |
Somali | so | som_Latn |
Albanian | sq | als_Latn |
Sardinian | sc | srd_Latn |
Serbian | sr | srp_Cyrl |
Swati | ss | ssw_Latn |
Sundanese | su | sun_Latn |
Swedish | sv | swe_Latn |
Swahili | sw | swh_Latn |
Tamil | ta | tam_Taml |
Tatar | tt | tat_Cyrl |
Telugu | te | tel_Telu |
Tajik | tg | tgk_Cyrl |
Tagalog | tl | tgl_Latn |
Thai | th | tha_Thai |
Tigrinya | ti | tir_Ethi |
Tok Pisin | tpi | tpi_Latn |
Tswana | tn | tsn_Latn |
Tsonga | ts | tso_Latn |
Turkmen | tk | tuk_Latn |
Tumbuka | tum | tum_Latn |
Turkish | tr | tur_Latn |
Twi | tw | twi_Latn |
Ukrainian | uk | ukr_Cyrl |
Umbundu | umb | umb_Latn |
Urdu | ur | urd_Arab |
Uzbek | uz | uzn_Latn |
Vietnamese | vi | vie_Latn |
Waray | war | war_Latn |
Wolof | wo | wol_Latn |
Xhosa | xh | xho_Latn |
Yiddish | yi | ydd_Hebr |
Yoruba | yo | yor_Latn |
Chinese | zh | zho_Hans |
Chinese | zho | zho_Hant |
Malay | ms | zsm_Latn |
Zulu | zu | zul_Latn |