새소식

short terms

Language Code, ISO 639, FLORES-200

  • -

Meta(Facebook)의 새로운 언어 AI 모델인 NLLB(https://github.com/facebookresearch/fairseq/tree/nllb) 를 구현하기 위해서는

 

메타가 쓰는 언어 코드인 FLORES-200을 맞춰야 한다.

 

현재 NLLB는 자동 언어 인식기능이 없기 때문에, LibreTranslator와 같은 서드파티 번역을 이용해 언어 인식을 먼저 해야 하는데

눈씻고 찾아봐도 거의 대부분 언어 번역기가 사용하는 ISO 639 표준(2~3자리 영어 코드)과 FLORES-200 표준의 연동은 찾기 힘들다.

 

그래서!

 

https://github.com/facebookresearch/flores/blob/main/flores200/README.md

https://ko.wikipedia.org/wiki/ISO_639-1_%EC%BD%94%EB%93%9C_%EB%AA%A9%EB%A1%9D

 

두 언어 코드 정보를 합치고, 데이터 처리를 해서,

FLORES 200개를 모두 처리하진 못했지만, 142개를 ISO-639-1 (2자리 코드), 또는 ISO-639-2 (3자리 코드)로 변환에 성공했다.

우선순위는 639-1임을 밝힌다.

 

Language ISO 639 Code FLORES-200 code
Afrikaans af afr_Latn
Akan ak aka_Latn
Amharic am amh_Ethi
Arabic ar arb_Arab
Assamese as asm_Beng
Awadhi awa awa_Deva
Aymara ay ayr_Latn
Azerbaijani az azb_Arab
Bashkir ba bak_Cyrl
Bambara bm bam_Latn
Balinese ban ban_Latn
Belarusian be bel_Cyrl
Bemba bem bem_Latn
Bengali bn ben_Beng
Bhojpuri bho bho_Deva
Tibetan bo bod_Tibt
Bosnian bs bos_Latn
Buginese bug bug_Latn
Bulgarian bg bul_Cyrl
Cebuano ceb ceb_Latn
Czech cs ces_Latn
Kurdish ku ckb_Arab
Tatar tt crh_Latn
Welsh cy cym_Latn
Danish da dan_Latn
German de deu_Latn
Dinka din dik_Latn
Dyula dyu dyu_Latn
Dzongkha dz dzo_Tibt
English en eng_Latn
Esperanto eo epo_Latn
Estonian et est_Latn
Basque eu eus_Latn
Ewe ee ewe_Latn
Faroese fo fao_Latn
Fijian fj fij_Latn
Finnish fi fin_Latn
Fon fon fon_Latn
French fr fra_Latn
Friulian fur fur_Latn
Irish ga gle_Latn
Galician gl glg_Latn
Guarani gn grn_Latn
Gujarati gu guj_Gujr
Hausa ha hau_Latn
Hebrew he heb_Hebr
Hindi hi hin_Deva
Croatian hr hrv_Latn
Hungarian hu hun_Latn
Armenian hy hye_Armn
Igbo ig ibo_Latn
Indonesian id ind_Latn
Icelandic is isl_Latn
Italian it ita_Latn
Javanese jv jav_Latn
Japanese ja jpn_Jpan
Kabyle kab kab_Latn
Kamba kam kam_Latn
Kannada kn kan_Knda
Kashmiri ks kas_Arab
Georgian ka kat_Geor
Kanuri kr knc_Arab
Kazakh kk kaz_Cyrl
Kinyarwanda rw kin_Latn
Kimbundu kmb kmb_Latn
Kurdish ku kmr_Latn
Korean ko kor_Hang
Lao lo lao_Laoo
Lingala ln lin_Latn
Lithuanian lt lit_Latn
Ganda lg lug_Latn
Latvian lv lvs_Latn
Magahi mag mag_Deva
Maithili mai mai_Deva
Malayalam ml mal_Mlym
Marathi mr mar_Deva
Minangkabau min min_Arab
Macedonian mk mkd_Cyrl
Maltese mt mlt_Latn
Bengali bn mni_Beng
Mongolian mn khk_Cyrl
Mossi mos mos_Latn
Maori mi mri_Latn
Burmese my mya_Mymr
Norwegian no nno_Latn
Nepali ne npi_Deva
Oromo om gaz_Latn
Pangasinan pag pag_Latn
Papiamento pap pap_Latn
Persian fa pes_Arab
Polish pl pol_Latn
Portuguese pt por_Latn
Quechua qu quy_Latn
Rundi rn run_Latn
Russian ru rus_Cyrl
Sango sg sag_Latn
Sanskrit sa san_Deva
Santali sat sat_Olck
Sicilian scn scn_Latn
Shan shn shn_Mymr
Slovak sk slk_Latn
Slovenian sl slv_Latn
Samoan sm smo_Latn
Shona sn sna_Latn
Sindhi sd snd_Arab
Somali so som_Latn
Albanian sq als_Latn
Sardinian sc srd_Latn
Serbian sr srp_Cyrl
Swati ss ssw_Latn
Sundanese su sun_Latn
Swedish sv swe_Latn
Swahili sw swh_Latn
Tamil ta tam_Taml
Tatar tt tat_Cyrl
Telugu te tel_Telu
Tajik tg tgk_Cyrl
Tagalog tl tgl_Latn
Thai th tha_Thai
Tigrinya ti tir_Ethi
Tok Pisin tpi tpi_Latn
Tswana tn tsn_Latn
Tsonga ts tso_Latn
Turkmen tk tuk_Latn
Tumbuka tum tum_Latn
Turkish tr tur_Latn
Twi tw twi_Latn
Ukrainian uk ukr_Cyrl
Umbundu umb umb_Latn
Urdu ur urd_Arab
Uzbek uz uzn_Latn
Vietnamese vi vie_Latn
Waray war war_Latn
Wolof wo wol_Latn
Xhosa xh xho_Latn
Yiddish yi ydd_Hebr
Yoruba yo yor_Latn
Chinese zh zho_Hans
Chinese zho zho_Hant
Malay ms zsm_Latn
Zulu zu zul_Latn

'short terms' 카테고리의 다른 글

Kimball’s Dimensional Modeling  (0) 2023.07.18
NaN  (0) 2021.05.24
[draft] Streaming VS Time series  (0) 2021.05.17
Dialect (JPA hibernate)  (0) 2021.05.07
Eviction, Passivation, Expiration  (0) 2021.05.07
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.