Cyrillic Word Error Program Based on Machine Learning

Authors

  • Khajidmaa Battumur Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia https://orcid.org/0000-0003-4786-0836
  • Uuganbaatar Dulamragchaa Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia
  • Sodjamts Enkhbat Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia
  • Lhagvasuren Altanhuyag Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia
  • Purevsuren Tumurbaatar Institute of Language and Literature, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia

DOI:

https://doi.org/10.5564/jimdt.v4i1.2661

Keywords:

BERT model, SymSpell model, Natural Language Processing, Spellchecking

Abstract

With the rapid development of information technology, the main means of human communication-language-is also shifting rapidly from physical to digital forms. That being said, natural language processing research on foreign languages have been conducted regularly  with ready-to-use and reliable programs already widely available on the market. While, initially, spellchecking programs were developed using traditional methods like n-gram  methods, modern approaches embrace machine learning methods. Hence, with this research, we aimed to train a natural language processing models more suitable for the Mongolian  language structure of which BERT and SymSpell models were trained and tested. 

Машин Сургалтын Аргад Суурилсан Монгол Хэлний Үгийн Алдаа Шалгах Программ

Хураангуй: Мэдээллийн технологи хурдацтай хөгжин өөрчлөгдсөөр хүн төрөлхтний харилцааны гол хэрэглүүр болсон хэл бичиг биет байдлаас тоон хэлбэр рүү эрчимтэй шилжиж байна.  Тиймдээ ч гадаадад эх хэл шинжлэлийн судалгаанууд тогтмол хийгдсээр эцсийн хэрэглэгчид  шууд хэрэглэх боломжтой бөгөөд баталгаатай программуудыг зах зээлд нэвтрүүлээд байна.  Анх үгийн алдаа шалгах программууд нь уламжлалт арга буюу n-gram арга дээр суурилдаг  байсан бол орчин үед машин сургалтын аргуудыг түлхүү ашиглах болсон байна. Тиймээс энэхүү судалгааны ажлаараа монгол хэлний бүтцэд тохирсон машин сургалт дээр суурилсан үгийн  алдаа засах загваруудыг сургахыг зорилоо. Судалгааны хүрээнд машин сургалтын BERT болон  SymSpell загваруудыг сургаж, туршсан болно. 

Түлхүүр үгс: BERT загвар, SymSpell загвар, Эх хэл боловсруулалт, алдаа шалгуур   

Abstract
607
PDF 134

References

“Autocorrect Feature using NLP in Python,” https://www.analyticsvidhya.com/blog/2021/11/-autocorrect-feature-using-nlp-in-python/, 2021.

“Хөрвүүлэх программд зориулсан монгол хэлний цахим хөмрөгийн тухай,” Др. Э. Мөнх-Учрал (Боннын Их Сургууль, Монгол Улсын Их Сургууль), 2010.

М. Хүрэлхүү, Д. Ууганбаатар, “Машин сургалтын аргыг кирилл, монгол бичгийн алдаа засах, бичвэр хооронд хөрвүүлэхэд ашиглах нь,” 2019.

“Transformers in NLP: A beginner friendly explanation,” https://towardsdatascience.com-/transformers-89034557de14.

J. Devlin, M. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” https://arxiv.org/pdf/1810.04805.pdf, 2019.

“SymSpellEx,” https://www.npmjs.com/package/symspell-ex/v/1.0.2, 2020.

https://en.wikipedia.org/wiki/BERT_(language_model)#cite_note-:0-1.

https://github.com/wolfgarbe/SymSpell.

“A quick overview of the implementation of a fast spelling correction algorithm,” //medium.com-/@agusnavce/a-quick-overview-of-the-implementation-of-a-fast-spelling-correction-algorithm

Downloads

Published

2022-12-26

How to Cite

Battumur, K., Dulamragchaa, U., Enkhbat, S., Altanhuyag, L., & Tumurbaatar, P. (2022). Cyrillic Word Error Program Based on Machine Learning. Journal of Institute of Mathematics and Digital Technology, 4(1), 54–60. https://doi.org/10.5564/jimdt.v4i1.2661

Issue

Section

Articles