Cyrillic Word Error Program Based on Machine Learning

Khajidmaa Battumur; Uuganbaatar Dulamragchaa; Sodjamts Enkhbat; Lhagvasuren Altanhuyag; Purevsuren Tumurbaatar

doi:10.5564/jimdt.v4i1.2661

Authors

Khajidmaa Battumur Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia https://orcid.org/0000-0003-4786-0836
Uuganbaatar Dulamragchaa Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia
Sodjamts Enkhbat Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia
Lhagvasuren Altanhuyag Institute of Mathematics and Digital Technology, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia
Purevsuren Tumurbaatar Institute of Language and Literature, Mongolian Academy of Sciences, Ulaanbaatar 13330, Mongolia

DOI:

https://doi.org/10.5564/jimdt.v4i1.2661

Keywords:

BERT model, SymSpell model, Natural Language Processing, Spellchecking

Abstract

With the rapid development of information technology, the main means of human communication-language-is also shifting rapidly from physical to digital forms. That being said, natural language processing research on foreign languages have been conducted regularly with ready-to-use and reliable programs already widely available on the market. While, initially, spellchecking programs were developed using traditional methods like n-gram methods, modern approaches embrace machine learning methods. Hence, with this research, we aimed to train a natural language processing models more suitable for the Mongolian language structure of which BERT and SymSpell models were trained and tested.

Машин Сургалтын Аргад Суурилсан Монгол Хэлний Үгийн Алдаа Шалгах Программ

Хураангуй: Мэдээллийн технологи хурдацтай хөгжин өөрчлөгдсөөр хүн төрөлхтний харилцааны гол хэрэглүүр болсон хэл бичиг биет байдлаас тоон хэлбэр рүү эрчимтэй шилжиж байна. Тиймдээ ч гадаадад эх хэл шинжлэлийн судалгаанууд тогтмол хийгдсээр эцсийн хэрэглэгчид шууд хэрэглэх боломжтой бөгөөд баталгаатай программуудыг зах зээлд нэвтрүүлээд байна. Анх үгийн алдаа шалгах программууд нь уламжлалт арга буюу n-gram арга дээр суурилдаг байсан бол орчин үед машин сургалтын аргуудыг түлхүү ашиглах болсон байна. Тиймээс энэхүү судалгааны ажлаараа монгол хэлний бүтцэд тохирсон машин сургалт дээр суурилсан үгийн алдаа засах загваруудыг сургахыг зорилоо. Судалгааны хүрээнд машин сургалтын BERT болон SymSpell загваруудыг сургаж, туршсан болно.

Түлхүүр үгс: BERT загвар, SymSpell загвар, Эх хэл боловсруулалт, алдаа шалгуур

Downloads

Download data is not yet available.

Abstract
975

PDF

583

References

“Autocorrect Feature using NLP in Python,” https://www.analyticsvidhya.com/blog/2021/11/-autocorrect-feature-using-nlp-in-python/, 2021.

“Хөрвүүлэх программд зориулсан монгол хэлний цахим хөмрөгийн тухай,” Др. Э. Мөнх-Учрал (Боннын Их Сургууль, Монгол Улсын Их Сургууль), 2010.

М. Хүрэлхүү, Д. Ууганбаатар, “Машин сургалтын аргыг кирилл, монгол бичгийн алдаа засах, бичвэр хооронд хөрвүүлэхэд ашиглах нь,” 2019.

“Transformers in NLP: A beginner friendly explanation,” https://towardsdatascience.com-/transformers-89034557de14.

J. Devlin, M. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” https://arxiv.org/pdf/1810.04805.pdf, 2019.

“SymSpellEx,” https://www.npmjs.com/package/symspell-ex/v/1.0.2, 2020.

https://en.wikipedia.org/wiki/BERT_(language_model)#cite_note-:0-1.

https://github.com/wolfgarbe/SymSpell.

“A quick overview of the implementation of a fast spelling correction algorithm,” //medium.com-/@agusnavce/a-quick-overview-of-the-implementation-of-a-fast-spelling-correction-algorithm

Cyrillic Word Error Program Based on Machine Learning

Authors

DOI:

Keywords:

Abstract

Downloads

References

Downloads

Published

How to Cite

Issue

Section

License

Information

Current Issue