Cyrillic Word Error Program Based on Machine Learning
DOI:
https://doi.org/10.5564/jimdt.v4i1.2661Keywords:
BERT model, SymSpell model, Natural Language Processing, SpellcheckingAbstract
With the rapid development of information technology, the main means of human communication-language-is also shifting rapidly from physical to digital forms. That being said, natural language processing research on foreign languages have been conducted regularly with ready-to-use and reliable programs already widely available on the market. While, initially, spellchecking programs were developed using traditional methods like n-gram methods, modern approaches embrace machine learning methods. Hence, with this research, we aimed to train a natural language processing models more suitable for the Mongolian language structure of which BERT and SymSpell models were trained and tested.
Машин Сургалтын Аргад Суурилсан Монгол Хэлний Үгийн Алдаа Шалгах Программ
Хураангуй: Мэдээллийн технологи хурдацтай хөгжин өөрчлөгдсөөр хүн төрөлхтний харилцааны гол хэрэглүүр болсон хэл бичиг биет байдлаас тоон хэлбэр рүү эрчимтэй шилжиж байна. Тиймдээ ч гадаадад эх хэл шинжлэлийн судалгаанууд тогтмол хийгдсээр эцсийн хэрэглэгчид шууд хэрэглэх боломжтой бөгөөд баталгаатай программуудыг зах зээлд нэвтрүүлээд байна. Анх үгийн алдаа шалгах программууд нь уламжлалт арга буюу n-gram арга дээр суурилдаг байсан бол орчин үед машин сургалтын аргуудыг түлхүү ашиглах болсон байна. Тиймээс энэхүү судалгааны ажлаараа монгол хэлний бүтцэд тохирсон машин сургалт дээр суурилсан үгийн алдаа засах загваруудыг сургахыг зорилоо. Судалгааны хүрээнд машин сургалтын BERT болон SymSpell загваруудыг сургаж, туршсан болно.
Түлхүүр үгс: BERT загвар, SymSpell загвар, Эх хэл боловсруулалт, алдаа шалгуур
Downloads
708
References
“Autocorrect Feature using NLP in Python,” https://www.analyticsvidhya.com/blog/2021/11/-autocorrect-feature-using-nlp-in-python/, 2021.
“Хөрвүүлэх программд зориулсан монгол хэлний цахим хөмрөгийн тухай,” Др. Э. Мөнх-Учрал (Боннын Их Сургууль, Монгол Улсын Их Сургууль), 2010.
М. Хүрэлхүү, Д. Ууганбаатар, “Машин сургалтын аргыг кирилл, монгол бичгийн алдаа засах, бичвэр хооронд хөрвүүлэхэд ашиглах нь,” 2019.
“Transformers in NLP: A beginner friendly explanation,” https://towardsdatascience.com-/transformers-89034557de14.
J. Devlin, M. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” https://arxiv.org/pdf/1810.04805.pdf, 2019.
“SymSpellEx,” https://www.npmjs.com/package/symspell-ex/v/1.0.2, 2020.
https://en.wikipedia.org/wiki/BERT_(language_model)#cite_note-:0-1.
https://github.com/wolfgarbe/SymSpell.
“A quick overview of the implementation of a fast spelling correction algorithm,” //medium.com-/@agusnavce/a-quick-overview-of-the-implementation-of-a-fast-spelling-correction-algorithm
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 Khajidmaa Battumur, Uuganbaatar Dulamragchaa, Sodjamts Enkhbat, Lhagvasuren Altanhuyag, Purevsuren Tumurbaatar
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
The authors grant the Journal of Institute of Mathemathics and Digital Technology a license to publish the article and identify itself as the original publisher.
Articles in the Journal of Institute of Mathemathics and Digital Technology are Open Access articles published under a Creative Commons Attribution-NonCommercial 4.0 International License - CC BY NC.
This license permits NonComericial use, distribution and reproduction in any medium, provided the original work is properly cited.