Автоматическая сегментация морфем для русского языка: Может ли алгоритм заменить экспертов?
Аннотация
Введение: Было предложено множество алгоритмов для задачи автоматической сегментации морфем русских слов. Однако из-за различий в формулировке задачи и используемых наборах данных сравнение их качества остается сложной задачей. Неясно, являются ли ошибки в моделях следствием неэффективности самих алгоритмов или результатом неточностей и несоответствий в словарях морфем. Таким образом, остается открытым вопрос, можно ли использовать какой-либо алгоритм для автоматического расширения существующих словарей морфем.
Цель: Сравнить различные существующие алгоритмы сегментации морфем для русского языка и проанализировать их применимость для автоматического дополнения существующих словарей морфем.
Результаты: В данном исследовании мы сравнили несколько современных алгоритмов машинного обучения, используя три набора данных, основанных на различных парадигмах сегментации. Было проведено два эксперимента, каждый из которых включал пятикратную перекрестную проверку. В первом эксперименте мы случайным образом разделили набор данных на пять подмножеств. Во втором эксперименте все слова с одним корнем были сгруппированы в одно подмножество, при этом слова с несколькими корнями были исключены. В ходе перекрестной проверки модели обучались на четырех подмножествах и тестировались на оставшемся. В обоих экспериментах алгоритмы, основанные на ансамблях сверточных нейронных сетей, неизменно демонстрировали наивысшую производительность. Однако мы наблюдали значительное снижение точности при тестировании на словах, содержащих неизвестные корни. Также было обнаружено, что на случайно выбранном наборе слов производительность этих алгоритмов была сопоставима с результатами экспертов-людей.
Вывод: Наши результаты показывают, что, хотя автоматические методы в среднем достигли качества, близкого к экспертному уровню, отсутствие семантического анализа делает невозможным их использование для автоматического расширения словаря без участия экспертов. Проведенное исследование выявило ключевые проблемы, требующие дальнейшего изучения: низкая производительность на неизвестных корнях и аббревиатурах. В то же время, если в тестовом наборе данных предполагается небольшое количество неизвестных корней, рекомендуется использовать ансамбль сверточных нейронных сетей. Полученные результаты могут быть применены при разработке морфемно-ориентированных токенизаторов и систем анализа сложности текстов.
Скачивания
Литература
Bakulina, G. A. (2012). Morfemnyy razbor slova: novye podkhody - novye vozmozhnosti [Morpheme segmentation: new approaches - new opportunities]. Nachal'naya shkola, (4), 29-32.
Batsuren, K., Bella, G., Arora, A., Martinovic, V., Gorman, K., Žabokrtský, Z., Ganbold, A., Dohnalová, Š., Ševčíková, M., Pelegrinová, K., Giunchiglia, F., Cotterell, R., & Vylomova, E. (2022). The SIGMORPHON 2022 shared task on morpheme segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 103-116). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.11
Bodnár, J. (2022). JB132 submission to the SIGMORPHON 2022 shared task 3 on morphological segmentation. Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 152-156). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.17
Bolshakov, I.A. (2013). Krossleksika: Universum sviazi mezhdu russkimi slovami [Crosslexica: a universe of links between russian words]. Biznes-informatika, 3(25), 12-19.
Bolshakova, E., Sapin, A. (2019). Bi-LSTM model for morpheme segmentation of russian words. In Ustalov, D., Filchenkov, A., Pivovarova, L. (Eds.), Artificial Intelligence and Natural Language. AINL 2019.Communications in Computer and Information Science (pp. 151-160). Springer. DOI: https://doi.org/10.1007/978-3-030-34518-1_11
Bolshakova, E., Sapin, A. (2021). Building a Combined morphological model for Russian word forms. In Burnaev, E. et al. (Eds), Analysis of Images, Social Networks and Texts. AIST 2021. Lecture Notes in Computer Science (vol. 13217, pp. 45-55). Springer. DOI: https://doi.org/10.1007/978-3-031-16500-9_5
Bolshakova, E.I., & Sapin, A.S. (2019).Comparing models of morpheme analysis for Russian words based on machine learning.Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue 2019 (pp. 104-113).Russian State University for the Humanities.
Creutz, M., & Lagus, K. (2002). Unsupervised discovery of morphemes. In Proceedings of the ACL-02 Workshop on Morphological and Phonological Learning (pp. 21-30). Association for Computational Linguistics. DOI: https://doi.org/10.3115/1118647.1118650
Cotterell, R., Vieira, T., & Schütze, H. (2016). A joint model of orthography and morphological segmentation. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 664-669). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/N16-1080
Garipov, T., Morozov, D., & Glazkova, A. (2023). Generalization ability of CNN-based morpheme segmentation. 2023 Ivannikov Ispras Open Conference (ISPRAS) (pp. 58-62). IEEE. DOI: https://doi.org/10.1109/ISPRAS60948.2023.10508171
Girrbach, L. (2022). SIGMORPHON 2022 shared task on morpheme segmentation submission description: Sequence labelling for word-level morpheme segmentation. Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 124-130). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.13
Grönroos, S.-A., Virpioja, S., & Kurimo, M. (2020). Morfessor EM+Prune: Improved subword segmentation with expectation maximization and pruning. Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3944-3953). European Language Resources Association.
Imani, A., Lin, P., Kargaran, A. H., Severini, S., Sabet, M. J., Kassner, N., Ma, C., Schmid, H., Martins, A., Yvon, F., & Schütze, H. (2023). Glot500: Scaling multilingual corpora and language models to 500 languages. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (vol. 1: Long Papers, pp. 1082-1117). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2023.acl-long.61
Iomdin, B. L. (2019). How to define words with the same root? Russian Speech, (1), 109-115. DOI: https://doi.org/10.31857/S013161170003980-7
Kudo, T. (2018). Subword regularization: Improving neural network translation models with multiple subword candidates. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (vol. 1: Long Papers, pp. 66-75). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/P18-1007
Kuratov, Y. & Arkhipov, M. (2019). Adaptation of deep bidirectional multilingual transformers for Russian language.Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue 2019 (pp. 333-339).Russian State University for the Humanities.
Kuznetsova, A. I. & Efremova, T. F. (1986). Dictionary of morphemes of the Russian language.Russkii yazyk.
Levine, L. (2022). Sharing data by language family: Data augmentation for romance language morpheme segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 117-123). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.12
Matthews, A., Neubig, G., & Dyer, C. (2018). Using Morphological knowledge in open-vocabulary neural language models. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (vol. 1, pp. 1435-1445). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/N18-1130
Morozov, D. A., Smal, I. A., Garipov, T. A., & Glazkova, A. V. (2024). Keywords, morpheme parsing and syntactic trees: Features for text complexity assessment. Modeling and Analysis of Information Systems, 31(2), 206-220. DOI: https://doi.org/10.18255/1818-1015-2024-2-206-220
Peters, B. & Martins, A. F. T. (2022). Beyond characters: Subword-level morpheme segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 131-138). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.14
Pranjić, M., Robnik-Šikonja M., & Pollak, S. (2024). LLMSegm: Surface-level morphological segmentation using large language model. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (pp. 10665-10674). ELRA and ICCL.
Savchuk, S. O., Arkhangelskiy, T., Bonch-Osmolovskaya, A. A., Donina, O. V., Kuznetsova, Yu. N., Lyashevskaya, O. N., Orekhov, B. V., & Podryadchikova, M. V. (2024).Russian national corpus 2.0: New opportunities and development prospects. Voprosy Jazykoznanija, 2, 7-34. DOI: https://doi.org/10.31857/0373-658X.2024.2.7-34
Schuster, M. & Nakajima, K. (2012). Japanese and Korean voice search. In 2012 IEEE international conference on acoustics, speech and signal processing (pp. 5149-5152). IEEE. DOI: https://doi.org/10.1109/ICASSP.2012.6289079
Sorokin, A. & Kravtsova, A. (2018). Deep convolutional networks for supervised morpheme segmentation of Russian language. In D. Ustalov, A. Filchenkov, L. Pivovarova, & J. Žižka, (Eds.), Artificial Intelligence and Natural Language (pp. 3-10). Springer. DOI: https://doi.org/10.1007/978-3-030-01204-5_1
Sorokin, A. (2022). Improving morpheme segmentation using BERT embeddings. In E. Burnaev, D. Ignatov, S. Ivanov, M. Khachay, O. Koltsova, A. Kutuzov, S.Kuznetsov, N. Loukachevitch, A. Napoli, A. Panchenko, P. Pardalos, J. Saramäki, A. Savchenko, E. Tsymbalov, & E. Tutubalina, (Eds.), Analysis of images, social networks and texts (pp. 148-161). Springer. DOI: https://doi.org/10.1007/978-3-031-16500-9_13
Tikhonov, A. N. (1990). Slovoobrazovatel‘nyi slovar' russkogo yazyka [Word Formation Dictionary of Russian language].Russkiy yazyk.
Vinokur, G. O. (1946). Zametki po russkomu slovoobrazovaniyu [Notes on Russian word formation]. Izvestiya Akademii nauk SSSR. Seriya literatury i yazyka, V(4), 317-317.
Wehrli, S., Clematide, S., & Makarov, P. (2022). CLUZH at SIGMORPHON 2022 shared tasks on morpheme segmentation and inflection generation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 212-219). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.21
Zundi, T. & Avaajargal, C. (2022). Word-level Morpheme segmentation using Transformer neural network. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology (pp. 139-143). Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2022.sigmorphon-1.15
Copyright (c) 2024 Национальный исследовательский университет «Высшая школа экономики»

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, публикующие статьи в журнале, соглашаются с условиями политики авторских прав.