Ukrainian News Corpus As Text Classification Benchmark

Published in ICTERI Conference, 2022

Recommended citation: Panchenko, D., Maksymenko, D., Turuta, O., Luzan, M., Tytarenko, S., Turuta, O. (2022). Ukrainian News Corpus as Text Classification Benchmark. In: Ignatenko, O., et al. ICTERI 2021 Workshops. ICTERI 2021. Communications in Computer and Information Science, vol 1635. Springer, Cham. https://doi.org/10.1007/978-3-031-14841-5_37 http://stepantita.github.io/files/NewsClassificationBenchmark.pdf

In this paper we describe a framework for simple classification dataset creation with minimal labeling effort. We create a dataset for Ukrainian news classification and compare several pretrained models for Ukrainian language in different training settings.

Download paper here

Share on

Twitter Facebook LinkedIn

Stepan Tytarenko

Share on