Identification of authorship of Ukrainian-language texts of journalistic style using neural networks

Maksym Lupei, Alexander Mitsa, Volodymyr Repariuk, Vasyl Sharkan
2020 Eastern-European Journal of Enterprise Technologies  
Дослiджується проблема розробки ефективного способу визначення авторства текстiв (на матерiалi публiкацiй вiдомих українських журналiстiв). Бiльшiсть наявних методiв потребують попередньої обробки тексту, що тягне за собою новi витрати при розв'язаннi поставленої задачi. У випадку, коли кiлькiсть можливих авторiв можна мiнiмiзувати, такий пiдхiд є часто надлишковим. Ще одним недолiком наявних пiдходiв є те, що переважна бiльшiсть їх застосовувалися до iншомовних текстiв i не враховували
more » ... стей української мови. Тому було вирiшено розробити пiдхiд, що дозволяє визначити автора тексту українською мовою без попередньої обробки та дає високi результати точностi, а також встановити, якi типи штучних нейронних мереж забезпечують мiнiмальну похибку для українських публiцистiв. Розроблений метод використовує багатошаровий персептрон прямого поширення, алгоритм навчання з учителем, векторизацiю HashingVectoriser, оптимiзатор Adam. Визначено, що при невеликiй кiлькостi iтерацiй (4-5 iтерацiй) навчання штучної нейронної мережi отримується досить висока точнiсть визначення авторства публiцистичних текстiв та досить мале значення похибки. Використано бiльше 1000 фрагментiв текстiв трьох українських авторiв. У результатi проведених експериментiв було встановлено, що застосовування розробленого пiдходу до розв'язання поставленої задачi дає змогу досягти досить високих результатiв. У текстах, що мiстять не менше 500 символiв, точнiсть сягає 91 %, а максимальна кiлькiсть iтерацiй навчання штучної нейронної мережi при цьому не перевищує 15. Такi результати досягнутi насамперед завдяки ефективному пiдбору методу векторизацiї на пiдготовчому етапi та структури штучної нейронної мережi Ключовi слова: визначення авторства, аналiз тексту, штучнi нейроннi мережi, багатошаровий персептрон, векторизацiя тексту UDC 681.518
doi:10.15587/1729-4061.2020.195041 fatcat:wzrk4dyvvncvnfpu2a7lx2k7xe