Автоматична генерація навчальних даних за допомогою великих мовних моделей для задач класифікації текстових повідомлень

Автор(и)

  • П. А. Чайковський Донецький національний університет імені Василя Стуса
  • С. Д. Штовба Донецький національний університет імені Василя Стуса

Ключові слова:

великі мовні моделі, генерація синтетичних даних, класифікація текстів, машинне навчання, навчальні набори даних, GPT-4

Анотація

Запропоновано та досліджено методологію автоматичної генерації навчальних наборів даних для класифікації текстових повідомлень з використанням великих мовних моделей.

Біографії авторів

П. А. Чайковський , Донецький національний університет імені Василя Стуса

здобувач вищої освіти

С. Д. Штовба , Донецький національний університет імені Василя Стуса

д-р техн. наук, професор, професор кафедри інформаційних технологій

Посилання

Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations / Zh. Li et al. URL: https://arxiv.org/abs/2310.07849 (дата звернення: 26.09.2024).

The Cost of Down-Scaling Language Models: Fact Recall Deteriorates before In-Context Learning. URL: https://arxiv.org/abs/2310.04680 (дата звернення: 26.09.2024).

Mansour Kh. A Survey of Synthetic Data Generation for Machine Learning. URL: https://www.researchgate.net/publication/357907999_A_Survey_of_Synthetic_Data_Generation_for _Machine_Learning (дата звернення: 26.09.2024).

Efstathia Soufler, Synthetic Dataset Generation for Privacy-Preserving Machine Learning. URL: https://arxiv.org/abs/2210.03205 (дата звернення: 26.09.2024).

Song Y. A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities. URL: https://dl.acm.org/doi/10.1145/3582688 (дата звернення: 26.09.2024).

Pratvina Talele. Classification and Prioritisation of Software Requirements using Machine Learning – A Systematic Review. URL: https://ieeexplore.ieee.org/document/9377190 (дата звернення: 26.09.2024).

Chancellor R. Woolsey, Prakash Bisht, Joshua Rothman, Gondy Leroy. Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks. URL: https://arxiv.org/abs/2405.06695 (дата звернення: 26.09.2024).

White M., Rozovskaya A. A Comparative Study of Synthetic Data Generation Methods for Grammatical Error Correction. URL: https://proceedings.mlr.press/v202/anderson23a.html (дата звернення: 26.02.2024).

Du Ch., Tian J. Task-Level Thinking Steps Help Large Language Models for Challenging Classification Task. URL: https://aclanthology.org/2023.emnlp-main.150/ (дата звернення: 26.09.2024).

Sun X., Li X. Text Classification via Large Language Models. URL: https://aclanthology.org/2023.findings-emnlp.603.pdf (дата звернення: 26.02.2024).

##submission.downloads##

Опубліковано

2024-12-19

Як цитувати

[1]
Чайковський , П.А. і Штовба , С.Д. 2024. Автоматична генерація навчальних даних за допомогою великих мовних моделей для задач класифікації текстових повідомлень. Прикладні аспекти сучасних міждисциплінарних досліджень. (Груд 2024), 224-225.

Номер

Розділ

Секція 3 Прикладні інформаційні технології, комп’ютерні технології обробки даних