Публікація: Принципи та архітектури LLM для парсингу даних
Дата
2025
Автори
Флегантов, Леонід Олексійович
Левченко Юрій Іванович
Назва видання
ISSN
Назва тому
Видання
Софія, Болгарія : International Scientific Unity
Анотація
Розглянуто принципи побудови та архітектурні особливості великих мовних моделей (Large Language Models, LLM), що застосовуються для автоматизованого парсингу даних. Проаналізовано обмеження традиційних детермінованих методів парсингу та обґрунтовано переваги використання LLM для семантичного аналізу й структурованого вилучення інформації з неструктурованих і напівструктурованих джерел. Розглянуто трансформерну архітектуру як основу сучасних LLM, зокрема механізм self-attention, позиційне кодування та генеративний підхід до формування результатів. Проведено порівняльний аналіз моделей BERT, GPT, T5 та LLaMA з точки зору їх придатності до задач парсингу даних, виділення сутностей і генерації структурованих форматів (JSON, XML, SQL). Показано, що генеративні моделі типу GPT і LLaMA є найбільш перспективними для автоматизованого парсингу завдяки підтримці few-shot та zero-shot навчання і високій контекстуальній чутливості. Зроблено висновок про доцільність використання LLM як універсального інструменту структуризації даних у сучасних інформаційних системах.
Опис
Флегантов Л., Левченко Ю. Принципи та архітектури LLM для парсингу даних // The Future of Science, Technology and Economy : збірник наукових праць з матеріалами 3-ї Міжнар. наук.-практ. конф. (29–31 жовтня 2025 р.). Софія, Болгарія : International Scientific Unity, 2025. С. 164–168. DOI: 10.70286/ISU-29.10.2025.
Ключові слова
великі мовні моделі, парсинг даних, трансформерна архітектура, семантичний аналіз, GPT, BERT, LLaMA
Бібліографічний опис
Флегантов Л., Левченко Ю. Принципи та архітектури LLM для парсингу даних // The Future of Science, Technology and Economy : збірник наукових праць з матеріалами 3-ї Міжнар. наук.-практ. конф. (29–31 жовтня 2025 р.). Софія, Болгарія : International Scientific Unity, 2025. С. 164–168. DOI: 10.70286/ISU-29.10.2025.