Publication:
Принципи та архітектури LLM для парсингу даних

Loading...
Thumbnail Image
Date
2025
Authors
Флегантов, Леонід Олексійович
Левченко Юрій Іванович
Journal Title
Journal ISSN
Volume Title
Publisher
Софія, Болгарія : International Scientific Unity
Research Projects
Organizational Units
Journal Issue
Abstract
Розглянуто принципи побудови та архітектурні особливості великих мовних моделей (Large Language Models, LLM), що застосовуються для автоматизованого парсингу даних. Проаналізовано обмеження традиційних детермінованих методів парсингу та обґрунтовано переваги використання LLM для семантичного аналізу й структурованого вилучення інформації з неструктурованих і напівструктурованих джерел. Розглянуто трансформерну архітектуру як основу сучасних LLM, зокрема механізм self-attention, позиційне кодування та генеративний підхід до формування результатів. Проведено порівняльний аналіз моделей BERT, GPT, T5 та LLaMA з точки зору їх придатності до задач парсингу даних, виділення сутностей і генерації структурованих форматів (JSON, XML, SQL). Показано, що генеративні моделі типу GPT і LLaMA є найбільш перспективними для автоматизованого парсингу завдяки підтримці few-shot та zero-shot навчання і високій контекстуальній чутливості. Зроблено висновок про доцільність використання LLM як універсального інструменту структуризації даних у сучасних інформаційних системах.
Description
Флегантов Л., Левченко Ю. Принципи та архітектури LLM для парсингу даних // The Future of Science, Technology and Economy : збірник наукових праць з матеріалами 3-ї Міжнар. наук.-практ. конф. (29–31 жовтня 2025 р.). Софія, Болгарія : International Scientific Unity, 2025. С. 164–168. DOI: 10.70286/ISU-29.10.2025.
Keywords
великі мовні моделі, парсинг даних, трансформерна архітектура, семантичний аналіз, GPT, BERT, LLaMA
Citation
Флегантов Л., Левченко Ю. Принципи та архітектури LLM для парсингу даних // The Future of Science, Technology and Economy : збірник наукових праць з матеріалами 3-ї Міжнар. наук.-практ. конф. (29–31 жовтня 2025 р.). Софія, Болгарія : International Scientific Unity, 2025. С. 164–168. DOI: 10.70286/ISU-29.10.2025.