Генерация текстов на естественном языке

Заказать уникальную курсовую работу
Тип работы: Курсовая работа
Предмет: Филология
  • 28 28 страниц
  • 24 + 24 источника
  • Добавлена 01.08.2024
1 496 руб.
  • Содержание
  • Часть работы
  • Список литературы
ВВЕДЕНИЕ 3
ГЛАВА I. ИСТОРИЯ РАЗВИТИЯ ГЕНЕРАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 5
1.1. МОДЕЛЬ ГЕНЕРАЦИИ ТЕКСТА 6
1.2. ОСНОВНЫЕ ПРИНЦИПЫ ГЕНЕРАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 8
ГЛАВА II. МЕТОДЫ И АЛГОРИТМЫ ГЕНЕРАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 10
2.1. СИНОНИМАЙЗЕР КАК МЕТОД ГЕНЕРАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 10
2.2. ГЕНЕРАЦИЯ И ОЦЕНКА КАЧЕСТВА СГЕНЕРИРОВАННЫХ ТЕКСТОВ 11
2.3. МОДЕЛИ ГЕНЕРАЦИИ ТЕКСТА 13
2.4. ЛИНГВИСТИЧЕСКИ-МОТИВИРОВАННАЯ ГЕНЕРАЦИЯ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 14
2.3. ABBYY COMPRENO 16
ГЛАВА III. ПРИМЕНЕНИЕ ГЕНЕРАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 17
3.1. ПОТЕНЦИАЛЬНЫЕ ОБЛАСТИ ПРИМЕНЕНИЯ 18
3.2. ПРЕИМУЩЕСТВА И ОГРАНИЧЕНИЯ ИСПОЛЬЗОВАНИЯ ГЕНЕРАЦИИ ТЕКСТОВ В КАЖДОЙ ОБЛАСТИ ПРИМЕНЕНИЯ 21
ЗАКЛЮЧЕНИЕ 23
БИБЛИОГРАФИЯ 25
Фрагмент для ознакомления

Задача генерации текста включает в себя задачу обработки естественного языка (Natural Language Processing, NLP)и реализует возможность языковой модели отвечать на вопросы, на основе исходного текста предсказывать последующее слово и генерировать осмысленный текст.Первый алгоритм генерации текста GPT (GenerativePre-trainedTransformer) разработали по методологии SCRUM, то есть обучен на выборке массивов текстов из Wikipedia и из литературных произведений. Позже создатели поняли, что это не самый оптимальный тип данных для обучения модели. Нейросеть быстрее учится понимать естественную речь на основе простых постов в интернете. Поэтому в 2019 году OpenAI по методологии SCRUM обучили GPT второго поколения на данных, собранных с обычных форумов — выборка пользователей Reddit, причем обязательно с рейтингом выше среднего (как минимум 3 кармы). Последнее учитывалось, чтобы отбросить рекламные или спам-страницы и оставить только полезные.Перевод текстовГенерация субтитров для изображенияГенерация уникальных текстовМожет использоваться с целью размножения текстов для наполнения сайта контентом (рерайт), написания книг и т.д.3.2. ПРЕИМУЩЕСТВА И ОГРАНИЧЕНИЯ ИСПОЛЬЗОВАНИЯ ГЕНЕРАЦИИ ТЕКСТОВ В КАЖДОЙ ОБЛАСТИ ПРИМЕНЕНИЯВо-первых, главное отличие человека от системы – непосредственность. Человеку не свойственны шаблоны поведения, которые он будет повторять постоянно при общении с широком кругом лиц, а также человеку не свойственен поиск эмоции.Во-вторых, когнитивная тренировка при обучении, при которой нейронные связи выполняют специфические физиологические функции, также доступна лишь человеку. Система знает и помнит лишь ту информацию, которая хранится на его жёстком диске, он не может её отрефлексировать или забыть, не может дать своё объяснение тому или иному процессу, а также оперативно продолжить или поддержать дискуссию, если он на то заранее не запрограммирован и не имеет заложенных ранее вероятных тем. Приведём пример такой когнитивной тренировки при изучении иностранных языков. Если вы, например, разговариваете по-фински и учите английский, то вам потребуется некоторая секундная перестройка, чтобы вместо финского «Hei! Mitäkuuluu?» сказать английское «Hey! Howareyou?», так как мозгу требуется устранить эффект подавления финского языка. Эти небольшие задержки при переключении между языками известны как «затраты на переключение». Баланс между языками различен для каждого двуязычия и каждой комбинации языков. Точный объем языков и «затраты на переключение» между ними зависят от того, какой у вас опыт работы с каждой разновидностью и насколько похожи языки. Однако, программа, если в его системе запрограммирована программа распознавания языков или переводчик, тратить время на переход с одного языка на другой не будет, он автоматически перейдёт на нужный язык, без когнитивной нагрузки.В-третьих, процесс обучения человека разительно отличается от «обучения» системы. Так преподаватели, воспитатели и учителя несут ответственность за интеллектуальное, творческое и нравственное развитие учеников, за фактическое становление будущих членов социума или их профессиональное развитие. При обучении человек изучает культуру, язык и традиции, учится коммуницировать, выходит из зоны комфорта и интегрирует полученный опыт в свою жизнь. Бенефициар обучения машины – создатель, именно он отвечает за её интеллектуальную напряжённость. При обучении машина лишь получает набор определённых навыков или информации, но не понимает её сути, она просто имеет закодированный знаковый или буквенный шифр, который автоматически считывает.ЗАКЛЮЧЕНИЕИстория развития генерации текстов на естественном языке началась с появления первых компьютеров и возможности программирования. Первые программы, способные генерировать текст на естественном языке, были созданы еще в середине прошлого века. Однако, качество и достоверность сгенерированных текстов оставляли желать лучшего.С развитием вычислительных технологий и искусственного интеллекта начали появляться более совершенные алгоритмы генерации текстов, способные учиться на своих ошибках и улучшать качество своих выводов. Машинное обучение и нейронные сети стали основными инструментами в развитии генерации текстов на естественном языке.Сегодня мы наблюдаем быстрый рост в области генерации текстов на естественном языке. Многие компании используют автоматизированные системы для создания контента, а также для выполнения рутинных задач, связанных с письменным общением. Это значительно увеличивает эффективность работы и сокращает время на выполнение повседневных задач.Однако, вместе с преимуществами, существуют и недостатки генерации текстов на естественном языке. Одной из основных проблем является возможность распространения ложной информации и фейковых новостей. Также важно помнить об этических аспектах использования автоматизированных систем в создании контента.Несмотря на вызовы и препятствия, развитие генерации текстов на естественном языке продолжается и продолжит привносить новые возможности и перспективы в области информационных технологий. Будущее данной области крайне перспективно, и мы можем только гадать, какие новые инновации будут предложены в ближайшие годы. Будущее развития генерации текстов на естественном языке предвещает еще более захватывающие возможности. Использование искусственного интеллекта и нейронных сетей в сочетании с развитием компьютерной технологии обещает создание систем, способных создавать тексты высокого качества с учетом различных стилей и целей. Это открывает новые горизонты для использования генерации текстов на естественном языке в различных сферах, начиная от маркетинга и рекламы, и заканчивая литературой и журналистикой. В свете таких перспектив генерация текстов на естественном языке становится неотъемлемой частью современного информационного общества.БИБЛИОГРАФИЯ1. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.2. Агаджикова А. Т. и др.,Развитие методов и технологий обработки естественного языка для создания интеллектуальных систем и аналитики текстов // Всемирный ученый. – 2024. – Т. 1. – №. 25. – С. 176-182. URL: https://cyberleninka.ru/article/n/razvitie-metodov-i-tehnologiy-obrabotki-estestvennogo-yazyka-dlya-sozdaniya-intellektualnyh-sistem-i-analitiki-tekstov (дата обращения: 13.06.2024).3. Анисимов А. В., Марченко А. А., Система обработки текстов на естественном языке // Искусственный интеллект. – 2002. – №. 4. – С. 157-163. URL: http://iai.dn.ua/public/JournalAI_2002_4/Razdel2/05_Anisimov_Marchenko.pdf (дата обращения: 13.06.2024).4. Болодурина И. П., Суяргулова Л. А., Обзор существующих методов автоматической обработки текста на естественном языке. – оренбургский государственный университет конференция: современные научно-исследовательские и технологические аспекты программной инженерии URL: https://elibrary.ru/item.asp?id=61743362(дата обращения: 13.06.2024).5. Балашова И. Ю., Волынская К. И., Макарычев П. П., Методы и средства генерации тестовых заданий из текстов на естественном языке // Модели, системы, сети в экономике, технике, природе и обществе. – 2016. – №. 1 (17). – С. 195-202. URL: https://cyberleninka.ru/article/n/metody-i-sredstva-generatsii-testovyh-zadaniy-iz-tekstov-na-estestvennom-yazyke(дата обращения: 13.06.2024).6. Белов С. Д. и др., Обзор методов автоматической обработки текстов на естественном языке // Системный анализ в науке и образовании. – 2020. – №. 3. – С. 1-15. URL: https://sanse.ru/index.php/sanse/article/view/163(дата обращения: 13.06.2024).7. Болдасов М.В., Соколова Е.Г. Генерация текстов на естественном языке – теории, методы, технологии// НТИ. Сер. 2. Информационные процессы и системы. 2006.8. Большакова Е. И. и др., Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. – 2011. URL: http://www.peskova.ru/books/NLP_miem_2011(textbook).pdf(дата обращения: 13.06.2024).9. Бурнашев Р. Ф., Анварова Л. А.,Применение нейронных сетей в автоматическом переводе и обработке естественного языка // Universum: технические науки. – 2024. – Т. 1. – №. 4 (121). – С. 39-43. URL: https://cyberleninka.ru/article/n/primenenie-neyronnyh-setey-v-avtomaticheskom-perevode-i-obrabotke-estestvennogo-yazyka(дата обращения: 13.06.2024).10. Воронцов К. В., Потапенко А. А., Модификации ЕМ-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1, № 6.— С. 657-686.11. Громова Д., Вопреки // Изд. ЭКСМО –422 стр. – ISBN 9785532922518 - 202212. Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А., Роботизированная журналистика: от научного дискурса к журналистскому образованию // Медиаскоп. 2017. Вып. 2. Режим доступа: http://www.mediascope.ru/2295 (дата обращения: 02.07.2024).13. Иванов А. Д., Автоматическая генерация спортивных новостей на естественном языке (на примере робота-журналиста Rosalinda) // Знак: проблемное поле медиаобразования. – 2018. – №. 1 (27). – С. 116-121. URL: https://cyberleninka.ru/article/n/avtomaticheskaya-generatsiya-sportivnyh-novostey-na-estestvennom-yazyke-na-primere-robota-zhurnalista-rosalinda(дата обращения: 13.06.2024).14. Иванов А.Д., Роботизированная журналистика и первые алгоритмы на службе редакций международных СМИ // Знак: проблемное поле медиаобразования, 2015.15. Карпов С. В., Найденов В. В., Перспективы использования современных языковых диалоговых моделей в маркетинге на примере CHATGPT // Редакционная коллегия. – 2023. – С. 496. URL: https://sovman.ru/wp-content/uploads/2023/06/S18.pdf#page=496(дата обращения: 13.06.2024).16. Козар Б. А., Кугуракова В. В., Сахибгареева Г. Ф., Структуризация сущностей естественного текста с использованием нейронных сетей для генерации трехмерных сцен // Программные продукты и системы. – 2022. – Т. 35. – №. 3. – С. 329-339. URL: https://cyberleninka.ru/article/n/strukturizatsiya-suschnostey-estestvennogo-teksta-s-ispolzovaniem-neyronnyh-setey-dlya-generatsii-trehmernyh-stsen(дата обращения: 13.06.2024).17. Личаргин Д.В., Методы генерации предложений естественного языка на основе леса данных естественного языка - Вестник Сибирского государственного аэрокосмического университета, № 3, 2012. - 8 стр.18. Тертычный А.А., Жанры периодической печати // М.: Аспект Пресс, 2006. — 312 а19. Dale, Robert; Reiter, Ehud (2000). Building natural language generation systems. Cambridge, UK: Cambridge University Press. ISBN 978-0-521-02451-8.20. Evans, Roger; Piwek, Paul; Cahill, Lynne (2002). What is NLG?. INLG2002. New York, US. paper21. Gatt, Albert; Krahmer, Emiel (2018). "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation". Journal of Artificial Intelligence Research. 22. Walton J., Words on Bathroom Walls // Random House Books for Young Readers - 304 р. - ISBN-10: 0399550887 – 2017.23. Textovod.com [электронныйресурс]24. ABBYY Intelligent Search SDK. [Электронный ресурс] http://www.abbyy.ru/isearch/compreno/ (дата обращения: 02.07.2024)

1. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
2. Агаджикова А. Т. и др., Развитие методов и технологий обработки естественного языка для создания интеллектуальных систем и аналитики текстов // Всемирный ученый. – 2024. – Т. 1. – №. 25. – С. 176-182. URL: https://cyberleninka.ru/article/n/razvitie-metodov-i-tehnologiy-obrabotki-estestvennogo-yazyka-dlya-sozdaniya-intellektualnyh-sistem-i-analitiki-tekstov (дата обращения: 13.06.2024).
3. Анисимов А. В., Марченко А. А., Система обработки текстов на естественном языке // Искусственный интеллект. – 2002. – №. 4. – С. 157-163. URL: http://iai.dn.ua/public/JournalAI_2002_4/Razdel2/05_Anisimov_Marchenko.pdf (дата обращения: 13.06.2024).
4. Болодурина И. П., Суяргулова Л. А., Обзор существующих методов автоматической обработки текста на естественном языке. – оренбургский государственный университет конференция: современные научно-исследовательские и технологические аспекты программной инженерии URL: https://elibrary.ru/item.asp?id=61743362 (дата обращения: 13.06.2024).
5. Балашова И. Ю., Волынская К. И., Макарычев П. П., Методы и средства генерации тестовых заданий из текстов на естественном языке // Модели, системы, сети в экономике, технике, природе и обществе. – 2016. – №. 1 (17). – С. 195-202. URL: https://cyberleninka.ru/article/n/metody-i-sredstva-generatsii-testovyh-zadaniy-iz-tekstov-na-estestvennom-yazyke (дата обращения: 13.06.2024).
6. Белов С. Д. и др., Обзор методов автоматической обработки текстов на естественном языке // Системный анализ в науке и образовании. – 2020. – №. 3. – С. 1-15. URL: https://sanse.ru/index.php/sanse/article/view/163 (дата обращения: 13.06.2024).
7. Болдасов М.В., Соколова Е.Г. Генерация текстов на естественном языке – теории, методы, технологии// НТИ. Сер. 2. Информационные процессы и системы. 2006.
8. Большакова Е. И. и др., Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. – 2011. URL: http://www.peskova.ru/books/NLP_miem_2011(textbook).pdf (дата обращения: 13.06.2024).
9. Бурнашев Р. Ф., Анварова Л. А., Применение нейронных сетей в автоматическом переводе и обработке естественного языка // Universum: технические науки. – 2024. – Т. 1. – №. 4 (121). – С. 39-43. URL: https://cyberleninka.ru/article/n/primenenie-neyronnyh-setey-v-avtomaticheskom-perevode-i-obrabotke-estestvennogo-yazyka (дата обращения: 13.06.2024).
10. Воронцов К. В., Потапенко А. А., Модификации ЕМ-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1, № 6.— С. 657-686.
11. Громова Д., Вопреки // Изд. ЭКСМО – 422 стр. – ISBN 9785532922518 - 2022
12. Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А., Роботизированная журналистика: от научного дискурса к журналистскому образованию // Медиаскоп. 2017. Вып. 2. Режим доступа: http://www.mediascope.ru/2295 (дата обращения: 02.07.2024).
13. Иванов А. Д., Автоматическая генерация спортивных новостей на естественном языке (на примере робота-журналиста Rosalinda) // Знак: проблемное поле медиаобразования. – 2018. – №. 1 (27). – С. 116-121. URL: https://cyberleninka.ru/article/n/avtomaticheskaya-generatsiya-sportivnyh-novostey-na-estestvennom-yazyke-na-primere-robota-zhurnalista-rosalinda (дата обращения: 13.06.2024).
14. Иванов А.Д., Роботизированная журналистика и первые алгоритмы на службе редакций международных СМИ // Знак: проблемное поле медиаобразования, 2015.
15. Карпов С. В., Найденов В. В., Перспективы использования современных языковых диалоговых моделей в маркетинге на примере CHATGPT // Редакционная коллегия. – 2023. – С. 496. URL: https://sovman.ru/wp-content/uploads/2023/06/S18.pdf#page=496 (дата обращения: 13.06.2024).
16. Козар Б. А., Кугуракова В. В., Сахибгареева Г. Ф., Структуризация сущностей естественного текста с использованием нейронных сетей для генерации трехмерных сцен // Программные продукты и системы. – 2022. – Т. 35. – №. 3. – С. 329-339. URL: https://cyberleninka.ru/article/n/strukturizatsiya-suschnostey-estestvennogo-teksta-s-ispolzovaniem-neyronnyh-setey-dlya-generatsii-trehmernyh-stsen (дата обращения: 13.06.2024).
17. Личаргин Д.В., Методы генерации предложений естественного языка на основе леса данных естественного языка - Вестник Сибирского государственного аэрокосмического университета, № 3, 2012. - 8 стр.
18. Тертычный А.А., Жанры периодической печати // М.: Аспект Пресс, 2006. — 312 а
19. Dale, Robert; Reiter, Ehud (2000). Building natural language generation systems. Cambridge, UK: Cambridge University Press. ISBN 978-0-521-02451-8.
20. Evans, Roger; Piwek, Paul; Cahill, Lynne (2002). What is NLG?. INLG2002. New York, US. paper
21. Gatt, Albert; Krahmer, Emiel (2018). "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation". Journal of Artificial Intelligence Research.
22. Walton J., Words on Bathroom Walls // Random House Books for Young Readers - 304 р. - ISBN-10: 0399550887 – 2017.
23. Textovod.com [электронный ресурс]
24. ABBYY Intelligent Search SDK. [Электронный ресурс] http://www.abbyy.ru/isearch/compreno/ (дата обращения: 02.07.2024)