Применение технологии Data Mining в лингвистике

Заказать уникальный реферат
Тип работы: Реферат
Предмет: Информационные технологии
  • 14 14 страниц
  • 12 + 12 источников
  • Добавлена 01.06.2018
299 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы

Введение 3
1 Теоретические основы проблемы 5
1.1 Генезис основных дефиниций 5
1.2 Сложности моделирования естественного языка 7
2 Эмпирический подход к использованию технологии Data Mining 12
2.1 Описание технологии Data Mining 12
2.2 Использование технологии Data Mining для решения лингвистических задач 15
Заключение 18
ЛИТЕРАТУРА 19





Фрагмент для ознакомления

Если база данных является чистыми данными в Европе, скорее всего, не будет никаких авторских прав, но могут существовать права на базы данных, поэтому в соответствии с Директивой по базам данных управление данными будет подчиняться правилам. Это привело к тому, что правительство Великобритании в 2014 году пересмотрело свое законодательство об авторском праве, чтобы разрешить разработку контента как ограничение и исключение. Только вторая страна в мире сделала это после Японии, которая представила исключение в 2009 году для добычи данных. Однако из-за ограничения Директивы об авторских правах исключение в Великобритании допускает использование контента в некоммерческих целях. Закон об авторском праве в Великобритании также не позволяет этому положению отменяться в соответствии с условиями контракта. Европейская комиссия способствовала обсуждению заинтересованными сторонами информации о разработке текста и данных в 2013 году под названием «Лицензии для Европы». Фокус на решении этой правовой проблемы, являющейся лицензией, а не ограничениями и исключениями, привел к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года.2.2 Использование технологии DataMining для решения лингвистических задачПри обработке больших коллекций документов актуальны задачиклассификации (Categorization) и кластеризации текстов (TextClustering). Классификация означает отнесение каждого документак определенному классу с заранее известными параметрами, а кластеризация — разбиение множества документов на кластеры, т. е. подмножестватематически близких документов. Для решения этих задач применяютсяметоды машинного обучения, в связи с чем эти прикладные задачи частоотносят к направлению TextMining, рассматриваемому как часть научной области DataMining (интеллектуальный анализ данных).Задачи извлечения информации из текстов на естественном языкеможно отнести к информационному поиску (InformationRetrieval)в его самом широком понимании, предполагающем поиск релевантной информации. Однако у направления InformationExtraction есть принципиальные особенности. В отличие от классического поиска, выполняемогопоисковыми машинами сети Интернет и выдающего пользователю списокотранжированныхсниппетов, на выходе IE-систем — структурированнаяинформация, извлечённая из коллекции текстов (или одного большого текста), что так или иначе предполагает преобразование извлечённой информации. В целом, в рамках IE решается задача автоматического извлеченияиз текстов данных, релевантных определённой проблеме/вопросу/теме, изнеструктурированных текстов. Такие тексты не имеют никакой разметки или метаданных, помогающих идентифицировать искомую информацию. Для удобства дальнейшей обработки и применения извлечённыеданные структурируются: в простейшем случае с помощью тегов XML, вболее сложных они преобразуются и сохраняются в формальном виде: вреляционных базах данных, таблицах, сетевых базах знаний. Структурированные данные передаются средствам аналитической обработки DataMining или же визуализируются для человека-аналитика в виде семантических сетей, когнитивных карт и т.п.Рассмотрим конкретные компоненты процессов TextMining. Типичные стадии и задачи этой технологии включают в себя:1. Поиск информации и выявление исходных данных – это подготовительный шаг, который включает в себя сбор или выявление набора текстовых материалов для анализа. Такие материалы могут содержаться в Интернете, базах данных, файловых системах или системах управления контентом.2. Использование сугубо статистических методов анализа, а также процессов обработки естественного языка и средств лингвистического анализа.3. Выявление смыслов – использование статистических и прочих техник для выявления поименованных признаков текста – упоминаний людей, организаций, мест, символов, аббревиатур и так далее. Контекст помогает определить, что именно обозначает то или иное слово в конкретном вхождении.4. Выявление шаблонов – можно выявить, в каких шаблонах в тексте представлены те или иные смыслы.5. Выявление перекрестных ссылок – обнаружение определений и прочих признаков, которые относятся к одним и тем же объектам.6. Выявление взаимосвязей, фактов и событий – поиск связей между разными смыслами, заключенными в текстовой информации.7. Смысловой анализ – распознавание субъективного (а не фактического) материала и выявление различных форм оценочной информации – смыслов, мнений, настроений, эмоций. Технологии анализа позволяют изучать смыслы на уровне тем, концептов, а также выделять законодателей мнений и объекты мнений.8. Количественный анализ текста – использование набора техник, заимствованных их социальных наук, которые заключаются в том, что человек либо компьютер извлекает семантические либо грамматические связи между отдельными словами, чтобы понять смысл стилистических шаблонов, провести психологическое профилирование и так далее.ЗаключениеТаким образом, в ближайшем будущем технология Datamining станет доминирующей при анализе информации от клиентов в компаниях любого уровня, будь то телефонные центры поддержки, интернет-агентства или аналитические агентства. Кадровые отделы будут использовать программы класса textmining для поиска резюме, подходящих по сложной сетке показателей. А маркетинговые подразделения найдут применение таким программам в качестве анализаторов ситуации на рынке, отслеживающих тенденции, положение конкурентов и другие показатели на основе информации и самых разных источников - новостных лент, отчетов о НИР, обзоров, патентов.Литература1Арский Ю.М.,Финн В.К.Принципыконструирования интеллектуальных систем. Информационныетехнологииивычислительныесистемы.№4.М.:2008.стр.4-37.2Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э. и др.- М.: Изд-во НИУ ВШЭ, 2017. – 269 с.3Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и DataMining. – СПб.: БХВ-Петербург, 2004. – 336с.: ил.4Бритков В.Б., Булычев А.В. Методы анализа больших объемов слабоструктурированной информации / Информационные технологии и вычислительные системы 1/2010. стр. 36-445Будагов Р. А. Введение в науку о языке. / 3-е изд. М.: Добросвет-2000, 2003. — 544 с.6Кутукова Е.С. Технология TextMining7Майер-Шенбергер В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим / Виктор Майер-Шенбергер, Кеннет Кукьер; пер. с англ. Инны Гайдюк. – М.: Манн, Иванов и Фербер, 2014. – 240 с.8Медетов А. А. Термин BigData и способы его применения // Молодой ученый. — 2016. — №11. — С. 207-210. — URL https://moluch.ru/archive/115/30983/ (дата обращения: 10.02.2018).9Наследов А. SPSS 19: профессиональный статистический анализ данных. — СПб.: Питер, 2011. — 400 с.: ил.10Черняк Л. Большие Данные — новая теория и практика. Электронный ресурс. URL: http://www.osp.ru/os/2011/10/13010990/511ЧубуковаИ.А. Data mining. Изд-во: БИНОМ. Лаборатория знаний, 2008г.Иностранные источники12Frank Eibe, Hall Mark A. (30 January 2011).Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.

1 Арский Ю.М., Финн В.К. Принципы конструирования интеллектуальных систем. Информационные технологии и вычислительные системы. № 4. М.: 2008. стр. 4-37.
2 Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э. и др.- М.: Изд-во НИУ ВШЭ, 2017. – 269 с.
3 Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336с.: ил.
4 Бритков В.Б., Булычев А.В. Методы анализа больших объемов слабоструктурированной информации / Информационные технологии и вычислительные системы 1/2010. стр. 36-44
5 Будагов Р. А. Введение в науку о языке. / 3-е изд. М.: Добросвет-2000, 2003. — 544 с.
6 Кутукова Е.С. Технология Text Mining
7 Майер-Шенбергер В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим / Виктор Майер-Шенбергер, Кеннет Кукьер; пер. с англ. Инны Гайдюк. – М.: Манн, Иванов и Фербер, 2014. – 240 с.
8 Медетов А. А. Термин Big Data и способы его применения // Молодой ученый. — 2016. — №11. — С. 207-210. — URL https://moluch.ru/archive/115/30983/ (дата обращения: 10.02.2018).
9 Наследов А. SPSS 19: профессиональный статистический анализ данных. — СПб.: Питер, 2011. — 400 с.: ил.
10 Черняк Л. Большие Данные — новая теория и практика. Электронный ресурс. URL: http://www.osp.ru/os/2011/10/13010990/5
11 Чубукова И.А. Data mining. Изд-во: БИНОМ. Лаборатория знаний, 2008г.

Иностранные источники

12 Frank Eibe, Hall Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.

Вопрос-ответ:

Каковы основные теоретические основы применения технологии Data Mining в лингвистике?

Теоретические основы проблемы лежат в генезисе основных дефиниций и сложностях моделирования естественного языка. Генезис основных дефиниций исследуется для понимания развития и применения Data Mining в лингвистике. Сложности моделирования естественного языка возникают из-за многообразия и комплексности структуры языка.

Что такое Data Mining и как она применяется в лингвистике?

Data Mining - это технология анализа больших объемов данных с целью выявления скрытых закономерностей и шаблонов. В лингвистике она используется для решения различных задач, таких как анализ текстов, классификация языковых единиц и прогнозирование языковых тенденций.

Какие сложности возникают при моделировании естественного языка с использованием Data Mining?

Моделирование естественного языка с помощью Data Mining сталкивается с несколькими сложностями. Во-первых, естественный язык имеет сложную структуру, что требует разработки соответствующих алгоритмов и моделей. Во-вторых, большие объемы данных, неоднородность и неопределенность языковых единиц создают дополнительные трудности при анализе. Наконец, необходимость учитывать контекст и контекстуальные зависимости делает моделирование еще более сложным.

Какие задачи лингвистики могут быть решены с помощью технологии Data Mining?

С помощью Data Mining можно решать различные задачи в лингвистике. Например, анализ текстов позволяет выявить ключевые слова, тематики и семантические связи между текстами. Классификация языковых единиц помогает разделять тексты по определенным признакам или категориям. Прогнозирование языковых тенденций позволяет предсказывать развитие языка на основе анализа его изменений в прошлом.

Какие права могут существовать на базу данных, если она является чистыми данными в Европе?

Если база данных является чистыми данными в Европе, то скорее всего не будет никаких авторских прав на нее. Однако, могут существовать права на саму базу данных, которые могут защищать интеллектуальную собственность или коммерческие интересы владельца базы данных.

Что такое Data Mining?

Data Mining - это процесс извлечения ценной информации из больших объемов данных. С помощью различных алгоритмов и методов анализа данных, Data Mining позволяет выявить скрытые закономерности, тенденции и связи в данных, что помогает в принятии более обоснованных решений.

Каким образом Data Mining применяется в лингвистике?

В лингвистике Data Mining используется для анализа естественного языка и поиска структурированных данных. Эта технология позволяет проводить исследования в области автоматического извлечения информации из текстов, классификации и кластеризации текстов, анализа тональности текстов и многого другого.

Какие сложности существуют при моделировании естественного языка?

Естественный язык сложно моделировать из-за его неоднозначности, семантической разнообразности и контекстуальности. Анализируя естественный язык, необходимо учитывать все эти особенности, что является сложной задачей.

Что такое эмпирический подход в использовании технологии Data Mining?

Эмпирический подход в использовании технологии Data Mining предполагает сбор и анализ больших объемов данных для получения эмпирических результатов. На основе этих результатов проводятся исследования и выявляются закономерности и связи между данными.

Для каких лингвистических задач можно использовать технологию Data Mining?

Data Mining может быть применен для решения различных лингвистических задач, включая автоматическое извлечение информации из текстов, классификацию текстов по тематике, анализ тональности текстов, анализ языковых структур и многие другие.