Модели и методы обработки ЕЯ (естественный язык): создание моделей, методов и алгоритмов семантического анализа и интерпретации ЕЯ

Заказать уникальный реферат
Тип работы: Реферат
Предмет: Информационные технологии
  • 24 24 страницы
  • 35 + 35 источников
  • Добавлена 29.05.2016
748 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
Содержание

Введение 3
1. Анализ современных методов представления текста на естественном языке 5
2. Анализ современных методов обработки текста на естественном языке 10
3. Подходы к созданию модели семантического сравнения текстов 16
Заключение 20
Список использованных источников 21

Фрагмент для ознакомления

Это гарантирует то, что извлеченный текстовый пассаж будет нести законченный семантический смысл.Этап 2. Разрешение анафор. Для разрешения анафорических ссылок пользуется метод абдуктивной логики, предложенный в работе [24]. В результате выполнения этого этапа получаются связанные фрагменты текстов (текстовые пассажи), которые несут полное семантическое значение.Этап 3. Построение семантических схем пассажей. Семантическое представление пассажей выполняется с использованием метода семантического представления функционала «смысловыразительности» [18]. В результате использования данного метода для текста формируется набор семантических схем, каждая из которых соответствует текстовому пассажу и может быть использована для сравнения. Отличие предлагаемого метода в том, что сравнение пассажей будет производиться в отношении многие-ко-многим. Этап 4. Сравнение на близость. Определение степени подобия между текстовыми пассажами эталона и сравниваемого текста согласно критерию семантической близости. Для этого предлагается использовать модифицированный семантический критерий сравнения на близость, основанный на критерии представленном в работе Вишнякова Р. Ю. [18].Отличием предлагаемого критерия семантической близости текстовых пассажей эталона и сравниваемого текста является вычисление доли совпадающих элементов смысла, в соответствии с семантическим классом слов, участвующих в сравнении.где p – фактор совпадения между словами, участвующих в сравнении, для каждого элемента смысла, согласно семантическому классу в интервале [0,1], р = 1, если слово идентично, р = 0 если слово вне семантического класса и р = (0,1) в зависимости от степени синонимии; k — количество элементов смысла в текстовом пассаже сравниваемого текста, n — общее число элементов смысла в текстовом пассаже эталона.Необходимо, чтобы эксперт предварительно определял степень синонимии каждого семантического класса. Это может быть сделано по предопределению в эталоне.Этап 5. Оценка подобия. Определение правильности и глубины напрямую зависит от целей и задач сравнения, а, следовательно, и оценки. В этом контексте под правильностью следует понимать приближенность текста к эталону с точки зрения подобия полного текста и его глубины — это верная полнота текста по отношению к эталону. Жизнеспособный критерий правильности вытекает из результатов, полученных в этапе 4, но теперь по отношению ко всему тексту, то определяется коэффициентом правильности C, который вычисляется по формуле:где Ф — результат, полученный для каждого сравнения этапа 4; q — количество текстовых пассажей сравниваемого текста, m — общее число текстовых пассажей эталона.Глубина может быть определена в виде пропорции количества текстовых пассажей сравниваемого текста по отношению к количеству текстовых пассажей эталона, то есть коэффициент глубины S, определяется по формуле:В то время оценка подобия может быть определена средним арифметическим двух ранее полученных коэффициентов; т.е. оценка R, определяется по формуле:Предлагаемый подход семантического сравнения текстов позволяет оценивать тексты, написанные на естественном языке и определить степень их подобия к эталонным текстам, независимо от используемых слов и синтаксиса. Это является основным отличием по отношению к существующим моделям, основанным на точном выявлении слов и/или фраз. ЗаключениеПроведенные исследования позволили автору установить, что для качественной АОТ необходимо применять комбинацию существующих методов, использующих в качестве базы исчисления предикатов в нечетком виде, но дополняющих их векторным представлением элементов, так же автором предлагается их модификация и совместное использование. Рассмотренный подход семантического сравнения текстов позволяет оценивать тексты, написанные на естественном языке и определить степень их подобия к эталонным текстам, независимо от используемых слов и синтаксиса. Дальнейшие исследования по разработке данного метода могут внести вклад в развитие методов повышения эффективности автоматической обработки текстов на естественном языке, в частности, систем дистанционного образования и систем типа «Антиплагиат».Таким образом цель реферата достигнута.Список использованных источниковЯзыкознание. Бол. энцикл. словарь / гл. ред. В.Н. Ярцева. - 2-е изд. - М.: Бол. рос. энцикл., 1998. - 685 с.Советский энциклопедический словарь / гл. ред. А.М. Прохоров. - 4-е изд. - М.: Сов. энциклопедия, 1989. - 1632 с.Искусственный интеллект. В 3 кн. Кн. 1. Системы общения и экспертные системы: справочник / под ред. Э.В. Попова. - М.: Радио и связь, 1990. - 464 с.Могилев, А.В. Информатика: учеб. пособие для студ. пед. вузов /Могилев, Н.И. Пак, Е.К. Хеннер; под ред. Е.К. Хеннера. - 3-е изд., пере- раб. и доп. - М.: Издательский центр «Академия», 2004. - 848 с.Марчук, Ю.Н. Компьютерная лингвистика / Ю.Н. Марчук. - М.: АСТ; Восток-Запад, 2007. - 317 с.Гайдамакин, Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: учеб. пособие / Н.А. Гайдамакин. - М.: Гелиос АРВ, 2002. - 368 с.Губин, М.В. Влияние морфологического анализа на качество информационного поиска / М.В. Губин, А.Б. Морозов // Труды RCDL-2006. - М., 2006. - С. 224-228.Баранов, А.Н. Введение в прикладную лингвистику: учеб. пособие / А.Н. Баранов. - М.: Эдиториал УРСС, 2001. - 360 с.http://translate.google.com/about/.Светова, С.Ю. Системы автоматизированного перевода PROMPT. Системы TranslationMemoryTrados. Интеграция PROMPT и Trados / С.Ю. Светова, Е.В. Косматова. В кн. Перевод: традиции и современные технология. - М.: ВЦП, 2002. - С. 42-55.Потапова, Р.К. Речь: коммуникация, информация, кибернетика: учеб. пособие / Р.К. Потапова. - М.: Едиториал УРСС, 2003. - 568 с.Гаскаров Д. В. «Интеллектуальные информационные системы», 2003.Леоненков А.В. «Нечёткое моделирование в среде MATLAB и fuzzyTECH», 2001.Тузов В.А. «Компьютерная семантика русского языка», СПб, 2004.В.Д. Ландэ «Поиск знаний в Internet», 2005.Толпегин П. В. «Информационные технологии анализа русских естественно-языковых текстов. Часть I» // «Информационные технологии», 2006, №8.А. Вебжицкая «Понимание культур через посредство ключевых слов», М., 2001.Вишняков Р. Ю. 2012. Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска.Дунаев А. А. Исследовательская система для анализа текстов на естественном языке. //http://www.iis.nsk.su/files/articles/sbor_kas_13_dunaev.pdf Contreras Z. Y. y Dávila Q. J. 2002. Unatécnica para la extracciónautomática de resúmenesbasada en unagramática de estilo. Kaszkiel M. y Zobel J. 2001. Effective Ranking with Arbitrary Passages», Journal of the American Society, for Information Science (JASIS). Muñoz T. R. 2009. Representación del conocimiento textual mediantetécnicaslógico-conceptuales en aplicaciones de tecnologíasdellenguajehumano. Quillian R. 1968. "Semantic Memory", in M. Minsky (ed.), Semantic Information Processing. Salguero L. F. 2010. Resoluciónabductiva de anáforaspronominales. http://www.http://personal.us.es/fsoler/papers/ivjornadas.pdf Salton G. 1989. Automatic Text Processing : The Transformation, Analysis, and Retrieval of Information by Computer, Addison Wesley, New York .Михайлов С.Н. Методика формирования архитектуры инфокоммуникационной среды информационно-аналитического обеспечения научных исследований технического вуза // Информационно-измерительные и управляющие системы. 2010. Т. 8, № 7. С. 27-29.Кокорин П.П. Инфологическая система аналитического мониторинга научно-технических фондов библиотек // Информационно-измерительные и управляющие системы. 2009. Т. 7, № 4. С. 11-15.Christopher D.M., Prabhaka R., Hinrich S. Introduction to information retrieval. CambridgeUniversitypress, 2008.Методы построения информационно-логических систем / В.В. Александров, Н.А. Андреева, С.В. Кулешов, Н.А. Андреева. СПб.: Анатолия, 2005. 109 с.Визуальный словарь [Электронный ресурс]: On-line версия. http://www.iai.dn.ua/public/JournalAI_2002_4/Razdel2/05_Anisimov_Marchenko.pdfhttp://www.iis.nsk.su/files/articles/sbor_kas_12_batura_etc.pdfhttp://www.osp.ru/os/2014/01/13039687/Аналитический мониторинг Internet контента. Инфологический подход [Текст] = AnalyticalMonitoringofInternetContent. InfoLogicalApproach / В. В. Александров, С. В. Кулешов // Качество. Инновации. Образование. - 2008. - N 3. - С. 68-70.http://www.ict.edu.ru/vconf/files/9060.pdf

Список использованных источников

1. Языкознание. Бол. энцикл. словарь / гл. ред. В.Н. Ярцева. - 2-е изд. - М.: Бол. рос. энцикл., 1998. - 685 с.
2. Советский энциклопедический словарь / гл. ред. А.М. Прохоров. - 4-е изд. - М.: Сов. энциклопедия, 1989. - 1632 с.
3. Искусственный интеллект. В 3 кн. Кн. 1. Системы общения и экспертные системы: справочник / под ред. Э.В. Попова. - М.: Радио и связь, 1990. - 464 с.
4. Могилев, А.В. Информатика: учеб. пособие для студ. пед. вузов /Могилев, Н.И. Пак, Е.К. Хеннер; под ред. Е.К. Хеннера. - 3-е изд., пере- раб. и доп. - М.: Издательский центр «Академия», 2004. - 848 с.
5. Марчук, Ю.Н. Компьютерная лингвистика / Ю.Н. Марчук. - М.: АСТ; Восток-Запад, 2007. - 317 с.
6. Гайдамакин, Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: учеб. пособие / Н.А. Гайдамакин. - М.: Гелиос АРВ, 2002. - 368 с.
7. Губин, М.В. Влияние морфологического анализа на качество информационного поиска / М.В. Губин, А.Б. Морозов // Труды RCDL-2006. - М., 2006. - С. 224-228.
8. Баранов, А.Н. Введение в прикладную лингвистику: учеб. пособие / А.Н. Баранов. - М.: Эдиториал УРСС, 2001. - 360 с.
9. http://translate.google.com/about/.
10. Светова, С.Ю. Системы автоматизированного перевода PROMPT. Системы TranslationMemoryTrados. Интеграция PROMPT и Trados / С.Ю. Светова, Е.В. Косматова. В кн. Перевод: традиции и современные технология. - М.: ВЦП, 2002. - С. 42-55.
11. Потапова, Р.К. Речь: коммуникация, информация, кибернетика: учеб. пособие / Р.К. Потапова. - М.: Едиториал УРСС, 2003. - 568 с.
12. Гаскаров Д. В. «Интеллектуальные информационные системы», 2003.
13. Леоненков А.В. «Нечёткое моделирование в среде MATLAB и fuzzyTECH», 2001.
14. Тузов В.А. «Компьютерная семантика русского языка», СПб, 2004.
15. В.Д. Ландэ «Поиск знаний в Internet», 2005.
16. Толпегин П. В. «Информационные технологии анализа русских естественно-языковых текстов. Часть I» // «Информационные технологии», 2006, №8.
17. А. Вебжицкая «Понимание культур через посредство ключевых слов», М., 2001.
18. Вишняков Р. Ю. 2012. Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска.
19. Дунаев А. А. Исследовательская система для анализа текстов на естественном языке. //http://www.iis.nsk.su/files/articles/sbor_kas_13_dunaev.pdf
20. Contreras Z. Y. y Dávila Q. J. 2002. Unatécnica para la extracciónautomática de resúmenesbasada en unagramática de estilo.
21. Kaszkiel M. y Zobel J. 2001. Effective Ranking with Arbitrary Passages», Journal of the American Society, for Information Science (JASIS).
22. Muñoz T. R. 2009. Representación del conocimiento textual mediantetécnicaslógico-conceptuales en aplicaciones de tecnologíasdellenguajehumano.
23. Quillian R. 1968. "Semantic Memory", in M. Minsky (ed.), Semantic Information Processing.
24. Salguero L. F. 2010. Resoluciónabductiva de anáforaspronominales. http://www.http://personal.us.es/fsoler/papers/ivjornadas.pdf
25. Salton G. 1989. Automatic Text Processing : The Transformation, Analysis, and Retrieval of Information by Computer, Addison Wesley, New York .
26. Михайлов С.Н. Методика формирования архитектуры инфокоммуникационной среды информационно-аналитического обеспечения научных исследований технического вуза // Информационно-измерительные и управляющие системы. 2010. Т. 8, № 7. С. 27-29.
27. Кокорин П.П. Инфологическая система аналитического мониторинга научно-технических фондов библиотек // Информационно-измерительные и управляющие системы. 2009. Т. 7, № 4. С. 11-15.
28. Christopher D.M., Prabhaka R., Hinrich S. Introduction to information retrieval. CambridgeUniversitypress, 2008.
29. Методы построения информационно-логических систем / В.В. Александров, Н.А. Андреева, С.В. Кулешов, Н.А. Андреева. СПб.: Анатолия, 2005. 109 с.
30. Визуальный словарь [Электронный ресурс]: On-line версия.
31. http://www.iai.dn.ua/public/JournalAI_2002_4/Razdel2/05_Anisimov_Marchenko.pdf
32. http://www.iis.nsk.su/files/articles/sbor_kas_12_batura_etc.pdf
33. http://www.osp.ru/os/2014/01/13039687/
34. Аналитический мониторинг Internet контента. Инфологический подход [Текст] = AnalyticalMonitoringofInternetContent. InfoLogicalApproach / В. В. Александров, С. В. Кулешов // Качество. Инновации. Образование. - 2008. - N 3. - С. 68-70.
35. http://www.ict.edu.ru/vconf/files/9060.pdf

Вопрос-ответ:

Какие модели и методы используются для обработки естественного языка?

Для обработки естественного языка используются различные модели и методы, такие как методы машинного обучения, статистический анализ, семантический анализ, N-граммы, и т. д. В зависимости от задачи и требований, выбираются наиболее подходящие модели и методы.

Что такое семантический анализ и интерпретация естественного языка?

Семантический анализ и интерпретация естественного языка - это процесс анализа смысла и значения текста на естественном языке. В результате этого процесса строится модель, которая позволяет понимать и интерпретировать содержание текста.

Какие подходы используются для создания моделей семантического сравнения текстов?

Для создания моделей семантического сравнения текстов используются различные подходы, например, векторные модели, графовые модели, логические модели и т. д. Эти подходы позволяют выявить семантические связи между текстами и проводить сравнение и анализ текстов на более глубоком уровне.

Какие методы используются для представления текста на естественном языке?

Для представления текста на естественном языке используются различные методы, такие как бинарное кодирование, векторное представление, байесовские сети, рекуррентные нейронные сети и т. д. Эти методы позволяют преобразовать текст в удобную для анализа и интерпретации форму, в которой можно проводить различные вычисления и операции.

Каким образом гарантируется, что извлеченный текстовый пассаж несет законченный семантический смысл?

Гарантия того, что извлеченный текстовый пассаж будет нести законченный семантический смысл, может быть обеспечена с помощью использования различных методов и алгоритмов семантического анализа. Эти методы и алгоритмы позволяют проводить глубокий анализ текста и выделять смысловую структуру, что помогает избежать неоднозначных и неполных текстовых пассажей.

Какие модели и методы используются для обработки естественного языка?

Модели и методы обработки естественного языка включают в себя различные подходы, такие как статистический анализ, машинное обучение, глубокое обучение, правила и логика. Они позволяют обрабатывать текст на естественном языке, анализировать его семантику, классифицировать и категоризировать тексты, извлекать информацию из них и многое другое.

Какие методы представления текста на естественном языке используются сегодня?

Среди современных методов представления текста на естественном языке можно выделить векторные модели, в которых каждому слову или фразе сопоставляется вектор числовых значений, а также модели на основе глубокого обучения, которые выявляют в тексте более сложные абстракции и связи между словами и фразами.

Какие методы используются для обработки текста на естественном языке?

Среди современных методов обработки текста на естественном языке можно выделить методы морфологического анализа, синтаксического анализа, семантического анализа, а также методы машинного обучения и глубокого обучения. Они позволяют автоматически извлекать информацию из текста, классифицировать тексты, выделять ключевые фразы и многое другое.

Какие подходы используются при создании моделей семантического сравнения текстов?

При создании моделей семантического сравнения текстов применяются различные подходы. Некоторые из них основаны на сопоставлении структуры текстов, другие на векторном представлении текстов, третьи на использовании глубоких нейронных сетей. Важно выбрать подход, который наилучшим образом подходит для конкретной задачи сравнения текстов.

Как обрабатывается текст, чтобы из него был извлечен семантический смысл?

Для извлечения семантического смысла из текста необходимо применить несколько этапов обработки. Сначала текст разделяется на предложения, затем проводится морфологический анализ каждого предложения, определяются части речи и формы слов. Затем проводится синтаксический анализ, в результате которого определяется структура предложения и связи между словами. После этого проводится семантический анализ, который позволяет определить значения слов и выявить смысловые отношения между ними. Наконец, происходит интерпретация полученных результатов и анализ семантического содержания текста.

Какие методы используются для обработки текста на естественном языке?

Существует много методов обработки текста на естественном языке. Некоторые из них включают стемминг, лемматизацию, извлечение ключевых слов, распознавание именованных сущностей и синтаксический анализ.

Какие подходы используются для создания моделей семантического сравнения текстов?

Существуют различные подходы к созданию моделей семантического сравнения текстов, включая векторное представление текста, модели на основе глубокого обучения и модели на основе графов. Каждый из этих подходов имеет свои преимущества и ограничения и может применяться в разных сценариях.