Исследование ансамблевых моделей систем помощи принятия решений
Заказать уникальную дипломную работу- 73 73 страницы
- 25 + 25 источников
- Добавлена 27.07.2022
- Содержание
- Часть работы
- Список литературы
- Вопросы/Ответы
Введение 2
1. Обзор предметной области 3
1.1. Назначение системы поддержки принятия решений 10
1.2. Компоненты системы поддержки принятия решений 10
1.3. Типы систем поддержки принятия решений 12
1.4. Преимущества системы поддержки принятия решений 13
1.5. Недостатки системы поддержки принятия решений 13
1.6. Программное обеспечение системы поддержки принятия решений 14
2. Теоретические аспекты функционирования систем принятия решений 16
2.1. Многие типы систем поддержки принятия решений 19
2.2. Управление базой данных (СУБД) 25
2.4. Интеллектуальные системы принятия решений (ИСППР) 41
2.5. Заключение 47
3. Исследование ансамблевых методов для систем принятия решений 48
3.1 Алгоритм машинного обучения «логистическая регрессия» 49
3.2 Алгоритм машинного обучения «случайный лес» 52
3.3 Ансамблевые методы на основе голосования и усреднения 56
4. Разработка системы принятия решений на основе ансамблевых методов 65
ЗАКЛЮЧЕНИЕ 69
Библиографический список 71
Прогностическая функциональность ИИ — это то, что делает его отличным инструментом поддержки принятия решений, который берет необработанные данные и превращает их в действенные советы.
2.5. Заключение
СППР может быть чрезвычайно полезным для общей производительности любой организации. Однако СППР также может быть причиной большой путаницы, неправильного восприятия и даже неточного анализа — эти системы не предназначены для устранения «плохих» решений. СППР призваны помочь менеджеру в принятии оперативных решений, но основное бремя ответственности лежит на менеджере.
Тем не менее, системы поддержки принятия решений остаются инструментом, который может обеспечить фирмам устойчивое конкурентное преимущество, и во многих отраслях надежные системы поддержки принятия решений являются правилом, а не исключением.
По мере развития технологий искусственного интеллекта мышление СППР все больше приближаются к разуму эксперта-аналитика, что увеличивает эффективность применения таких инструментов.
Исследование ансамблевых методов для систем принятия решений
Машинное обучение в вычислительной технике — это место, где искусство встречается с наукой. Совершенствование инструмента машинного обучения во многом связано с пониманием данных и выбором правильного алгоритма. Но зачем выбирать один алгоритм, когда можно выбрать множество и заставить их работать на достижение одной цели: улучшения результатов.
Методы ансамбля — это методы, которые создают несколько моделей, а затем комбинируют их для получения улучшенных результатов. Методы ансамбля обычно дают более точные решения, чем одна модель. Это имело место в ряде соревнований по машинному обучению, где в победивших решениях использовались методы ансамбля. Победитель популярного конкурса Netflix использовал ансамблевый метод для реализации мощного алгоритма совместной фильтрации. Другой пример -- KDD 2009 , где победитель также использовал ансамблевые методы .
Важно, чтобы мы поняли несколько терминов, прежде чем мы продолжим эту статью. На протяжении всей статьи я использовал термин «модель» для описания результатов алгоритма, который обучался на данных. Затем эта модель используется для прогнозирования. Этот алгоритм может быть любым алгоритмом машинного обучения , таким как логистическая регрессия, дерево решений и т. д. Эти модели, когда они используются в качестве входных данных для ансамблевых методов, называются «базовыми моделями».
Здесь рассмотрим методы ансамбля для классификации и опишем некоторые широко известные методы ансамбля: голосование, суммирование, бэггинг и бустинг.
3.1 Алгоритм машинного обучения «логистическая регрессия»
Логистическая регрессия — это метод статистического анализа для прогнозирования бинарного результата, такого как «да» или «нет», на основе предыдущих наблюдений за набором данных.
Модель логистической регрессии предсказывает зависимую переменную данных , анализируя взаимосвязь между одной или несколькими существующими независимыми переменными. Например, логистическую регрессию можно использовать, чтобы предсказать, выиграет или проиграет политический кандидат на выборах или будет ли старшеклассник принят или нет в конкретный колледж. Эти бинарные результаты позволяют принимать простые решения между двумя альтернативами.
Модель логистической регрессии может учитывать несколько входных критериев. В случае поступления в колледж логистическая функция может учитывать такие факторы, как средний балл учащегося, баллы SAT и количество внеклассных мероприятий. На основе исторических данных о более ранних исходах с использованием тех же входных критериев он затем оценивает новые случаи по вероятности их попадания в одну из двух категорий исходов.
Логистическая регрессия стала важным инструментом в дисциплине машинного обучения . Это позволяет алгоритмам, используемым в приложениях машинного обучения, классифицировать входящие данные на основе исторических данных. По мере поступления дополнительных релевантных данных алгоритмы лучше прогнозируют классификации в наборах данных.
Логистическая регрессия также может играть роль в действиях по подготовке данных , позволяя помещать наборы данных в специально предопределенные сегменты во время процесса извлечения, преобразования, загрузки ( ETL ), чтобы подготовить информацию для анализа.
Логистическая регрессия важна, потому что она превращает сложные вычисления вероятности в простую арифметическую задачу. По общему признанию, сам расчет немного сложен, но современные статистические приложения автоматизируют большую часть этой рутинной работы. Это значительно упрощает анализ влияния множества переменных и помогает свести к минимуму влияние искажающих факторов.
Основное преимущество логистической регрессии заключается в том, что ее гораздо проще настроить и обучить, чем другие приложения для машинного обучения и искусственного интеллекта.
Еще одним преимуществом является то, что это один из наиболее эффективных алгоритмов, когда различные результаты или различия, представленные данными, линейно разделимы. Это означает, что вы можете провести прямую линию, разделяющую результаты расчета логистической регрессии.
Основная идея логистической регрессии заключается в том, что пространство исходных значений возможно разделить линейной границей (т.е. прямой) на два различных класса (области). В случае двух измерений под линейной границей подразумеватся просто прямая линия без изгибов. В случае трех — плоскость, и так далее. Эта граница задается в зависимости от имеющихся исходных данных и обучающего алгоритма. Чтобы все работало, точки исходных данных должны разделяться линейной границей на две вышеупомянутых области. Если точки исходных данных удовлетворяют этому требованию, то их можно назвать линейно разделяемыми.
Рисунок 20 – описание логистической регресии
Для понимания геометрического подтекста «разделения» исходного пространства на две области возьмем две исходные переменные - и , тогда функция, соответствующая границе, примет вид:
В используемой модели граничная функция определяет логарифм отношения шансов класса "+". В сущности, в нашем двухмерном примере, при наличии точки (a,b) , алгоритм логистической регрессии будет выглядеть следующим образом:
Шаг 1. Вычислить значение граничной функции (или, как вариант, функцию отношения шансов). Для простоты обозначим эту величину t.
Шаг 2. Вычислить отношение шансов: . (так как t является логарифмом ).
Шаг 3. Имея значение , вычислить с помощью простой зависимости.
Получив значение t в шаге 1, можно объединить шаги 2 и 3:
Правая часть уравнения, указанного выше, называется логистической функцией. Отсюда и название, данное этой модели обучения.
3.2 Алгоритм машинного обучения «случайный лес»
По сути, Random Forest является композицией (ансамблем) множества решающих деревьев, что позволяет снизить проблему переобучения и повысить точность в сравнении с одним деревом. Прогноз получается в результате агрегирования ответов множества деревьев. Тренировка деревьев происходит независимо друг от друга (на разных подмножествах), что не просто решает проблему построения одинаковых деревьев на одном и том же наборе данных, но и делает этот алгоритм весьма удобным для применения в системах распределённых вычислений. Вообще, идея бэггинга, предложенная Лео Брейманом, хорошо подходит для распределения вычислений.
Для бэггинга (независимого обучения алгоритмов классификации, где результат определяется голосованием) есть смысл использовать большое количество деревьев решений с достаточно большой глубиной. Во время классификации финальным результатом будет тот класс, за который проголосовало большинство деревьев, при условии, что одно дерево обладает одним голосом.
Так, например, если в задаче бинарной классификации была сформирована модель с 500 деревьями, среди которых 100 указывают на нулевой класс, а остальные 400 на первый класс, то в результате модель будет предсказывать именно первый класс. Если использовать Random Forest для задач регрессии, то подход выбора того решения, за которое проголосовало большинство деревьев будет неподходящим. Вместо этого происходит выбор среднего решения по всем деревьям.
Random Forest (по причине независимого построения глубоких деревьев) требует весьма много ресурсов, а ограничение на глубину повредит точности (для решения сложных задач нужно построить много глубоких деревьев). Можно заметить, что время обучения деревьев возрастает приблизительно линейно их количеству.
Естественно, увеличение высоты (глубины) деревьев не самым лучшим образом сказывается на производительности, но повышает эффективность этого алгоритма (хотя и вместе с этим повышается склонность к переобучению). Слишком сильно бояться переобучения не следует, так как это будет скомпенсировано числом деревьев. Но и увлекаться тоже не следует. Везде важны оптимально подобранные параметры (гиперпараметры).
В алгоритме случайного леса для всех выборок из тренировочных данных строятся деревья решений. При построении деревьев для создания каждого узла выбираются случайные атрибуты. В отдельности полученные модели не отличаются высокой точностью, но при их объединении качество предсказания значительно улучшается.
Если алгоритм с высокой дисперсией, например, деревья решений, показывает хороший результат на ваших данных, то этот результат зачастую можно улучшить, применив бэггинг.
Рассмотрим задачу регрессии с базовыми алгоритмами . Предположим, что существует истинная функция ответа для всех объектов y(x), а также задано распределение на объектах p(x). В этом случае мы можем записать ошибку каждой функции регрессии
и записать матожидание среднеквадратичной ошибки
Средняя ошибка построенных функций регрессии имеет вид
Предположим, что ошибки несмещены и некоррелированы:
Построим теперь новую функцию регрессии, которая будет усреднять ответы построенных нами функций:
Найдем ее среднеквадратичную ошибку:
Таким образом, усреднение ответов позволило уменьшить средний квадрат ошибки в n раз!
Бэггинг позволяет снизить дисперсию (variance) обучаемого классификатора, уменьшая величину, на сколько ошибка будет отличаться, если обучать модель на разных наборах данных, или другими словами, предотвращает переобучение. Эффективность такого подхода достигается по причине того, что базовые алгоритмы, обученные по различным подвыборкам, получаются достаточно различными, и их ошибки взаимно компенсируются при обобщении, а также за счёт того, что объекты-выбросы могут не попадать в некоторые обучающие подвыборки.
Преимущества алгоритма Random Forest:
Он преодолевает проблему переоснащения путем усреднения или объединения результатов различных деревьев решений.
Случайные леса хорошо работают с большим количеством элементов данных, чем одно дерево решений.
Случайный лес имеет меньшую дисперсию, чем одно дерево решений.
Случайные леса очень гибки и обладают очень высокой точностью.
Масштабирование данных не требует в алгоритме случайного леса. Он сохраняет хорошую точность даже после предоставления данных без масштабирования.
Алгоритмы Random Forest поддерживают хорошую точность даже при отсутствии значительной части данных.
Недостатки алгоритма Random Forest:
Сложность является основным недостатком алгоритмов случайного леса.
Построение Случайных лесов намного сложнее и отнимает больше времени, чем деревья решений.
Для реализации алгоритма Random Forest требуется больше вычислительных ресурсов.
Это менее интуитивно понятно в случае, когда у нас есть большая коллекция деревьев решений.
Процесс прогнозирования с использованием случайных лесов очень трудоемкий по сравнению с другими алгоритмами.
3.3 Ансамблевые методы на основе голосования и усреднения
Голосование и усреднение — два самых простых ансамблевых метода. Они оба просты для понимания и реализации. Голосование используется для классификации, а усреднение — для регрессии.
В обоих методах первым шагом является создание нескольких моделей классификации/регрессии с использованием некоторого обучающего набора данных. Каждая базовая модель может быть создана с использованием разных разбиений одного и того же обучающего набора данных и одного и того же алгоритма или с использованием одного и того же набора данных с разными алгоритмами или любым другим методом. Следующий псевдокод в стиле Python показывает использование одного и того же набора обучающих данных с разными алгоритмами.
train = load_csv("train.csv")
target = train["target"]
train = train.drop("target")
test = load_csv("test.csv")
algorithms = [logistic_regression, decision_tree_classification, ...] #for classification
algorithms = [linear_regression, decision_tree_regressor, ...] #for regression
predictions = matrix(row_length=len(target), column_length=len(algorithms))
for i,algorithm in enumerate(algorithms):
predictions[,i] = algorithm.fit(train, target).predict(test)
В соответствии с приведенным выше псевдокодом мы создали прогнозы для каждой модели и сохранили их в матрице, называемой прогнозами, где каждый столбец содержит прогнозы одной модели.
Голосование большинством
Каждая модель делает прогноз (голоса) для каждого тестового экземпляра, и окончательный выходной прогноз — это тот, который получает более половины голосов. Если ни один из прогнозов не получил более половины голосов, мы можем сказать, что метод ансамбля не может дать устойчивый прогноз для этого случая. Хотя это широко используемый метод, вы можете попробовать прогноз с наибольшим количеством голосов (даже если он составляет менее половины голосов) в качестве окончательного прогноза. В некоторых статьях вы можете увидеть, что этот метод называется «многочисленным голосованием».
Взвешенное голосование
В отличие от голосования большинством, где каждая модель имеет одинаковые права, мы можем повысить важность одной или нескольких моделей. При взвешенном голосовании вы несколько раз учитываете прогноз лучших моделей. Поиск разумного набора весов зависит от вас.
Простое усреднение
В простом методе усреднения для каждого экземпляра набора тестовых данных рассчитываются средние прогнозы. Этот метод часто уменьшает переобучение и создает более сглаженную регрессионную модель. Следующий код псевдокода демонстрирует этот простой метод усреднения:
final_predictions = []
for row_number in len(predictions):
final_predictions.append(
mean(prediction[row_number, ])
)
Взвешенное усреднение
Взвешенное усреднение — это слегка модифицированная версия простого усреднения, где предсказание каждой модели умножается на вес, а затем рассчитывается их среднее значение. Следующий код псевдокода показывает взвешенное усреднение:
weights = [..., ..., ...] #length is equal to len(algorithms)
final_predictions = []
for row_number in len(predictions):
final_predictions.append(
mean(prediction[row_number, ]*weights)
)
Объединение нескольких моделей машинного обучения
Стекирование, также известное как обобщение с накоплением, представляет собой ансамблевый метод, при котором модели объединяются с использованием другого алгоритма машинного обучения . Основная идея состоит в том, чтобы обучить алгоритмы машинного обучения с помощью обучающего набора данных, а затем сгенерировать новый набор данных с этими моделями. Затем этот новый набор данных используется в качестве входных данных для алгоритма машинного обучения объединителя.
Псевдокод процедуры стекирования резюмируется следующим образом:
base_algorithms = [logistic_regression, decision_tree_classification, ...] #for classification
stacking_train_dataset = matrix(row_length=len(target), column_length=len(algorithms))
stacking_test_dataset = matrix(row_length=len(test), column_length=len(algorithms))
for i,base_algorithm in enumerate(base_algorithms):
stacking_train_dataset[,i] = base_algorithm.fit(train, target).predict(train)
stacking_test_dataset[,i] = base_algorithm.predict(test)
final_predictions = combiner_algorithm.fit(stacking_train_dataset, target).predict(stacking_test_dataset)
Как вы можете видеть в приведенном выше псевдокоде, обучающий набор данных для алгоритма объединителя генерируется с использованием выходных данных базовых алгоритмов. В псевдокоде базовый алгоритм генерируется с использованием обучающего набора данных, а затем тот же набор данных снова используется для прогнозирования. Но, как мы знаем, в реальном мире мы не используем один и тот же набор обучающих данных для прогнозирования, поэтому для решения этой проблемы вы можете увидеть некоторые реализации стекирования, в которых набор обучающих данных разделен. Ниже вы можете увидеть псевдокод, в котором обучающий набор данных разбивается перед обучением базовых алгоритмов:
base_algorithms = [logistic_regression, decision_tree_classification, ...] #for classification
stacking_train_dataset = matrix(row_length=len(target), column_length=len(algorithms))
stacking_test_dataset = matrix(row_length=len(test), column_length=len(algorithms))
for i,base_algorithm in enumerate(base_algorithms):
for trainix, testix in split(train, k=10): #you may use sklearn.cross_validation.KFold of sklearn library
stacking_train_dataset[testcv,i] = base_algorithm.fit(train[trainix], target[trainix]).predict(train[testix])
stacking_test_dataset[,i] = base_algorithm.fit(train).predict(test)
final_predictions = combiner_algorithm.fit(stacking_train_dataset, target).predict(stacking_test_dataset)
Bootstrap Агрегация
Название Bootstrap Aggregation, также известное как «Bagging», обобщает ключевые элементы этой стратегии. В алгоритме бэггинга первый шаг включает создание нескольких моделей. Эти модели генерируются с использованием одного и того же алгоритма со случайными подвыборками набора данных, которые случайным образом извлекаются из исходного набора данных методом начальной выборки. При начальной загрузке некоторые исходные примеры появляются более одного раза, а некоторые исходные примеры отсутствуют в выборке. Если вы хотите создать поднабор данных с m элементами, вы должны выбрать случайный элемент из исходного набора данных m раз. И если целью является создание n наборов данных, вы выполняете этот шаг n раз.
В конце у нас есть n наборов данных, где количество элементов в каждом наборе данных равно m. Следующий псевдокод в стиле Python демонстрирует загрузочную выборку:
def bootstrap_sample(original_dataset, m):
sub_dataset = []
for i in range(m):
sub_dataset.append(
random_one_element(original_dataset)
)
return sub_dataset
Второй шаг в пакетировании — это объединение сгенерированных моделей. Для этого используются хорошо известные методы, такие как голосование и усреднение.
Общий псевдокод выглядит так:
def bagging(n, m, base_algorithm, train_dataset, target, test_dataset):
predictions = matrix(row_length=len(target), column_length=n)
for i in range(n):
sub_dataset = bootstrap_sample(train_dataset, m)
predictions[,i] = base_algorithm.fit(original_dataset, target).predict(test_dataset)
final_predictions = voting(predictions) # for classification
final_predictions = averaging(predictions) # for regression
return final_predictions
При бэггинге каждая подвыборка может генерироваться независимо друг от друга. Таким образом, генерация и обучение могут выполняться параллельно.
Вы также можете найти реализацию стратегии упаковки в некоторых алгоритмах. Например, алгоритм Random Forest использует технику мешков с некоторыми отличиями. Random Forest использует случайный выбор признаков, а базовым алгоритмом является алгоритм дерева решений.
Повышение: преобразование слабых моделей в сильные
Термин «повышение» используется для описания семейства алгоритмов, способных преобразовывать слабые модели в сильные. Модель является слабой, если она имеет значительную частоту ошибок, но производительность не является случайной (что приводит к частоте ошибок 0,5 для двоичной классификации). Повышение постепенно строит ансамбль путем обучения каждой модели с одним и тем же набором данных, но где веса экземпляров корректируются в соответствии с ошибкой последнего прогноза. Основная идея заключается в том, чтобы заставить модели сосредоточиться на сложных экземплярах. В отличие от бэггинга, бустинг — это последовательный метод, поэтому здесь нельзя использовать параллельные операции.
Общая процедура алгоритма бустинга определяется следующим образом:
def adjust_dataset(_train, errors):
#create a new dataset by using the hardest instances
ix = get_highest_errors_index(train)
return concat(_train[ix], random_select(train))
models = []
_train = random_select(train)
for i in range(n): #n rounds
model = base_algorithm.fit(_train)
predictions = model.predict(_train)
models.append(model)
errors = calculate_error(predictions)
_train = adjust_dataset(_train, errors)
final_predictions = combine(models, test)
Функция Adjust_dataset возвращает новый набор данных, содержащий самые сложные экземпляры, которые затем можно использовать для обучения базового алгоритма.
Adaboost — это широко известный алгоритм, который представляет собой метод повышения. Основатели Adaboost получили за свою работу премию Гёделя . В основном алгоритм дерева решений предпочтительнее в качестве базового алгоритма для Adaboost, а в библиотеке sklearn базовым алгоритмом по умолчанию для Adaboost является дерево решений ( AdaBoostRegressor и AdaBoostClassifier ). Как мы уже обсуждали в предыдущем абзаце, для Adaboost применяется тот же добавочный метод. Информация, собранная на каждом этапе алгоритма AdaBoost о «жесткости» каждой обучающей выборки, передается в модель. Этап «корректировки набора данных» отличается от описанного выше, а этап «объединения моделей» рассчитывается с использованием взвешенного голосования.
Заключение
Ансамблевые модели могут серьезно улучшить результаты машинного обучения в целом за счет разработки сложных алгоритмов и получения высокой точности, такой подход, скорее всего, не подойдет в тех отраслях, где более важна интерпретируемость. Тем не менее, эффективность такого метода неоспорима, а преимущества для использования улучшения результатов могут быть огромными. В таких областях, как например здравоохранение, даже минимальное повышение точности алгоритмов машинного обучения может привести к значительному повышению эффективности лечения в целом.
Разработка системы принятия решений на основе ансамблевых методов
Как известно, ключевой характеристикой слабо структурированных задач, т.е. для решения которых применяют СППР, является многокритериальность [26]. Это свойство заключается в том, что принимаемое решение нельзя оценить с помощью одного показателя и необходимо использовать векторный критерий. Для устранения проблем ранжирования и оптимизации альтернатив в этом случае необходимо применять неформальные методы скаляризации, которые опираются на мнение ЛПР.
В структуре (1) функциональными компонентами F(S) являются
исполняемые модули прикладных систем , которые работают в одной связке с служебными модулями, обеспечивающими коллективную работу объединяемых систем.
Каждая из прикладных систем представляет собой один из видов задач
интеллектуальной поддержки. При работе объединяемые
модули Mi(i=1,…,m) обмениваются данными с базой данных D(W) с
помощью вспомогательных модулей, которые отбирают из базы данных все нужные данные и затем размещают там же результаты анализа. Управляющий программный комплекс U(PC) отвечает за работу интегрированной системы I(S) c помощью программных средств.
I(S) =
где F(S) – функциональные компоненты; D(W) – обобщенная база данных;
U(C) – управляющий программный комплекс.
Обобщенная база данных D(W) создается по стандартным принципам построения хранилищ данных.
Функциональный анализ прикладных систем знаний проведем через IDEFO (рис. 1).
Рис. 1. Архитектура системы интеллектуальной поддержки
Программный комплекс интеллектуальной поддержки принятия решений представлен на рис. 2.
Такой блок увеличивает возможности общей системы с рис. 1.
Рис.2. Поток информации, реализующий концепцию системы поддержки
решений в интегрированной ИС: ISC – интегрированная подсистема
управления вычислениями; WDO – подсистема организации данных. SAI –
поиск и обеспечение доступа к информации; Q&S – контроль качества
решений; T&L – тестирование и обучение; DSS – принятие решений
Система интеллектуальной поддержки имеет следующие ключевые характеристики [3]:
структура является сложной и распределенной;
информация поступает разнородная и слабоструктурированная;
необходимо учесть и формализовать проблемы неопределенности;
необходимо учитывать проблемы разработки системы в целом.
Информационное пространство, предоставляемое системой
интеллектуальной поддержки (рис. 4), обеспечивает совместную потенциальную работу экспертов из различных областей на всех этапа расчетов и процесса моделирования.
Рис. 4. Информационное пространство системы интеллектуальной поддержки
Повышение качества исследования проблемы возможно за счет принципа обработки данных, представленного на рис. 8
Рис. 8. Принципы организации системы поддержки принятия решений на
основе технологии интеллектуальных систем
И вот именно внутри блока интеллектуальной системы необходимо поместить ансамблевые методы.
ЗАКЛЮЧЕНИЕ
Ансамблевые методы — это технология машинного обучения, в которой несколько моделей обучаются на одном наборе данных и далее их результаты определенным образом обобщаются для более лучшего результата.
Основная мысль состоит в том, что, если мы правильно объединим слабые алгоритмы, мы сможем получить более точные и/или надежные модели.
При технологии бэггинга несколько экземпляров одной и той же базовой модели обучаются параллельно (независимо друг от друга) на разных бутстрэп выборках, а затем агрегируются некоторым процессом «усреднения»
Вид операции усреднения, выполняемый над моделями, обученными на (почти) независимымых одинаково распределенных выборках в методах бэггинга, в основном позволяет нам получить ансамблевую модель с меньшим разбросом, чем ее компоненты: поэтому базовые модели с низким смещением, но высоким разбросом хорошо приспособлены для бэггинга.
При бустинге же несколько экземпляров одной и той же базовой модели обучаются последовательно, так что на каждой итерации способ обучения текущего слабого ученика зависит от предыдущих слабых учеников и, в особенности, от того, как они работают с данными
Эта итеративная стратегия обучения, используемая в методах бустинга, которая адаптируется к недостаткам предыдущих моделей для обучения текущей, в основном позволяет нам получить модель ансамбля с более низким смещением, чем ее компоненты: именно поэтому слабые ученики с низким разбросом, но высоким смещением хорошо приспособлены для бустинга
В случае стекинга разные слабые ученики подбираются независимо друг от друга, и в дополнение к этому обучается метамодель для прогнозирования результатов на основе результатов, получаемых базовыми моделями.
И наконец, ансамблевый метод – не панацея и не универсальный способ решения всех задач. С плохо очищенными данными или полностью хаотичными он не справится. Следует комбинировать, дополнять все методы с помощью ансамблей, словом, проводить тщательную исследовательскую работу, и только в случае продуманного и взвешенного подхода применения ансамблевых методов даст эффект.
Библиографический список
1. Забежайло М.И. Интеллектуальный анализ данных – новое направление развития информационных технологий // НТИ. Сер.2. Информационные процессы и системы. 1998. №8, с. 6-17.
2 . Петерсон Дж. Теория сетей Петри и моделирование систем. – М.: Мир, 1984. – 264 c.
Системы искусственного интеллекта в интеллектуальных технологиях ХХI века. – М.: Радиотехника, 2011.
Бортовые интеллектуальные системы. Часть 1. Авиационные системы. Часть 2. Корабельные системы. – М.: Радиотехника, 2006. Часть 3. Системы корабельной посадки летательных аппаратов. – М.: Радиотехника, 2008.
Нечаев Ю.И., Горбачев Ю.Е. Реализация сложных интеллектуальных комплексов на базе современных суперкомпьютеров // Тр. Международной конференции «Интеллектуальные многопроцессорные системы». Таганрог. 1999, с.78-85.
Нечаев Ю.И., Бухановский А.В., Васильев В.Н. Концепция и методологические основы создания интеллектуального базиса грид-систем // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. №54. 2008, с.13 – 28.
Богданов А.В., Дегтярев А.Б., Нечаев Ю.И. Проблемы создания виртуального полигона моделирования сложных динамических объектов // Сборник докладов на международной научной конференции«Суперкомпьютерные системы и их применение». Минск. 2004, с.31-37.
Нечаев Ю.И. Концепция мягких вычислений в бортовых интеллектуальных системах // Информационно-измерительные и управляющие системы. №2. Т.7, 2009, с.3 – 11.
Zadeh L. Fuzzy logic, neural networks and soft computing // Соmmutation on the ASM-1994. Vol.37. №3, рр.77 – 84.
Нечаев Ю.И. Нейросетевые технологии в интеллектуальных системах реального времени // Труды 4-й всероссийской конференции«Нейроинформатика – 2002». М.: МИФИ. 2002. Лекции по нейроинформатике. Часть 1, с.114 – 163.
Нечаев Ю.И. Математическое моделирование в бортовых интеллектуальных системах реального времени // Труды 5-й всероссийской научно-технической конференции «Нейроинформатика – 2003». М.:МИФИ.2003. Лекции по нейроинформатике. Часть 2, с.119–179.
Нейрокомьютеры в интеллектуальных технологиях ХХI века. – М.:Радиотехника, 2011. – 352.
Васильев Д.К. Типовые решения в управлении проектами. – М.: ИПУ РАН. 2003. – 75 c.
Дегтярев А.Б., Кастнер С., Нечаев Ю.И. Моделирование сложных динамических систем в нечеткой среде // Тр. Международной конференции по мягким вычислениям и измерениям SCM-2001. Санкт-Петербург. 2001. т.2, с.119-124.
Яковлев С.Я. Методология имитационного моделирования распределенных интеллектуальных информационных систем // Сборник докладов первой всероссийскoй конференции «Опыт применения языков и программных систем имитационного моделирования в промышленности и прикладных разработках». T.1. Санкт-Петербург.2003, с.28-35.
Нечаев Ю.И., Дубовик С.А. Высокопроизводительные вычисления на основе принципа конкуренции с использованием вероятностно- асимптотических методов структурирования данных // Морской вестник. 2003.№2, c.95-100.
Nechaev Yu.I., Dubovik S.A. Probability-asymptotic methods in ship dynamic problem // Proceedings of 15th international conference on hydrodynamics in ship design, safety and operation. Gdansk. Poland. 2003, pp.187-199.
Хаяси Т. Нелинейные колебания в физических системах. – М.: Мир, 1973. – 336 c.
Boukhanovsky A., Degtyarev A., Lopatoukhin L., Rozhkov V. Stable states of wave climate: applications for risk estimation. Proceedings of the International conference STAB'2000, Launceston, Tasmania, Australia, February, 2000, vol.2, pp.831-846.
Солодовников В.В., Тумаркин В.И. Теория сложности и проектирование систем управления. - М.: Наука, 1990. – 168 с.
Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. – 167 с.
Забелинский А.И. Нелинейная самоорганизация как подход к построению прогнозирующих моделей // Автоматизация и информационные технологии. 2001. №9, с.17 – 19.
Нечаев Ю.И. Искусственный интеллект: концепции и приложения. – Санкт-Петербург. ГМТУ, 2002.
Осипов В.П., Сивакова Т.В., Судаков В.А. Предпосылки унификации программных средств поддержки принятия решений // Программные продукты и системы, 2013, №3, с. 147-150.
Осипов В.П., Сивакова Т.В., Судаков В.А., Загреев Б.В., Трахтенгерц Э.А. Методологические основы поддержки принятия решений при планировании научно-прикладных исследований и экспериментов на международной космической станции (МКС) // Электротехнические и информационные комплексы и системы. 2013. Т.9. № 3, с. 80-88.
Библиографический список
1. Забежайло М.И. Интеллектуальный анализ данных – новое направление развития информационных технологий // НТИ. Сер.2. Информационные процессы и системы. 1998. №8, с. 6-17.
2 . Петерсон Дж. Теория сетей Петри и моделирование систем. – М.: Мир, 1984. – 264 c.
3. Системы искусственного интеллекта в интеллектуальных технологиях ХХI века. – М.: Радиотехника, 2011.
4. Бортовые интеллектуальные системы. Часть 1. Авиационные системы. Часть 2. Корабельные системы. – М.: Радиотехника, 2006. Часть 3. Системы корабельной посадки летательных аппаратов. – М.: Радиотехника, 2008.
5. Нечаев Ю.И., Горбачев Ю.Е. Реализация сложных интеллектуальных комплексов на базе современных суперкомпьютеров // Тр. Международной конференции «Интеллектуальные многопроцессорные системы». Таганрог. 1999, с.78-85.
6. Нечаев Ю.И., Бухановский А.В., Васильев В.Н. Концепция и методологические основы создания интеллектуального базиса грид-систем // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. №54. 2008, с.13 – 28.
7. Богданов А.В., Дегтярев А.Б., Нечаев Ю.И. Проблемы создания виртуального полигона моделирования сложных динамических объектов // Сборник докладов на международной научной конференции«Суперкомпьютерные системы и их применение». Минск. 2004, с.31-37.
8. Нечаев Ю.И. Концепция мягких вычислений в бортовых интеллектуальных системах // Информационно-измерительные и управляющие системы. №2. Т.7, 2009, с.3 – 11.
9. Zadeh L. Fuzzy logic, neural networks and soft computing // Соmmutation on the ASM-1994. Vol.37. №3, рр.77 – 84.
10. Нечаев Ю.И. Нейросетевые технологии в интеллектуальных системах реального времени // Труды 4-й всероссийской конференции«Нейроинформатика – 2002». М.: МИФИ. 2002. Лекции по нейроинформатике. Часть 1, с.114 – 163.
11. Нечаев Ю.И. Математическое моделирование в бортовых интеллектуальных системах реального времени // Труды 5-й всероссийской научно-технической конференции «Нейроинформатика – 2003». М.:МИФИ.2003. Лекции по нейроинформатике. Часть 2, с.119–179.
12. Нейрокомьютеры в интеллектуальных технологиях ХХI века. – М.:Радиотехника, 2011. – 352.
13. Васильев Д.К. Типовые решения в управлении проектами. – М.: ИПУ РАН. 2003. – 75 c.
14. Дегтярев А.Б., Кастнер С., Нечаев Ю.И. Моделирование сложных динамических систем в нечеткой среде // Тр. Международной конференции по мягким вычислениям и измерениям SCM-2001. Санкт-Петербург. 2001. т.2, с.119-124.
15. Яковлев С.Я. Методология имитационного моделирования распределенных интеллектуальных информационных систем // Сборник докладов первой всероссийскoй конференции «Опыт применения языков и программных систем имитационного моделирования в промышленности и прикладных разработках». T.1. Санкт-Петербург.2003, с.28-35.
16. Нечаев Ю.И., Дубовик С.А. Высокопроизводительные вычисления на основе принципа конкуренции с использованием вероятностно- асимптотических методов структурирования данных // Морской вестник. 2003.№2, c.95-100.
17. Nechaev Yu.I., Dubovik S.A. Probability-asymptotic methods in ship dynamic problem // Proceedings of 15th international conference on hydrodynamics in ship design, safety and operation. Gdansk. Poland. 2003, pp.187-199.
18. Хаяси Т. Нелинейные колебания в физических системах. – М.: Мир, 1973. – 336 c.
19. Boukhanovsky A., Degtyarev A., Lopatoukhin L., Rozhkov V. Stable states of wave climate: applications for risk estimation. Proceedings of the International conference STAB'2000, Launceston, Tasmania, Australia, February, 2000, vol.2, pp.831-846.
20. Солодовников В.В., Тумаркин В.И. Теория сложности и проектирование систем управления. - М.: Наука, 1990. – 168 с.
21. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. – 167 с.
22. Забелинский А.И. Нелинейная самоорганизация как подход к построению прогнозирующих моделей // Автоматизация и информационные технологии. 2001. №9, с.17 – 19.
23. Нечаев Ю.И. Искусственный интеллект: концепции и приложения. – Санкт-Петербург. ГМТУ, 2002.
24. Осипов В.П., Сивакова Т.В., Судаков В.А. Предпосылки унификации программных средств поддержки принятия решений // Программные продукты и системы, 2013, №3, с. 147-150.
25. Осипов В.П., Сивакова Т.В., Судаков В.А., Загреев Б.В., Трахтенгерц Э.А. Методологические основы поддержки принятия решений при планировании научно-прикладных исследований и экспериментов на международной космической станции (МКС) // Электротехнические и информационные комплексы и системы. 2013. Т.9. № 3, с. 80-88.
Вопрос-ответ:
Каково назначение системы поддержки принятия решений?
Назначение системы поддержки принятия решений состоит в предоставлении информации и аналитических инструментов, которые помогают принимать обоснованные и эффективные решения.
Какие компоненты включает в себя система поддержки принятия решений?
Система поддержки принятия решений включает в себя компоненты, такие как база знаний, модели принятия решений, алгоритмы анализа данных, интерфейс пользователя и возможности визуализации.
Какие типы систем поддержки принятия решений существуют?
Существуют различные типы систем поддержки принятия решений, включая экспертные системы, системы эвристического поиска, генетические алгоритмы, нейронные сети и ансамблевые модели.
Какие преимущества имеет система поддержки принятия решений?
Система поддержки принятия решений позволяет более эффективно использовать имеющуюся информацию, автоматизировать процесс принятия решений, улучшить качество принимаемых решений, сократить время принятия решений и повысить уровень уверенности в принятых решениях.
Какие недостатки могут быть у системы поддержки принятия решений?
Некоторые недостатки систем поддержки принятия решений включают сложность внедрения и обучения пользователей, возможную несовершенность моделей принятия решений, ограниченность данных и потребность в постоянном обновлении информации.
Каково назначение системы поддержки принятия решений?
Назначение системы поддержки принятия решений - помочь в принятии оптимальных решений в сложных и неструктурированных ситуациях, а также улучшить процесс принятия решений и повысить его эффективность.
Какие компоненты включает в себя система поддержки принятия решений?
Система поддержки принятия решений включает в себя следующие компоненты: базу знаний, инструменты анализа данных, модели и методы принятия решений, систему представления знаний, интерфейс пользователя.
Какие типы систем поддержки принятия решений существуют?
Существуют различные типы систем поддержки принятия решений, включая экспертные системы, системы анализа данных, системы оптимизации, системы прогнозирования и другие.
Какие преимущества имеет система поддержки принятия решений?
Преимущества системы поддержки принятия решений включают улучшение качества решений, сокращение времени принятия решений, повышение эффективности принятия решений, уменьшение рисков, улучшение доступа к информации и другие.
Какие недостатки имеет система поддержки принятия решений?
Среди недостатков системы поддержки принятия решений можно назвать высокую стоимость разработки и внедрения, сложность использования, возможность ошибок в алгоритмах принятия решений, ограничения в представлении знаний и другие.
Что такое система поддержки принятия решений?
Система поддержки принятия решений (СППР) - это инструмент, который предоставляет пользователю информацию и методы для принятия решений в сложных и неопределенных ситуациях. Она помогает анализировать данные, оценивать варианты и выбирать оптимальное решение.
Какие компоненты входят в систему поддержки принятия решений?
Система поддержки принятия решений состоит из нескольких компонентов, включая средства сбора данных, базы знаний, алгоритмы анализа данных, пользовательский интерфейс и средства визуализации. Каждый компонент выполняет свою функцию и взаимодействует с другими для обеспечения эффективной работы системы.