Анализа данных в R

Заказать уникальную курсовую работу
Тип работы: Курсовая работа
Предмет: Статистика в R
  • 19 19 страниц
  • 10 + 10 источников
  • Добавлена 17.12.2022
1 496 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
ВВЕДЕНИЕ 3
ОСНОВНАЯ ЧАСТЬ 4
ЗАКЛЮЧЕНИЕ 18
СПИСОК ЛИТЕРАТУРЫ И ИСТОЧНИКОВ 19

Фрагмент для ознакомления

Table# Нет данных для выполнения задания# 7 Решейпингlibrary(data.table)iq <- data.table(id = 1:3, iq_before = c(98, 106, 102), iq_after = c(103, 105, 103))iq_long <- melt(iq, id.vars = 'id', variable.name = «time», value.name = «IQ») # Широкий iq в длинный iq_longiq_longОтвет. id time IQ1: 1 iq_before 982: 2 iq_before 1063: 3 iq_before 1024: 1 iq_after 1035: 2 iq_after 1056: 3 iq_after 103iq_long[, time := gsub(«iq_», ««, time)] # В колонке time значение before или afteriq_longОтвет. id time IQ1: 1 before 982: 2 before 1063: 3 before 1024: 1 after 1035: 2 after 1056: 3 after 103dcast(iq_long, ... ~ time) # Обратно iq_long в широкий форматid after before1: 1 103 982: 2 105 1063: 3 103 102# 8 Описательныестатистикиlibrary(survival)library(data.table)data(pbc)pbcdt <- as.data.table(pbc)# Избавимся от значений NA в pbcdt$cholpbcdt$chol = na.omit(pbcdt$chol)> sum(pbcdt$chol, na.rm=T) # Сумма[1] 102468> mean(pbcdt$chol, na.rm=T) # Среднее[1] 371.2609> sd(pbcdt$chol, na.rm=T) # Ст. отклонение[1] 234.7884> var(pbcdt$chol, na.rm=T) # Дисперсия[1] 55125.58> min(pbcdt$chol, na.rm=T) # Минимум[1] 120> max(pbcdt$chol, na.rm=T) # Максимум[1] 1775> median(pbcdt$chol, na.rm=T) # Медиана[1] 310> quantile(pbc$chol, 0.25, na.rm=T) # Переменная, а затем номер квантиля25% 249.5 check_outliers <- function(x) abs(x - mean(x))>3*sd(x) # Новаяфункцияpbcdt <- pbcdt[complete.cases(pbc),]sum(check_outliers(pbcdt$chol)) # Ответ 8[1] 8check_outliers <- function(x, n) abs(x - mean(x))>n*sd(x) # Изменяемфункциюsum(check_outliers(pbcdt$chol, n = 2)) # Ответ 13[1] 13check_outliers <- function(x, n, central = mean, deviation = sd) abs(x - central(x))>n*deviation(x) # Добавляемгибкостьsum(check_outliers(pbcdt$chol, n = 3, median, mad)) # Ответ 20[1] 20ЗАКЛЮЧЕНИЕТаким образом, можно сказать, что у данных наблюдается большой разброс, это можно оценить по дисперсии и ст. отклонению. Также, стоит отметить, что значения находятся в пределах от 120 до 1775. Среднее значение 369,5 при это медианное значение 309,5. Большинство значений находятся ближе к среднему, это можно оценить по квантилям. Можно сказать, что данных распределены нормально, особенно если их очистить от выбросов.СПИСОК ЛИТЕРАТУРЫ И ИСТОЧНИКОВАблялимов О. С. О решении задачи оптимизации методом динамического программирования //Universum: технические науки. – 2020. – №. 9-1 (78). – С. 16-18.Зададаев С. Математика на языке R. – Litres, 2022.Золотарюк А. В. Язык и среда программирования R. – 2019.Карпов Д. А., Струченков В. И. Динамическое программирование в прикладных задачах специального вида //Прикладная информатика. – 2020. – Т. 15. – №. 3. – С. 46-59.Копыцкий А. В., Хильманович В. Н., Клинцевич С. И. Использование языка программирования «R» для генерации тестовых заданий по дисциплине «Медицинская и биологическая физика» //Информатизация образования и методика электронного обучения: цифровые технологии в образовании. – 2020. – С. 191-195.Матеров Е. Н. Использование языка программирования R в вопросах пожарной безопасности: анализ статистики количества пожаров на основе теории временных рядов //Сибирский пожарно-спасательный вестник. – 2019. – №. 1. – С. 52-57.Норман М. Искусство программирования на R. Погружение в большие данные. – " Издательский дом"" Питер""", 2019.Созинов А. В., Созинова М. В. Корреляционно-регрессионный анализ данных опыта с белым люпином при помощи языка программирования R //Современные методики учебной и научно-исследовательской работы. – 2018. – С. 152-157.Хакимова Т. В., Голубничий А. А. Популярность и перспективы языка программирования R //E-Scio. – 2019. – №. 6 (33). – С. 817-821.Чибирова М. Э. Анализ данных и регрессионное моделирование с применением языков программирования Python и R //Научные записки молодых исследователей. – 2019. – №. 2. – С. 37-45.

1. Аблялимов О. С. О решении задачи оптимизации методом динамического программирования //Universum: технические науки. – 2020. – №. 9-1 (78). – С. 16-18.
2. Зададаев С. Математика на языке R. – Litres, 2022.
3. Золотарюк А. В. Язык и среда программирования R. – 2019.
4. Карпов Д. А., Струченков В. И. Динамическое программирование в прикладных задачах специального вида //Прикладная информатика. – 2020. – Т. 15. – №. 3. – С. 46-59.
5. Копыцкий А. В., Хильманович В. Н., Клинцевич С. И. Использование языка программирования «R» для генерации тестовых заданий по дисциплине «Медицинская и биологическая физика» //Информатизация образования и методика электронного обучения: цифровые технологии в образовании. – 2020. – С. 191-195.
6. Матеров Е. Н. Использование языка программирования R в вопросах пожарной безопасности: анализ статистики количества пожаров на основе теории временных рядов //Сибирский пожарно-спасательный вестник. – 2019. – №. 1. – С. 52-57.
7. Норман М. Искусство программирования на R. Погружение в большие данные. – " Издательский дом"" Питер""", 2019.
8. Созинов А. В., Созинова М. В. Корреляционно-регрессионный анализ данных опыта с белым люпином при помощи языка программирования R //Современные методики учебной и научно-исследовательской работы. – 2018. – С. 152-157.
9. Хакимова Т. В., Голубничий А. А. Популярность и перспективы языка программирования R //E-Scio. – 2019. – №. 6 (33). – С. 817-821.
10. Чибирова М. Э. Анализ данных и регрессионное моделирование с применением языков программирования Python и R //Научные записки молодых исследователей. – 2019. – №. 2. – С. 37-45.

Вопрос-ответ:

Как анализировать данные в R?

Для анализа данных в R можно использовать различные функции и пакеты, например, пакеты dplyr и data.table. Сначала необходимо загрузить данные в R, а затем можно выполнять различные операции, такие как суммирование, среднее значение, стандартное отклонение и другие.

Какие функции можно использовать для анализа данных в R?

В R есть множество функций для анализа данных. Некоторые из них - sum, mean, sd, var, min, max, median, quantile. Они позволяют выполнять различные операции над данными, например, суммировать значения, находить среднее значение, стандартное отклонение, дисперсию, минимальное и максимальное значение, медиану, квантили и другие.

Как использовать пакет data.table для анализа данных в R?

Для использования пакета data.table в R для анализа данных, сначала необходимо установить пакет и загрузить данные в R в формате data.table. Затем можно использовать функции пакета data.table, такие как sum, mean, sd, var, min, max, median, quantile, для работы с данными и выполнения различных операций.

Какие операции можно выполнять с помощью пакета data.table в R?

С помощью пакета data.table в R можно выполнять различные операции над данными, такие как суммирование значений, нахождение среднего значения, стандартного отклонения, дисперсии, минимального и максимального значения, медианы, квантилей и других статистических показателей. Также можно выполнять операции слияния (join) и фильтрации данных.

Можно ли анализировать данные в R с использованием пакета dplyr?

Да, можно анализировать данные в R с использованием пакета dplyr. Пакет dplyr предоставляет функции для работы с данными, такие как фильтрация, суммирование, сортировка, группировка, соединение и другие. Эти функции позволяют эффективно выполнять различные операции над данными в R.

Как произвести анализ данных в программе R?

Для анализа данных в программе R можно воспользоваться различными пакетами, такими как dplyr, tidyr, ggplot2 и другими. Более подробную информацию можно найти в специализированной литературе по R.

Как получить среднее значение для каждой переменной в данных?

Для получения среднего значения для каждой переменной в данных в программе R можно использовать функцию mean(). Например, mean(data$variable) вернет среднее значение переменной "variable" в данных "data".

Как вычислить стандартное отклонение для каждой переменной в данных?

Для вычисления стандартного отклонения для каждой переменной в данных в программе R можно использовать функцию sd(). Например, sd(data$variable) вернет стандартное отклонение переменной "variable" в данных "data".

Как вычислить медиану для каждой переменной в данных?

Для вычисления медианы для каждой переменной в данных в программе R можно использовать функцию median(). Например, median(data$variable) вернет медиану переменной "variable" в данных "data".

Как вычислить минимальное и максимальное значения для каждой переменной в данных?

Для вычисления минимального и максимального значений для каждой переменной в данных в программе R можно использовать функции min() и max() соответственно. Например, min(data$variable) вернет минимальное значение переменной "variable" в данных "data", а max(data$variable) - максимальное значение.