Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Тема 2. Сущность и классификация статистических программ.

Читайте также:
  1. I. КЛАССИФИКАЦИЯ ПРЫЖКОВ С ПАРАШЮТОМ.
  2. I. КЛАССИФИКАЦИЯ ЭКОЛОГИЧЕСКИХ ФАКТОРОВ
  3. II. Классификация издержек в зависимости от объемов производства.
  4. II. Классификация клеток передних рогов
  5. II. КЛАССИФИКАЦИЯ НА ОСНОВАНИИ ФОРМЫ УПОТРЕБЛЕНИЯ
  6. III классификация и маркировка цветных сплавов.
  7. III. КЛАССИФИКАЦИЯ ОТКАЗОВ ПАРАШЮТОВ, ДЕЙСТВИЯ ПАРАШЮТИСТА ПРИ ИХ ВОЗНИКНОВЕНИИ.

Продуктивность выполняемой работы тесно связана с используемыми инструментами. Так, по легенде, Архимед заявил, что сможет перевернуть Землю, если получит необходимую точку опоры и рычаг. Но необходимого инструментария у великого философа не оказалось, и наша планета до сих пор летит по своей орбите. Похожая ситуация складывается и в области статистического анализа результатов исследований. Проводить статобработку данных вполне возможно, имея только лишь карандаш и бумагу, но намного быстрее и эффективней делать это при помощи специальных инструментов, а именно статистического программного обеспечения. Строго говоря, программные пакеты, применяемые для статистического анализа, следует относить к математическим программам, поэтому в данной статье термины «математический» и «статистический» будут использоваться как синонимы.

Как правило, первые шаги в статистике молодые ученые делают в табличных процессорах, причем подавляющее большинство использует MS Excel. Второй по популярности табличный процессор на сегодняшний день - Calc из офисного пакета OpenOffice.org. К сожалению, некоторые исследователи воспринимают эти программы как наиболее удобный и подходящий инструмент для анализа. Однако они заблуждаются. Использование подобного софта допустимо в тех случаях, если необходимо выполнить простейшие операции вроде сортировки данных, вычисления описательных статистик, построения некоторых видов графиков, а также просто для того, чтобы сохранить первичные данные своего эксперимента и вести лабораторный журнал. Другими словами, полноценная статобработка результатов исследования в Excel невозможна. Это офисное приложение, а не научное.

Все научные математические приложения можно разделить на две большие группы: программы с графическим интерфейсом и без него. Не следует думать, что графический интерфейс каким-то образом характеризует качество программного продукта. Эти свойства никоим образом не зависят друг от друга. Тем не менее, подобное разделение имеет огромное практическое значение. Дело в том, что далеко не каждый может комфортно работать в командной строке. Сегодня многие пользователи компьютера не допускают и мысли об отказе от «кликодромов», на которых держится внушительная часть современной IT-индустрии. Однако математические вычисления все-таки удобней выполнять путем набора команд с клавиатуры, а не щелканьем по многочисленным кнопкам на экране. Поэтому в серьезных приложениях есть режим командной строки со встроенным языком программирования и графический интерфейс.

Для начала познакомимся со средой статистических вычислений и языком программирования R. Его истоки лежат в языке программирования S, с которым у них очень много общего. Стандартная комплектация R не предполагает графического интерфейса, привычного для многих пользователей. В результате у ряда исследователей возникает ошибочное мнение, что данный инструмент позволяет выполнять только численные вычисления, но не имеет возможностей для построения графиков. Это не так. В системе R имеются широкие возможности для статистической обработки данных, в том числе и для работы с графикой, а оконный интерфейс можно установить как дополнительное приложение. Но следует иметь в виду, что графические пользовательские интерфейсы для R заметно уступают таковым в остальных статистических пакетах.

Установить среду R можно на компьютере под управлением Windows, MacOS или Linux. При запуске системы R у неискушенного пользователя возникнет вопрос: «Куда мне вводить данные?». Из-за отсутствия встроенного табличного редактора анализируемая информация либо вводится непосредственно в командную строку в виде аргумента соответствующих функций, либо загружается из внешних файлов. Первый вариант удобен при работе с единичными значениями, а второй - в тех случаях, когда необходимо работать с таблицами. Сами таблицы можно создавать в любом табличном процессоре, а файлы сохранять в формате *.csv, который легко загружается в R.

Загрузив информацию в переменные, можно начинать ее обрабатывать, используя огромное количество функций, реализованных в R. Но следует помнить, что все промежуточные данные при работе с этим языком, хранятся не во временных файлах, а непосредственно в оперативной памяти. Эту особенность необходимо иметь в виду при обработке очень больших объемов информации: R будет использовать значительную часть оперативной памяти компьютера.
Синтаксис языка достаточно прост и легок в изучении. На сегодняшний день написано более сотни книг по самым разным направлениям использования среды статистических вычислений R, но все они на английском языке. К сожалению, русскоязычной информации еще очень мало и она представлена лишь в виде разрозненных статей по некоторым вопросам использования данного языка программирования. Именно недостаток информации сдерживает распространение высококачественного программного пакета в нашей стране (при том, что он является бесплатным).

Надежность R объясняется его происхождением. Язык был создан, как свободная реализация очень мощного языка программирования S, история которого началась еще в 1976 году, когда появилась первая рабочая версия. На сегодняшний день язык S является основой приложения S-PLUS, разрабатываемого TIBCO Software Inc., и, в отличие от R, представляет собой коммерческий продукт. S-PLUS имеет приятный графический интерфейс, ввод данных в котором может быть осуществлен путем загрузки из внешнего файла, базы данных или же копированием таблицы из текстового файла, либо табличного процессора. S-PLUS, так же как и R, может работать в разных операционных системах и использоваться для выполнения численных и графических методов анализа.

Еще одно популярное статистическое приложение - это система SAS, которая зародилась в 60-х годах XX века в Университете Северной Каролины как приложение для анализа результатов сельскохозяйственных исследований. На сегодняшний день система продолжает развиваться в компании SAS Institute, которая выпустила уже девятую версию этой программы. Область применения SAS - самые разнообразные научные исследования, бизнес аналитика и т. д.

Система состоит из модулей, каждый из которых выполняет определенный круг задач. Наиболее часто при статобработке используются модули BASE и STAT. В системе SAS реализован собственный язык программирования, который по своему синтаксису ближе к бэйсику и не похож на R или S. Система позволяет загружать данные из внешних файлов или же вводить их непосредственно в окно терминала. Работая с использованием SAS можно проводить статистическую обработку данных разного уровня сложности, в соответствии с поставленными задачами. Взаимодействие с программой возможно как в консольном режиме, так и через графический интерфейс, который представляет собой графическую оболочку для упрощенного ввода команд языка программирования SAS.

К программам использующим преимущественно интерфейс командной строки относится также Stata, разрабатываемая американской корпорацией StataCorp. Приложение может работать на операционных системах семейства Windows, в MasOS и Linux. Ввод данных здесь возможен как путем загрузки из внешних файлов, так и с использованием встроенного табличного редактора, который довольно прост, но позволяет выполнять все необходимые манипуляции с таблицами. Принципы работы с приложением Stata не отличаются от таковых при использовании описанных выше программ. Те пользователи, которым терминальный режим покажется неудобным, могут использовать меню программы для автоматической генерации команд встроенного языка программирования.
Все описанные статистические пакеты могут применяться при любых видах статистического анализа. Так, функциональность языка R может быть изменена добавлением библиотек функций, ориентированных на строго определенный тип задач. Кроме того, каждый, кто имеет достаточно знаний и опыта работы с этим языком может создавать собственные функции и библиотеки, соответствующие специфике работы конкретного пользователя.

Но помимо статистического софта «широкого профиля» существуют программы ориентированные на ученых, работающих в области биомедицинских исследований. Так, программа MedCalc, разрабатываемая с 1993 года бельгийской компанией MedCalc Software, позиционируется как полноценное статистическое приложение, созданное в соответствии с потребностями исследователей биомедицинского направления. Разработчики акцентируют внимание исследователей на удобстве использования MedCalc для анализа ROC-кривых.

Программа удобна тем, что не предлагает избыточной функциональности, которая зачастую приводит в замешательство неподготовленного человека, начинающего работать с универсальными приложениями. В дополнение к этому, возможность работы только в графическом интерфейсе без использования командной строки делает программу менее гибкой, но зато более привлекательной для использования в данной области науки, поскольку специалисты с медицинским образованием очень редко могут похвастаться большим опытом работы с математическими программами.

На сегодняшний день создана уже двенадцатая версия программы. К сожалению, работать в MedCalc могут только пользователи Windows, но этот недостаток компенсируется относительно малыми системными требованиями и возможность запустить приложение как в Windows 2000, так и в Windows 7. Для тех, кто еще ни разу не пользовался программой, есть возможность скачать полнофункциональную демонстрационную версию продукта с сайта medcalc.org, которая будет работать без ограничений в течение пятнадцати дней. Кроме того, в комплект поставки входят демонстрационные файлы, содержащие наборы данных и примеры их анализа.

Ввод данных в MedCalc осуществляется в интегрированном табличном редакторе или же путем импорта файлов различных форматов, таких как *.csv, excel и др. Для вызова встроенного редактора достаточно выбрать команду Spreadsheet в меню, после чего можно приступать к формированию таблицы. В статистических программах колонки таблиц называют «переменными», а строки «случаями». При создании таблицы полезным будет соблюдение нескольких правил:
• Первая переменная должна содержать порядковые номера случаев. Это необходимо для того, чтобы после пересортировки значений иметь возможность восстановить их прежний порядок.
• Числовые значения следует вводить без округления, чтобы не терять информацию.
• При отсутствии некоторых значений их можно пропустить, оставив в таблице пустые ячейки.
• В каждой переменной для каждого случая должно быть только одно значение.

После сохранения таблицы или загрузки файла с данными начинается этап обработки информации. Для выполнения статистического анализа следует выбрать соответствующий пункт в меню Statistics. Для каждого типа анализа имеется собственный набор настроек, справку по которым можно получить, нажав кнопку Help.
На этапе планирования эксперимента полезным для исследователя будут функции из меню Sampling, позволяющие определить необходимую численность групп для некоторых, наиболее общих, исследовательских задач. Среди функций, реализованных в MedCalc, следует особо отметить возможность проведения основных видов статистического анализа, не имея выборочных значений, т.е. на основе средних величин, показателей разброса и т. п. Это может быть полезно при изучении литературных данных, поскольку полной информации о первичных результатах эксперимента в публикациях не приводится. Например, для сравнения выборочных средних с помощью критерия Стьюдента достаточно знать сами средние арифметические, стандартное отклонение и размеры обеих выборок. Эти данные следует ввести в окне, вызываемом меню Tests > Comparison of > means (t-test), и в этом же окне будет выведен результат сравнения. Аналогично используются и остальные функции в меню Tests.

Таким образом, программа MedCalc за относительно небольшую цену предоставляет пользователю удобный интерфейс без излишней «функциональности», снабженный хорошим табличным редактором. Все вычисления и диаграммы сохраняются в одном файле и легко сортируются в специальном списке в левой части главного окна программы. Статистический анализ выполняется с помощью удобно организованных меню, снабженных лаконичным и понятным справочным материалом. В этой связи программа будет очень полезна ученым, выполняющим биомедицинские исследования и неискушенным в математических приложениях.

MedCalcl - простая и легкая в использовании программа, но не каждый пользователь может получить от нее все, что ему необходимо для работы. Среди тех, кто предъявляет к статистическому софту очень высокие требования и готов выложить за него несколько тысяч долларов, популярностью пользуются такие приложения, как Statistica или SPSS Statistics. Обе программы являются настоящими «монстрами» в сравнении с MedCalc - как по стоимости, так и по своим вычислительным возможностям. Подробно рассказать о них в рамках статьи невозможно, для этого придется написать книгу в несколько сотен страниц, поэтому ограничимся кратким знакомством.

Statistica разрабатывается компанией StatSoft. На сегодняшний день последней версией является Statistica 9. Программа SPSS, название которой - это аббревиатура от Statistical Package for the Social Sciences, относительно недавно стала принадлежать компании IBM и сменила название на PASW (Predictive Analytics SoftWare) Statistics. Обе программы снабжены великолепным графическим интерфейсом, а также имеют встроенный язык программирования и возможность интеграции с языком статистических вычислений R.

Следует отметить, что почти безграничные возможности в статобработке, предоставляемые данными инструментами, требуют от компьютера больших ресурсов. Так, для работы SPSS необходимо не менее 1 Гб оперативной памяти. Операционные системы, в которых можно запускать SPSS: Windows, MacOS и Linux. Statistica же разработана только под Windows, что несколько уменьшает число ее пользователей.

Как и всегда, работа в программах начинается с ввода данных. Интегрированный табличный процессор позволяет оформлять таблицы с помощью привычных для каждого пользователя офисных приложений способов. Сохраненные таблицы, а также результаты расчетов, графики и отчеты в Statistica можно удобно расположить в одном файле, который называется «Рабочей книгой», тогда как организация рабочего пространства в SPSS менее удобна, но все же вполне приемлема для использования после короткого периода адаптации.

В программах есть все наиболее востребованные статистические методы: частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, t-тесты и большое количество непараметрических критериев, многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ надежности, многомерное шкалирование и ряд других. Вызов этих статистических процедур делается с помощью выбора из меню соответствующих окон и внесения в них необходимых настроек. Все типы анализа разбиты по группам, что помогает быстро ориентироваться в интерфейсе приложений.

Системы STATISTICA и SPSS обладают широкими графическими возможностями. Они включают в себя большое количество разнообразных категорий и типов графиков, в том числе научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категоризованные графики и др.

Статистические функции, которыми располагают оба приложения, поражают своим разнообразием. Складывается впечатление, что данные инструменты статистического анализа позволяют делать все, что угодно, при условии, что пользователь хорошо изучил принципы их работы. Главным препятствием на пути освоения этих программ является время, которое необходимо затратить на обучение. Именно из-за недостатка знаний у пользователя, в большинстве случаев, мощь статистических пакетов подобного уровня не используется даже в половину.

Как видите, в мире существует множество приложений для статистического анализа. Лишь малая часть из них была вкратце описана в данной статье. За ее пределами остались такие программы как Minitab, MatLab, Octave, GenStat, JMP, Analyse-it, отечественная разработка STADIA и множество других, больших и маленьких, дорогих и бесплатных программ. Однако такое изобилие софта не должно пугать исследователя, достаточно будет один раз сделать продуманный выбор в пользу одной-двух программ, тщательно изучить тонкости их применения, и они будут не один год служить верными помощниками в статистическом анализе результатов экспериментов.


Дата добавления: 2015-07-08; просмотров: 338 | Нарушение авторских прав


Читайте в этой же книге: Понятие и классификация информационных систем | Информационная технология – главная составная часть информационной системы | Ситуация на рынке банковских технологий | Классификация современных автоматизированных банковских систем | Принципы построения автоматизированных банковских систем, как средства автоматизации работ с банковскими продуктами | Цели автоматизации работ с банковскими продуктами | История и предпосылки развития новых информационных технологий в сфере управления налогообложением | Понятие АИС «Налог», цели ее функционирования | Характеристика компьютерной информационной технологии и процедуры обработки налоговой информации | Особенности проектирования и внедрения компьютерных информационных технологий в налоговых органах |
<== предыдущая страница | следующая страница ==>
Назначение и состав АРМ конечного пользователя информационной системы| Тема 3 Сущность и классификация бухгалтерских программ.

mybiblioteka.su - 2015-2024 год. (0.007 сек.)