Читайте также:
|
|
Этот пакет можно отнести к категории популярных универсальных. Наряду с пакетом SPSS он является, пожалуй, одним из двух наиболее распространенных среди специалистов различных областей, использующих статистическую обработку данных. Первая версия Statistica, разработанная компанией StatSoftInc, вышла в 1991 году (под DOS). На момент написания этих строк появилась уже 12 версия этого программного продукта. В 1995 году Statistica была включена в список 100 лучших программных продуктов (версия Windows Magazine).
Перечислить не то что все, а хотя бы самые основные возможности этого пакета (от широкого набора возможностей преобразовывать исходные данные до группы ныне модных методов Data Mining) без где-то двух десятков страниц текста, наверное, невозможно.
Но прежде, чем говорить о некоторых (только некоторых!) доступных здесь способов решать задачи статистики перечислим недостатки этого пакета.
– Обилие возможностей. Их чересчур много! Хорошо об этом выражается А.П. Кулаичев[1] (*) стр.25 «... Наряду с внешней красивостью, основным преимуществом перед конкурентами стал критерий разнообразия возможностей, которые добавляются в продукт без критического отбора. В результате многие пакеты... стали напоминать своеобразные помойки. Действительно, на хорошей помойке можно найти все, что угодно, однако крайне трудно найти то, что в данный момент позарез нужно».
– Очень плохой Help. Не дает возможности понять как конкретно произвести те или иные процедуры, каким путем идти к нужным пунктам меню и как изменять в нужную сторону установки. В Help нет примеров. Невозможно понять какое формульное обеспечение используется в рассматриваемой процедуре обработки данных. Много смешного, например, если в Long name (панель спецификации переменной) формула набрана правильно, то появляется подсказка с некоторыми правилами правильного набора, а если неправильно – то просто «Error in formula».
– Statistica табличный редактор, со свойствами частично схожими с Excel. Но в отличие от Excel в ней нет возможности работы с отдельными ячейками, преобразовывать можно только столбцы или строки целиком, результатом этих преобразований или обсчетов нельзя поместить в отдельные ячейки.
– Маленький набор математических функций преобразования переменных. Нет, например, функции факториал (!) и т.д.
И вот с этим букетом недостатков, пакет Statistica среди лидирующих на рынке обработки данных в экономике, медицине, психологии, географии и многих других наук. А за счет чего?
– Самая лучшая и удобная графика, среди статистических пакетов.
– Подробные отчеты по проведенным процедурам. И если ты сумел разобраться, что есть что при получении отчета о полученных результатах, то обычно получаешь ответы на подавляющее большинство своих вопросов.
– Наличие нужных способов обработки данных, не имеющихся в других пакетах.
Перечислим задачи из приведенного выше списка, которые нельзя решить в Statistica. Это Задача 1, Задача 8, Задача 15. Остальные задачи со всеми подвопросами легко решаются в этом пакете.
Вот так выглядит один из графиков к Задаче 4
А вот так выглядит отчет к Задаче 16 пункт 7. Решение предполагает использование однофакторного дисперсионного анализа (ANOVA).
Сразу видно, что эмпирическое значение уровня значимости 0,587280 больше чем 0,05. Следовательно принимается гипотеза H0 – статистически значимых различий в весе у респондентов с различным цветом волос не наблюдается. Здесь же получаем и ответ на вопрос из 12 пункта этой задачи.
Просто сравниваем 0,01 с .
Вот получение уравнение линейной функции регрессии веса на возраст; и оценка статистической значимость коэффициентов полученного уравнения (Задача 16, пункт 9).
Вся нужная информация представлена компактно и удобно читается.
– Само уравнение имеет вид .
– Эмпирические уровни значимости коэффициентов уравнения равны 0,009682 и 0,000000 соответственно. Эти значения позволяют говорить о статистической значимости этих коэффициентов на уровне 0,05. Более того, мы получаем границы доверительных интервалов для них!
Ниже Вы видите (Statistica 10) список самых современных возможностей обработки данных из Data Mining доступных в этом пакете.
Вывод: если бы был бы доступным по цене, то для преподавания статистики очень удобный и богатый возможностями пакет.
R
R – это язык программирования для статистической обработки данных и работы с графикой, а также это свободная программная среда с открытым исходным кодом, развиваемая в рамках проекта GNU. Он может быть применяться везде где нужна работа с данными и это не только статистика в узком смысле понимания слова. Но наиболее часто он находит применению именно при статистическом анализе – от вычисления средних величин до вейвлет – преобразований временных рядов. Сейчас трудно найти американский или западноевропейский университет, где бы не работали с R. Многие весьма солидные коммерческие компании (например, Boeing) используют его в своей работе.
Чем же обусловлено также широкое (на Западе!, но не в России) распространение этого программного продукта? Проведем аналогию. Пусть имеется большая, очень большая, группа людей. Одному нужно что-то, чтобы резало морковку на равные дольки, другому – нужно прокручивать мясо, третьему – приготавливать мороженное и т.д. Каждый из них может купить очень дорогой и громоздкий универсальный комбайн, который все это умеет делать. Подчеркнем, что покупка комбайна обойдется весьма не дешево, а нужна от него будет только одна, от силы несколько, функций. И вдруг эти люди узнают, что есть совершенно бесплатный конструктор, из деталей которого они могут собрать небольшие и эффективные аппараты для удовлетворения своих нужд. R и есть тот «конструктор», из которого каждый пользователь – практик может с небольшими усилиями собрать свой статистический пакет. Впрочем, весьма возможно, что и усилий на сборку тратить не придется – ныне, благодаря энтузиастам R, существует огромная библиотека статистических процедур, доступная всем и бесплатно. Правда, в этой огромной бочке меда, есть все-таки ложечка дегтя. Все существующие версии R используют командную строку для ввода данных, и еще – интерфейс вывода результатов очень аскетичный, в нем нет привычным для «больших» пакетов понятных почти всем представлений ответов на задаваемые вопросы. Пользователь попадает в среду диалога с компьютером характерную для 70х – 80х годов, где было нужно немножко знать программирование и помнить большое количество команд. Ну, каждый выбирает по своим силам и возможностям!
Еще немного истории. Язык R является некоммерческим продолжением (ответвлением) языка S, возникшего еще в 1976 году. На основе S (с 1988 года) был создан статистический пакет S-PLUS. Пакет хороший, универсальный, но дорогой. В 1993 году новозеландские ученые (Robert Gentleman и Ross Iaka) предлагают новую версию, названную R. Эта версия отличается от S обращением к переменным, работой с памятью и имеет уникальную по легкости систему написания дополнений или пакетов. Получить пакет R под Windows и первоначальные сведения о нем можно на официальном сайте www.r-project.org.
Очень удобна версия Portable, которую можно скачать на сайте http://sourceforge.net/projects/rportable/
Теперь о возможностях R. Все предложенные выше задачи, кроме задачи 8 (нет процедур нахождения производных и интегралов), в R решаются. Вот так выглядит решение задачи 1.
А вот решение задачи 10.
Даже эти простые примеры показывают, что по части наглядности и простоты общения, этот замечательный язык R уступает статистическим пакетам и в качестве помощника в преподавании вряд ли может быть рекомендованы.
Дата добавления: 2015-07-08; просмотров: 287 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Задачи. | | | RapidMiner |