Анализ данных и прогнозирование. Общая статистика
Общая информация о механизме Анализа данных и прогнозирования
Общего объекта конфигурации АнализДанных можно посмотреть здесь
Анализ = Новый АнализДанных;
В механизме анализа данных и прогнозирования реализовано несколько типов анализа данных:
- общая статистика,
- поиск ассоциаций,
- поиск последовательностей,
- кластерный анализ,
- дерево решений.
В данной статье рассмотрим пример типа анализа
общая статистика
Анализ.ТипАнализа = Тип("АнализДанныхОбщаяСтатистика");
Типа анализа общая статистика представляет собой механизм для сбора общей информации о данных, находящихся в полученном источнике данных. Этот тип анализа предназначен для предварительного исследования анализируемой информации. Анализ показывает ряд характеристик дискретных и непрерывных полей. При выводе отчета в табличный документ заполняются круговые диаграммы для отображения состава полей.
Пример
В следующем фрагменте кода анализа продажи, выборка данных (источник анализа) имеет 2 параметра наполнения – Номенклатура и Количество
&НаКлиенте
Процедура ОбщаяСтатистика(Команда)
Результат = АнализОбщаяСтатистика();
КонецПроцедуры
&НаСервереБезКонтекста
Функция АнализОбщаяСтатистика()
Анализ = Новый АнализДанных;
Анализ.ТипАнализа = Тип("АнализДанныхОбщаяСтатистика");
Запрос = Новый Запрос;
Запрос.Текст = "
|ВЫБРАТЬ
|Продажи.Номенклатура,
|Продажи.Количество
|ИЗ
|РегистрНакопления.Продажи КАК Продажи";
Анализ.ИсточникДанных = Запрос.Выполнить(); РезультатАнализа = Анализ.Выполнить();
Построитель = Новый ПостроительОтчетаАнализаДанных();
Построитель.Макет = Неопределено;
Построитель.ТипАнализа = Тип("АнализДанныхОбщаяСтатистика");
ТабДок = Новый ТабличныйДокумент; Построитель.Вывести(РезультатАнализа, ТабДок);
Возврат ТабДок;
КонецФункции
Работа по проведению анализа данных выполняется в серверной внеконтекстной функции, которая возвращает на клиента табличный документ с результатами анализа. Сначала создается сам объект АнализДанных. После этого производится выбор типа проводимого анализа.
Построитель.ТипАнализа = Тип("АнализДанныхОбщаяСтатистика")
Далее по тексту определяется запрос. Результат запроса устанавливается как источник данных анализа. Сам анализ выполняется в процессе работы метода Выполнить() объекта АнализДанных.
Сам анализ не имеет средств по визуализации результата полученного анализа. Для этой цели используется объект ПостроительОтчетаАнализаДанных. При создании данного объекта повторно указывается тип проводимого анализа. Далее в качестве первого параметра метода Вывести() передается результат полученного анализа, вторым параметром передается ранее созданный объект ТабличныйДокумент.
В конце алгоритма табличный документ с результатом анализа возвращается на клиента в реквизит обработки Результат, имеющий тип ТабличныйДокумент.
Данные в источнике (с точки зрения проводимого анализа) могут иметь непрерывный или дискретный вид. К непрерывным относятся такие типы, как Число, Дата. Остальные типы относятся к дискретным.
Для колонок разных видов предусмотрено получение различной информации.
Дискретные данные:
- Количество значений ‑ количество значений, встреченных в колонке источника данных (NULL значением не считается);
- Количество уникальных значений (с исключением повторяющихся значений);
- Мода ‑ значение, которое в источнике данных встречается наиболее часто. Если в данных несколько значений, встречаемых с одинаковой частотой, в качестве моды берется первое найденное;
- Частота ‑ количество вхождений значения в выборку данных;
- Относительная частота ‑ определяется как отношение количества вхождения значения к общему количеству значений;
- Накопленная частота ‑ считается как сумма частоты значения и сумма частот предыдущих значений выборки данных;
- Накопленная относительная частота ‑ считается как сумма накопленной частоты значения и сумма относительных частот предыдущих значений.
Непрерывные данные:
- Количество значений;
- Минимум значения;
- Максимум значения;
- Среднее;
- Размах ‑ разность между максимальным и минимальным значениями;
- Стандартное отклонение (среднеквадратичное отклонение);
- Медиана ‑ значение, лежащее в середине выборки.
Следует отметить, что если анализируется одновременно несколько полей различных видов, их анализ проводится вне зависимости друг от друга (исключается взаимная корреляция).