Готовность к аналитике больших данных.

Posted on Posted in Technology, Статьи

Партнёры и заказчики время от времени задают вопросы:

Что вы имеете в виду, когда говорите о готовности вашей платформы к аналитике больших данных?
Что такое «изготовление агрегатов на лету»? Почему «сырые» данные?

Сейчас мы хотели бы сформулировать чуть шире аспекты, которые предлагаем клиентам и интеграторам при работе с платформой SAYMON.

Платформа SAYMON собирает данные из огромного числа разнообразных источников в масштабах близких к реальному — near-real-time. Данные мгновенно анализируются, приводят к срабатыванию реализованных алгоритмов и сохраняются. Сохраняемые данные представляют из себя отдельную ценность, т.к. позволяют учитывать их в работе алгоритмов и таким образом формировать автоматизированное принятие решений не только на базе самого алгоритма, но и с учётом истории развития событий, здесь более точно сказать — измерений.

SAYMON хранит исходные данные за длительные периоды пригодные для машинного анализа. Исходные данные также называют «сырыми» или «неизмененными».  Архитектура платформы предусматривает уровни масштабирования для возможности оперативной записи и чтения теоретически неограниченных объемов информации. Практически, конечно, важен адекватный «sizing» и «hardware design» — расчёт емкости и архитектуры хранения для конкретной задачи, конкретной интенсивности чтения и записи данных, конкретных предположений относительно глубины хранения — неделя, квартал, год, десять лет.

Например, данные о работе сердца могут поступать с интенсивностью 50 измерений в секунду и хранить их надо не больше месяца — холтеровские измерения электрокардиограмм. Значения максимального уровня вибрации промышленного оборудования достаточно измерять с периодичностью раз в пять секунд и хранить неделю.

Да, особое внимание мы уделяем метрикам – значениям измеряемых величин – будь то метрики бизнес-уровня (скажем, количество обслуженных клиентов), технологические метрики (например, скорость отклика банка, авторизующего карточный платеж клиента) или климатические (температура в салоне продаж). Измерения, снимаемые периодически или эпизодически, всегда имеют отметку во времени. Наборы таких измерений складываются в специализированную базу данных временных рядов.

bgd1

Первое — самое простое и безусловно полезное использование временных рядов — это построение графиков. В нашем случае это графики, для которых пользователь может мгновенно поменять масштаб и оценить поведение  величин внутри любого выбранного диапазона. Колебания в течении года, часа, минуты.

bgd4

bgd5

Временные ряды измерений позволяют динамически (в момент запроса информации) вычислять средние, минимальные, максимальные значения за периоды, оценивать среднеквадратичное отклонение и вычислять количество или сумму значений измерений.

Простой полезный пример — это подсчёт энергопотребления в нашей лаборатории исследований и разработок, где мы считываем со счётчика силу тока, мощность, напряжение по фазам и сумарно, выводим показания в виде актуальных и агрегированных значений.

bgd6

Кроме того подробно хранимая история измерений (сырые, исходные данные) позволяют использовать функции статистической математики для формирования прогнозов, выявления дневных, недельных, месячных, квартальных, годовых и иных профилей потребления услуг, колебания температур, уровней напряжения в сети – любых регулярно измеряемых и сохраняемых в системе показателей.

Использование вычислений для коррекции алгоритма автоматизированного принятия решений есть пример реализации концепции машинного обучения или машинного зрения. На современном предприятии легко наберется до 10 000 метрик, для корпораций или предприятий связи, медицины их число превышает десятки миллионов. Постоянный визуальный анализ и сопоставление поведения графиков в таких размерностях становится невозможным и эту задачу выполняет машина, т.е. программное обеспечение.

В ряде задач анализа оправдано использование технологий нейронной сети – глубокого машинного обучения, искусственного интеллекта. Например, мы рассматриваем задачи анализа взаимного влияния большого количества метрик на цифровых предприятиях.

Особенно остро вопросы большого количества и высокой частоты измерений встают на промышленных предприятиях, предприятиях связи и в медицинской отрасли. Применение в данных отраслях платформы SAYMON формирует принципиально новые возможности по сокращению затрат, сокращению простоев, повышению качества продукции и услуг, росту лояльности клиентов и повышению доходов компаний.