Контакты

Системы анализа больших данных. Идём в будущее. Как работает технология Big-Data

У каждой промышленной революции были свои символы: чугун и пар, сталь и поточное производство, полимеры и электроника, а очередная революция пройдет под знаком композитных материалов и данных. Big Data - ложный след или будущее индустрии?

20.12.2011 Леонид Черняк

Символами первой промышленной революции были чугун и пар, второй - сталь и поточное производство, третьей - полимерные материалы, алюминий и электроника, а очередная революция пройдет под знаком композитных материалов и данных. Big Data -это ложный след или будущее индустрии?

Уже более трех лет много говорят и пишут о Больших Данных (Big Data) в сочетании со словом «проблема», усиливая таинственность этой темы. За это время «проблема» оказалась в фокусе внимания подавляющего большинства крупных производителей, в расчете на обнаружение ее решения создается множество стартапов, а все ведущие отраслевые аналитики трубят о том, насколько сейчас важно умение работать с большими объемами данных для обеспечения конкурентоспособности. Подобная, не слишком аргументированная, массовость провоцирует инакомыслие, и можно встретить немало скептических высказываний на ту же тему, а иногда к Big Data даже прикладывают эпитет red herring (букв. «копченая селедка» - ложный след, отвлекающий маневр).

Так что же такое Big Data? Проще всего представить Big Data в виде стихийно обрушившейся и невесть откуда взявшейся лавины данных или свести проблему к новым технологиям, радикально изменяющим информационную среду, а может быть, вместе с Big Data мы переживаем очередной этап в технологической революции? Скорее всего, и то, и другое, и третье, и еще пока неведомое. Показательно, что из более чем четыре миллиона страниц в Web, содержащих словосочетание Big Data, один миллион содержит еще и слово definition - как минимум четверть пишущих о Big Data пытается дать свое определение. Такая массовая заинтересованность свидетельствует в пользу того, что, скорее всего, в Big Data есть что-то качественно иное, чем то, к чему подталкивает обыденное сознание.

Предыстория

То, что подавляющая часть упоминаний Big Data так или иначе связана с бизнесом, может ввести в заблуждение. На самом деле термин родился отнюдь не в корпоративной среде, а заимствован аналитиками из научных публикаций. Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения - 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживает предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности.

Роль данных в науке стала предметом обсуждения очень давно - первым об обработке данных еще в XVIII веке писал английский астроном Томас Симпсон в труде «О преимуществах использования чисел в астрономических наблюдениях», но только в конце прошлого столетия интерес к этой теме приобрел заметную остроту, а на передний план обработка данных вышла в конце прошлого века, когда обнаружилось, что компьютерные методы могут применяться практически во всех науках от археологии до ядерной физики. Как следствие, заметно меняются и сами научные методы. Не случайно появился неологизм libratory, образованный от слов library (библиотека) и laboratory (лаборатория), который отражает изменения, касающиеся представления о том, что можно считать результатом исследования. До сих пор на суд коллег представлялись только полученные конечные результаты, а не сырые экспериментальные данные, а теперь, когда в «цифру» могут быть переведены самые разные данные, когда имеются разнообразные цифровые носители, то объектом публикации могут быть различного рода измеренные данные, причем особое значение приобретает возможность повторной обработки в libratory ранее накопленных данных. А далее складывается положительная обратная связь, за счет которой процесс накопления научных данных постоянно ускоряется. Именно поэтому, осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Рефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.

Большие Данные и бизнес

Не прошло и года, как термин Big Data попал на страницы ведущих бизнес-изданий, в которых, однако, использовались уже совсем иные метафоры. Big Data сравнивают с минеральными ресурсами - the new oil (новая нефть), goldrush (золотая лихорадка), data mining (разработка данных), чем подчеркивается роль данных как источника скрытой информации; с природными катаклизмами - data tornado (ураган данных), data deluge (наводнение данных), data tidal wave (половодье данных), видя в них угрозу; улавливая связь с промышленным производством - data exhaust (выброс данных), firehose (шланг данных), Industrial Revolution (промышленная революция). В бизнесе, как и в науке, большие объемы данных тоже не есть что-то совершенно новое - уже давно говорили о необходимости работы с большими объемами данных, например в связи с распространением радиочастотной идентификации (RFID) и социальных сетей, и так же, как и в науке, здесь не хватало только яркой метафоры для определения происходящего. Вот почему в 2010 году появились первые продукты, претендующие на попадание в категорию Big Data, - нашлось подходящее название для уже существующих вещей. Показательно, что в версию 2011 Hype Cycle, характеризующую состояние и перспективы новых технологий, аналитики Gartner ввели еще одну позицию Big Data and Extreme Information Processing and Management с оценкой срока массового внедрения соответствующих решений от двух до пяти лет.

Почему Большие Данные оказались проблемой?

С момента появления термина Big Data прошло уже три года, но если в науке все более или менее ясно, то место Big Data в бизнесе остается неопределенным, не случайно так часто говорят о «проблеме Больших Данных», причем не просто о проблеме, но ко всему прочему еще и плохо определенной. Нередко проблему упрощают, интерпретируя наподобие закона Мура, с той лишь разницей, что в данном случае мы имеем дело с феноменом удвоения количества данных за год, или гиперболизируют, представляя чуть ли не как стихийное бедствие, с которым срочно нужно каким-то способом справиться. Данных действительно становится все больше и больше, но при всем этом упускается из виду то обстоятельство, что проблема отнюдь не внешняя, она вызвана не столько обрушившимися в невероятном количестве данными, сколько неспособностью старыми методами справиться с новыми объемами, и, что самое главное, нами самими создаваемыми. Наблюдается странный дисбаланс - способность порождать данные оказалась сильнее, чем способность их перерабатывать. Причина возникновения этого перекоса заключается, скорее всего, в том, что за 65 лет истории компьютеров мы так и не поняли, что же такое данные и как они связаны с результатами обработки. Странно, математики столетиями разбираются с основными понятиями своей науки, такими как число и системы счисления, привлекая к этому философов, а в нашем случае данные и информация, отнюдь не тривиальные вещи, оставлены без внимания и отданы на откуп интуитивному восприятию. Вот и получилось, что все эти 65 лет невероятными темпами развивались собственно технологии работы с данными и почти не развивалась кибернетика и теория информации, оставшиеся на уровне 50-х годов, когда ламповые компьютеры использовались исключительно для расчетов. Действительно, наблюдаемая сейчас суета вокруг Big Data при внимательном вызывает скептическую улыбку.

Масштабирование и многоуровневое хранение

Облака, большие данные, аналитика – эти три фактора современных ИТ не только взаимосвязаны, но сегодня уже не могут существовать друг без друга. Работа с Большими Данными невозможна без облачных хранилищ и облачных вычислений – появление облачных технологий не только в виде идеи, а уже в виде законченных и реализованных проектов стало спусковым крючком для запуска нового витка спирали увеличения интереса к аналитике Больших Данных. Если говорить о влиянии на индустрию в целом, то сегодня стали очевидны возросшие требования к масштабированию систем хранения. Это действительно необходимое условие – ведь заранее сложно предсказать, для каких аналитических процессов понадобятся те или иные данные и насколько интенсивно будет загружено существующее хранилище. Кроме этого, становятся одинаково важны требования как по вертикальному, так и горизонтальному масштабированию.

В новом поколении своих систем хранения компания Fujitsu уделила большое внимание именно аспектам масштабирования и многоуровнего хранения данных. Практика показывает, что сегодня для выполнения аналитических задач требуется сильно загружать системы, однако бизнес требует, чтобы все сервисы, приложения и сами данные всегда оставались доступными. Кроме этого, требования к результатам аналитических исследований сегодня очень высоки – грамотно, правильно и своевременно проведенные аналитические процессы позволяют существенно улучшить результаты работы бизнеса в целом.

Александр Яковлев ([email protected]), менеджер по маркетингу продукции Fujitsu (Москва).

Игнорированием роли данных и информации, как предметов исследования, была заложена та самая мина, которая взорвалась сейчас, в момент, когда изменились потребности, когда счетная нагрузка на компьютеры оказалась намного меньше, чем другие виды работ, выполняемые над данными, а цель этих действий заключается в получении новой информации и новых знаний из уже существующих массивов данных. Вот почему вне восстановления связей цепочки «данные - информация - знание» говорить о решении проблемы Больших Данных бессмысленно. Данные обрабатываются для получения информации, которой должно быть ровно столько, чтобы человек мог превратить ее в знание.

За последние десятилетия серьезных работ по связям сырых данных с полезной информацией не было, а то, что мы привычно называем теорией информации Клода Шеннона, является не чем иным, как статистической теорией передачи сигналов, и к информации, воспринимаемой человеком, не имеет никакого отношения. Есть множество отдельных публикаций, отражающих частные точки зрения, но нет полноценной современной теории информации. В результате подавляющее число специалистов вообще не делает различия между данными и информацией. Вокруг все только констатируют, что данных много или очень много, но зрелого представления, чего именно много, какими путями следует решать возникшую проблему, нет ни у кого - а все потому, что технические возможности работы с данными явно опередили уровень развития способностей к их использованию. Только у одного автора, редактора журнала Web 2.0 Journal Дайона Хинчклифа, имеется классификация Больших Данных, позволяющая соотнести технологии с результатом, который ждут от обработки Больших Данных, но и она далеко не удовлетворительна.

Хинчклиф делит подходы к Big Data на три группы: Быстрые Данные (Fast Data), их объем измеряется терабайтами; Большая Аналитика (Big Analytics) - петабайтные данные и Глубокое Проникновение (Deep Insight) - экзабайты, зеттабайты. Группы различаются между собой не только оперируемыми объемами данных, но и качеством решения по их обработки.

Обработка для Fast Data не предполагает получения новых знаний, ее результаты соотносятся с априорными знаниями и позволяют судить о том, как протекают те или иные процессы, она позволяет лучше и детальнее увидеть происходящее, подтвердить или отвергнуть какие-то гипотезы. Только небольшая часть из существующих сейчас технологий подходит для решения задач Fast Data, в этот список попадают некоторые технологии работы с хранилищами (продукты Greenplum, Netezza, Oracle Exadata, Teradata, СУБД типа Verica и kdb). Скорость работы этих технологий должна возрастать синхронно с ростом объемов данных.

Задачи, решаемые средствами Big Analytics, заметно отличаются, причем не только количественно, но и качественно, а соответствующие технологии должны помогать в получении новых знаний - они служат для преобразования зафиксированной в данных информации в новое знание. Однако на этом среднем уровне не предполагается наличие искусственного интеллекта при выборе решений или каких-либо автономных действий аналитической системы - она строится по принципу «обучения с учителем». Иначе говоря, весь ее аналитический потенциал закладывается в нее в процессе обучения. Самый очевидный пример - машина , играющая в Jeopardy!. Классическими представителями такой аналитики являются продукты MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache и Mahout.

Высший уровень, Deep Insight, предполагает обучение без учителя (unsupervised learning) и использование современных методов аналитики, а также различные способы визуализации. На этом уровне возможно обнаружение знаний и закономерностей, априорно неизвестных.

Аналитика Больших Данных

С течением времени компьютерные приложения становятся все ближе к реальному миру во всем его многообразии, отсюда рост объемов входных данных и отсюда же потребность в их аналитике, причем в режиме, максимально приближенном к реальному времени. Конвергенция этих двух тенденций привела к возникновению направления аналитика Больших Данных (Big Data Analytics).

Победа компьютера Watson стала блестящей демонстрацией возможностей Big Data Analytics - мы вступаем в интереснейшую эпоху, когда компьютер впервые используется не столько как инструмент для ускорения расчетов, а как помощник, расширяющий человеческие возможности в выборе информации и принятии решений. Казавшиеся утопическими замыслы Ванневара Буша, Джозефа Ликлайдера и Дага Энгельбарта начинают сбываться, но происходит это не совсем так, как это виделось десятки лет назад - сила компьютера не в превосходстве над человеком по логическим возможностям, на что особенно уповали ученые, а в существенно большей способности обрабатывать гигантские объемы данных. Нечто подобное было в противоборстве Гарри Каспарова с Deep Blue, компьютер не был более искусным игроком, но он мог быстрее перебирать большее количество вариантов.

Гигантские объемы в сочетании с высокой скоростью, отличающие Big Data Analytics от других приложений, требуют соответствующих компьютеров, и сегодня практически все основные производители предлагают специализированные программно-аппаратные системы: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine и Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform на базе HP Converged Infrastructure. Помимо этого в игру вступило множество небольших и начинающих компаний: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Обратная связь

Качественно новые приложения Big Data Analytics требуют для себя не только новых технологий, но и качественного иного уровня системного мышления, а вот с этим наблюдаются трудности - разработчики решений Big Data Analytics часто заново открывают истины, известные с 50-х годов. В итоге нередко аналитика рассматривается в отрыве от средств подготовки исходных данных, визуализации и других технологий предоставления результатов человеку. Даже такая уважаемая организация, как The Data Warehousing Institute, рассматривает аналитику в отрыве от всего остального: по ее данным, уже сейчас 38% предприятий исследуют возможность использования Advanced Analytics в практике управления, а еще 50% намереваются сделать это в течение ближайших трех лет. Такой интерес обосновывается приведением множества аргументов из бизнеса, хотя можно сказать и проще - предприятиям в новых условиях требуется более совершенная система управления, и начинать ее создание надо с установления обратной связи, то есть с системы, помогающей в принятии решений, а в будущем, может быть, удастся автоматизировать и собственно приятие решений. Удивительно, но все сказанное укладывается в методику создания автоматизированных систем управления технологическими объектами, известную с 60-х годов.

Новые средства для анализа требуются потому, что данных становится не просто больше, чем раньше, а больше их внешних и внутренних источников, теперь они сложнее и разнообразнее (структурированные, неструктурированные и квазиструктурированные), используются различные схемы индексации (реляционные, многомерные, noSQL). Прежними способами справиться с данными уже невозможно - Big Data Analytics распространяется на большие и сложные массивы, поэтому еще используют термины Discovery Analytics (открывающая аналитика) и Exploratory Analytics (объясняющая аналитика). Как ни называть, суть одна - обратная связь, снабжающая в приемлемом виде лиц, принимающих решение, сведениями о различного рода процессах.

Компоненты

Для сбора сырых данных используются соответствующие аппаратные и программные технологии, какие именно - зависит от природы объекта управления (RFID, сведения из социальных сетей, разнообразные текстовые документы и т. п.). Эти данные поступают на вход аналитической машины (регулятора в цепи обратной связи, если продолжать аналогию с кибернетикой). Этот регулятор базируется на программно-аппаратной платформе, на которой работает собственно аналитическое ПО, он не обеспечивает выработки управляющих воздействий, достаточных для автоматического управления, поэтому в контур включаются ученые по данным (data scientist) или инженеры в области данных. Их функцию можно сравнить с той ролью, которую играют, например, специалисты в области электротехники, использующие знания из физики в приложении к созданию электрических машин. Задача инженеров заключается в управлении процессом преобразования данных в информацию, используемую для принятия решений, - они-то и замыкают цепочку обратной связи. Из четырех компонентов Big Data Analytics в данном случае нас интересует только один - программно-аппаратная платформа (системы этого типа называют Analytic Appliance или Data Warehouse Appliance).

На протяжении ряда лет единственным производителем аналитических специализированных машин была Teradata, но не она была первой - еще в конце 70-х годов тогдашний лидер британской компьютерной индустрии компания ICL предприняла не слишком удачную попытку создать контентно-адресуемое хранилище (Content-Addressable Data Store), в основе которого была СУБД IDMS. Но первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных. А первым представителем нового поколения поставщиков подобных комплексов стала компания Netezza - в ее решении Netezza Performance Server использовались стандартные серверы-лезвия вместе со специализированными лезвиями Snippet Processing Unit.

Аналитика в СУБД

Аналитика здесь - прежде всего прогнозная , или предиктивная (Predictive Analysis, РА). В большинстве существующих реализаций исходными для систем РА являются данные, ранее накопленные в хранилищах данных. Для анализа данные сначала перемещают в промежуточные витрины (Independent Data Mart, IDM), где представление данных не зависит от использующих их приложений, а затем те же данные переносятся в специализированные аналитические витрины (Аnalytical Data Mart, ADM), и уже с ними работают специалисты, применяя различные инструменты разработки, или добычи данных (Data Mining). Такая многоступенчатая модель вполне приемлема для относительно небольших объемов данных, но при их увеличении и при повышении требований к оперативности в такого рода моделях обнаруживается ряд недостатков. Помимо необходимости в перемещении данных существование множества независимых ADM приводит к усложнению физической и логической инфраструктуры, разрастается количеств используемых инструментов моделирования, полученные разными аналитиками результаты оказываются несогласованны, далеко не оптимально используются вычислительные мощности и каналы. Кроме того, раздельное существование хранилищ и ADM делает практически невозможной аналитику во времени, приближенном к реальному.

Выходом может быть подход, получивший название In-Database Analytics или No-Copy Analytics, предполагающий использование для целей аналитики данных, непосредственно находящихся в базе. Такие СУБД иногда называют аналитическими и параллельными. Подход стал особенно привлекателен с появлением технологий MapReduce и Hadoop. В новых приложениях поколения класса In-Database Analytics все виды разработки данных и другие виды интенсивной работы выполняются непосредственно над данными, находящимися в хранилище. Очевидно, что это заметно ускоряет процессы и позволяет выполнять в реальном времени такие приложения, как распознавание образов, кластеризация, регрессионный анализ, различного рода прогнозирование. Ускорение достигается не только за счет избавления от перемещений из хранилища в витрины, но главным образом за счет использования различных методов распараллеливания, в том числе кластерных систем с неограниченным масштабированием. Решения типа In-Database Analytics открывают возможность для использования облачных технологий в приложении к аналитике. Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.

Основные поставщики...

К 2010 году основными поставщиками ПО для In-Database Analytics были компании Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL), Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/columnar), Sybase (Sybase IQ), Teradata и Vertica Systems (Vertica Analytic Database). Все это хорошо известные компании, за исключением стартапа из Кремниевой долины SenSage. Продукты заметно различаются по типу данных, с которыми они могут работать, по функциональным возможностям, интерфейсам, по применяемому аналитическому ПО и по их способности работать в облаках. Лидером по зрелости решений является Teradata, а по авангардности - Aster Data. Список поставщиков аналитического ПО короче - в локальных конфигурациях могут работать продукты компаний KXEN, SAS, SPSS и TIBCO, а в облаках - Amazon, Cascading, Google, Yahoo! и Сloudera.

Год 2010-й стал поворотным в области предиктивной аналитики, сравнимым с 2007 годом, когда IBM приобрела Cognos, SAP - Business Object, а Oracle - Hyperion. Все началось с того, что EMC приобрела Greenplum, затем IBM - Netezza, HP - Vertica, Teradata купила Aster Data и SAP купила Sybase.

…и новые возможности

Аналитическая парадигма открывает принципиально новые возможности, что успешно доказали два инженера из Кёльна, создавшие компанию ParStream (официальное имя empulse GmbH). Вдвоем им удалось создать аналитическую платформу на базе процессоров как универсальных, так и графических процессоров, конкурентную с предшественниками. Четыре года назад Михаэль Хюммепль и Джорг Бинерт, работавшие прежде в Accenture, получили заказ от германской туристической фирмы, которой для формирования туров требовалась система, способная за 100 миллисекунд выбирать запись, содержащую 20 параметров, в базе из 6 млрд записей. Ни одно из существующих решений с такой задачей справиться не может, хотя с аналогичными проблемами сталкиваются везде, где требуется оперативный анализ содержимого очень больших баз данных. Компания ParStream родилась из предпосылки применения технологий высокопроизводительных вычислений к Big Data Analytics. Хюммепль и Бинерт начали с того, что написали собственное ядро СУБД, рассчитанное для работы на кластере x86-архитектуры, поддерживающем операции с данными в виде параллельных потоков, отсюда и название ParStream. Они избрали в качестве исходной установки работу только со структурированными данными, что собственно и открывает возможность для относительно простого распараллеливания. По своему замыслу эта база данных ближе к новому проекту Google Dremel, чем к MapReduce или Hadoop, которые не адаптированы к запросам в реальном времени. Начав с платформы x86/Linux, Хюммепль и Бинерт вскоре убедились, что их база данных может поддерживаться и графические процессоры nVidia Fermi.

Big Data и Data Processing

Чтобы понять, чего же следует ожидать от того, что назвали Big Data, следует выйти за границы современного узкого «айтишного» мировоззрения и попытаться увидеть происходящее в более широкой историко-технологической ретроспективе, например попробовать найти аналогии с технологиями, имеющими более длительную историю. Ведь, назвав предмет нашей деятельности технологией, надо и относиться к нему как к технологии. Практически все известные материальные технологии сводятся к переработке, обработке или сборке специфического для них исходного сырья или каких-то иных компонентов с целью получения качественно новых продуктов - что-то имеется на входе технологического процесса и нечто на выходе.

Особенность нематериальных информационных технологий состоит в том, что здесь не столь очевидна технологическая цепочка, не ясно, что является сырьем, что результатом, что поступает на вход и что получается на выходе. Проще всего сказать, что на входе сырые данные, а на выходе полезная информация. В целом почти верно, однако связь между этими двумя сущностями чрезвычайно сложна; если же остаться на уровне здоровой прагматики, то можно ограничиться следующими соображениями. Данные - это выраженные в разной форме сырые факты, которые сами по себе не несут полезного смысла до тех пор, пока не поставлены в контекст, должным образом не организованы и не упорядочены в процессе обработки. Информация появляется в результате анализа обработанных данных человеком, этот анализ придает данным смысл и обеспечивает им потребительские качеств. Данные - это неорганизованные факты, которые необходимо превращать в информацию. До последнего времени представления об обработке данных (data processing) сводились к органичному кругу алгоритмических, логических или статистических операций над относительно небольшими объемами данных. Однако по мере сближения компьютерных технологий с реальным миром возрастает потребность превращений данных из реального мира в информацию о реальном мире, обрабатываемых данных становится больше, и требования к скорости обработки возрастают.

Логически информационные технологии мало чем отличаются от материальных технологий, на входе сырые данные, на выходе - структурированные, в форме, более удобной для восприятия человеком, извлечения из них информации и силой интеллекта превращения информации в полезное знание. Компьютеры назвали компьютерами за их способность считать, вспомним первое приложение для ENIAC - обработка данных стрельбы из орудия и превращение их в артиллерийские таблицы. То есть компьютер перерабатывал сырые данные, извлекал полезные и записывал их в форме, приемлемой для использования. Перед нами не что иное, как обычный технологический процесс. Вообще говоря, вместо привившегося термина Information Technology следовало бы чаще употреблять более точный Data Processing.

На информационные технологии должны распространяться общие закономерности, в согласии с которыми развиваются все остальные технологии, а это прежде всего увеличение количества перерабатываемого сырья и повышение качества переработки. Так происходит везде, независимо от того, что именно служит сырьем, а что результатом, будь то металлургия, нефтехимия, биотехнологии, полупроводниковые технологии и т. д. Общим является еще и то, что ни одно из технологических направлений не развивается монотонно, рано или поздно возникают моменты ускоренного развития, скачки. Быстрые переходы могут происходить в тех случаях, когда вовне возникает потребность, а внутри технологий есть способность ее удовлетворить. Компьютеры нельзя было строить на вакуумных лампах - и появились полупроводники, автомобилям нужно много бензина - открыли крекинг-процесс, и таких примеров множество. Таким образом, под именем Big Data скрывается намечающийся качественный переход в компьютерных технологиях, способный повлечь за собой серьезные изменения, не случайно его называют новой промышленной революцией. Big Data - очередная техническая революция со всеми вытекающими последствиями.

Первый опыт в Data Processing датируется IV тысячелетием до нашей эры, когда появилось пиктографическое письмо. С тех пор сложилось несколько основных направлений работы с данными, самым мощным было и остается текстовое, от первых глиняных табличек до SSD, от библиотек середины первого тысячелетия до нашей эры до современных библиотек, затем появились различного рода математические численные методы от папирусов с доказательством теоремы Пифагора и табличных приемов упрощения расчетов до современных компьютеров. По мере развития общества стали копиться различного рода табличные данные, автоматизация работы с которыми началась с табуляторов, а в XIX и ХХ веке было предложено множество новых методов создания и накопления данных. Необходимость работы с большими объемами данных понимали давно, но не было средств, отсюда утопические проекты типа «Либрариума» Поля Отле, или фантастическая система для прогнозирования погоды с использованием труда 60 тыс. людей-расчетчиков.

Сегодня компьютер превратился в универсальный инструмент для работы с данными, хотя задумывался он только лишь для автоматизации расчетов. Идея применить компьютер для Data Processing зародилась в IBM через десять лет после изобретения цифровых программируемых компьютеров, а до этого для обработки данных использовались перфораторные устройства типа Unit Record, изобретенные Германом Холлеритом. Их называли Unit Record, то есть единичная запись - каждая карта содержала всю запись, относящуюся к какому-то одному объекту. Первые компьютеры не умели работать с Большими Данными - лишь с появлением накопителей на дисках и лентах они смогли составить конкуренцию машино-счетным станциям, просуществовавшим до конца 60-х годов. Кстати, в реляционных базах данных явным образом прослеживается наследие Unit Record.

Простота – залог успеха

Рост объемов сырых данных вместе с необходимостью их анализа в режиме реального времени требуют создания и внедрения инструментов, позволяющих эффективно решать так называемую задачу Big Data Analytics. Технологии компании Information Builders позволяют работать с данными, поступающими из любых источников в режиме реального времени, благодаря множеству различных адаптеров и архитектуре Enterprise Service Bus. Инструмент WebFOCUS позволяет анализировать данные «на лету» и дает возможность визуализировать результаты лучшим для пользователя способом.

Основываясь на технологии RSTAT, компания Information Builders создала продукт для предиктивной аналитики, позволяющий проводить сценарное прогнозирование: «Что будет, если» и «Что необходимо для».

Технологии бизнес-аналитики пришли и в Россию, однако лишь немногие российские компании используют именно предиктивный анализ, что вызвано низкой культурой использования бизнес-аналитики на отечественных предприятиях и сложностью восприятия существующих методов анализа бизнес-пользователем. Учитывая это, компания Information Builders предлагает сегодня продукты, которые аналитиками Gartner оцениваются как самые простые в использовании.

Михаил Строев ([email protected]), директор по развитию бизнеса в России и СНГ InfoBuild CIS (Москва).

Данные повсюду

По мере постепенного превращения компьютеров из счетных устройств в универсальные машины для обработки данных, примерно после 1970 года, стали появляться новые термины: данные как продукты (data product); инструменты для работы с данными (data tool); приложения, реализуемые посредством соответствующей организации (data application); наука о данных (data science); ученые, работающие с данными (data scientist), и даже журналисты, которые доносят сведения, содержащиеся в данных, до широкой публики (data journalist).

Большое распространение сегодня получили приложения класса data application, которые не просто выполняют операции над данными, а извлекают из них дополнительные ценности и создают продукты в виде данных. К числу первых приложений этого типа относится база аудиодисков CDDB, которая в отличие от традиционных баз данных создана путем экстрагирования данных из дисков и сочетания их с метаданными (названия дисков, треков и т. п.). Эта база лежит в основе сервиса Apple iTunes. Одним из факторов коммерческого успеха Google также стало осознание роли data application - владение данными позволяет этой компании многое «знать», используя данные, лежащие вне искомой страницы (алгоритм PageRank). В Google достаточно просто решена проблема корректности правописания - для этого создана база данных ошибок и исправлений, а пользователю предлагаются исправления, которые он может принять или отклонить. Аналогичный подход применяется и для распознавания при речевом вводе - в его основе накопленные аудиоданные.

В 2009 году во время вспышки свиного гриппа анализ запросов к поисковым машинам позволил проследить процесс распространения эпидемии. По пути Google пошли многие компании (Facebook, LinkedIn, Amazon и др.), не только предоставляющие услуги, но и использующие накопленные данные в иных целях. Возможность обрабатывать данные такого типа дала толчок к появлению еще одной науки о населении - citizen science. Результаты, полученные путем всестороннего анализа данных о населении, позволяют получить гораздо более глубокие знания о людях и принимать более обоснованные административные и коммерческие решения. Совокупность данных и средств работы с ними сейчас называют infoware.

Машина для Больших Данных

Хранилища данных, интернет-магазины, биллинговые системы или любая другая платформа, которую можно отнести к проектам Больших Данных, обычно обладает уникальной спецификой, и при ее проектировании главным является интеграция с промышленными данными, обеспечение процессов накопления данных, их организации и аналитики.

Компания Oracle предоставила интегрированное решение Oracle Big Data Appliance поддержки цепочки обработки Больших Данных, состоящее из оптимизированного оборудования с полным стеком программного обеспечения и 18 серверов Sun X4270 M2. Межсоединение строится на базе Infiniband 40 Гбит/с и 10-Gigabit Ethernet. Oracle Big Data Appliance включает в себя комбинацию как открытого, так и специализированного ПО от Oracle.

Хранилища типа ключ-значение или NoSQL СУБД признаны сегодня основными для мира Больших Данных и оптимизированы для быстрого накопления данных и доступа к ним. В качестве такой СУБД для Oracle Big Data Appliance используется СУБД на базе Oracle Berkley DB, хранящая информацию о топологии системы хранения, распределяющая данные и понимающая, где могут быть размещены данные с наименьшими временными затратами.

Решение Oracle Loader for Hadoop позволяет с помощью технологии MapReduce создавать оптимизированные наборы данных для их загрузки и анализа в СУБД Oracle 11g. Данные генерируются в «родном» формате СУБД Oracle, что позволяет минимизировать использование системных ресурсов. Обработка отформатированных данных осуществляется на кластере, а затем данные могут быть доступны с рабочих мест пользователей традиционной РСУБД с помощью стандартных команд SQL или средств бизнес-аналитики. Интеграция данных Hadoop и Oracle СУБД осуществляется при помощи решения Oracle Data Integrator.

Oracle Big Data Appliance поставляется с открытым дистрибутивом Apache Hadoop, включая файловую систему HDFS и другие компоненты, открытым дистрибутивом статистического пакета R для анализа сырых данных и системой Oracle Enterprise Linux 5.6. Предприятия, уже использующие Hadoop, могут интегрировать данные, размещенные на HDFS в СУБД Oracle с помощью функционала внешних таблиц, причем нет необходимости сразу загружать данные в СУБД – внешние данные могут быть использованы в связке с внутренними данными базы Oracle при помощи команд SQL.

Подключение между Oracle Big Data Appliance и Oracle Exadata через Infiniband обеспечивает высокоскоростную передачу данных для пакетной обработки или SQL-запросов. Oracle Exadata обеспечивает необходимую производительность как для хранилищ данных, так и для приложений оперативной обработки транзакций.

Новый продукт Oracle Exalytics может быть использован для решения задач бизнес аналитики и оптимизирован для использования Oracle Business Intelligence Enterprise Edition с обработкой в оперативной памяти.

Владимир Демкин ([email protected]), ведущий консультант по направлению Oracle Exadata компании Oracle СНГ (Москва).

Наука и специалисты

Автор доклада «Что такое наука о данных?» (What is Data Science?), вышедшего в серии O’Reilly Radar Report, Майк Лукидис написал: «Будущее принадлежит компаниям и людям, способным превратить данные в продукты». Это высказывание невольно вызывает в памяти известные слова Ротшильда «Кто владеет информацией – тот владеет миром», произнесенные им, когда он раньше других узнал о поражении Наполеона при Ватерлоо и провернул аферу с ценными бумагами. Сегодня этот афоризм стоит перефразировать: «Миром владеет тот, кто владеет данными и технологиями их анализа». Живший немного позже Карл Маркс показал, что промышленная революция разделила людей на две группы - на владеющих средствами производства и тех, кто работает на них. В общих чертах сейчас происходит нечто подобное, но теперь предметом владения и разделения функций являются не средства производства материальных ценностей, а средства производства данных и информации. И вот тут-то и возникают проблемы - оказывается, владеть данными намного сложнее, чем владеть материальными активами, первые довольно просто тиражируются и вероятность их хищения гораздо выше, чем кражи материальных предметов. Кроме того, существуют легальные приемы разведки - при наличии достаточного объема и соответствующих аналитических методов можно «вычислить» то, что скрыто. Вот почему сейчас такое внимание уделяется аналитике Больших Данных Big Data Analytics (см. врезку) и средствам защиты от нее.

Различные виды деятельности с данными, и прежде всего владение методами извлечения информации, называют наукой о данных (data science), что, во всяком случае в переводе на русский, несколько дезориентирует, поскольку скорее относится не к некоторой новой академической науке, а к междисциплинарному набору знаний и навыков, необходимых для извлечения знаний. Состав подобного набора в значительной мере зависит от области, но можно выделить более или менее обобщенные квалификационные требования к специалистам, которых называют data scientist. Лучше всего это удалось сделать Дрю Конвей, который в прошлом занимался анализом данных о террористических угрозах в одной из спецслужб США. Основные тезисы его диссертации опубликованы в ежеквартальном журнале IQT Quarterly, который издавается компанией In-Q-Tel, выполняющей посредническую функцию между ЦРУ США и научными организациями.

Свою модель Конвей изобразил в виде диаграммы Венна (см. рисунок), представляющей три области знания и умений, которыми нужно владеть и обладать, чтобы стать специалистом по данным. Хакерские навыки не следует понимать как злоумышленные действия, в данном случае так названо сочетание владения определенным инструментарием с особым аналитическим складом ума, как у Эркюля Пуаро, или, возможно, эту способность можно назвать дедуктивным методом Шерлока Холмса. В отличие от великих сыщиков нужно еще быть экспертом в ряде математических направлений и понимать предмет. Машинное обучение образуется на пересечении первых двух областей, на пересечении второй и третьей - традиционные методы. Третья зона пересечения опасна спекулятивностью, без математических методов не может быть объективного видения. На пересечении всех трех зон лежит наука о данных.

Диаграмма Конвея дает упрощенную картину; во-первых, на пересечении хакерского и математического кругов лежит не только машинное обучение, во-вторых, размер последнего круга намного больше, сегодня он включает множество дисциплин и технологий. Машинным обучением называют только одну из областей искусственного интеллекта, связанную с построением алгоритмов, способных к обучению, она делится на две подобласти: прецедентное, или индуктивное обучение, выявляющее скрытые закономерности в данных, и дедуктивное, нацеленное на формализацию экспертных знаний. Еще машинное обучение делится на обучение с учителем (Supervised Learning), когда изучаются методы классификации, основанные на заранее подготовленных тренировочных наборах данных, и без учителя (Unsupervised Learning), когда внутренние закономерности ищутся посредством кластерного анализа.

Итак, Big Data - это не спекулятивные размышления, а символ настигающей технической революции. Необходимость в аналитической работе с большими данными заметно изменит лицо ИТ-индустрии и стимулирует появление новых программных и аппаратных платформ. Уже сегодня для анализа больших объемов данных применяются самые передовые методы: искусственные нейронные сети - модели, построенные по принципу организации и функционирования биологических нейронных сетей; методы предиктивной аналитики, статистики и Natural Language Processing (направления искусственного интеллекта и математической лингвистики, изучающего проблемы компьютерного анализа и синтеза естественных языков). Используются также и методы, привлекающие людей-экспертов, или краудсорсинг, А/В тестирование, сентимент-анализ и др. Для визуализации результатов применяются известные методы, например облака тегов и совсем новые Clustergram, History Flow и Spatial Information Flow.

Со стороны технологий Больших Данных поддерживаются распределенными файловыми системами Google File System, Cassandra, HBase, Lustre и ZFS, программными конструкциями MapReduce и Hadoop и множеством других решений. По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.



Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?

Что такое Big Data (дословно — большие данные )? Обратимся сначала к оксфордскому словарю:

Данные — величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.

Термин Big Data используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без .

Преимущества, которые предоставляет Big Data:

  1. Сбор данных из разных источников.
  2. Улучшение бизнес-процессов через аналитику в реальном времени.
  3. Хранение огромного объема данных.
  4. Инсайты. Big Data более проницательна к скрытой информации при помощи структурированных и полуструктурированных данных.
  5. Большие данные помогают уменьшать риск и принимать умные решения благодаря подходящей риск-аналитике

Примеры Big Data

Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Социальные медиа : статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, генерируются в основном из-за загрузок фото и видео на серверы социальной сети, обмена сообщениями, комментариями под постами и так далее.

Реактивный двигатель генерирует 10 терабайт данных каждые 30 минут во время полета. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайты.

Классификация Big Data

Формы больших данных:

  • Структурированная
  • Неструктурированная
  • Полуструктурированная

Структурированная форма

Данные, которые могут храниться, быть доступными и обработанными в форме с фиксированным форматом называются структурированными. За продолжительное время компьютерные науки достигли больших успехов в совершенствовании техник для работы с этим типом данных (где формат известен заранее) и научились извлекать пользу. Однако уже сегодня наблюдаются проблемы, связанные с ростом объемов до размеров, измеряемых в диапазоне нескольких зеттабайтов.

1 зеттабайт соответствует миллиарду терабайт

Глядя на эти числа, нетрудно убедиться в правдивости термина Big Data и трудностях сопряженных с обработкой и хранением таких данных.

Данные, хранящиеся в реляционной базе — структурированы и имеют вид,например, таблицы сотрудников компании

Неструктурированная форма

Данные неизвестной структуры классифицируются как неструктурированные. В дополнении к большим размерам, такая форма характеризуется рядом сложностей для обработки и извлечении полезной информации. Типичный пример неструктурированных данных — гетерогенный источник, содержащий комбинацию простых текстовых файлов, картинок и видео. Сегодня организации имеют доступ к большому объему сырых или неструктурированных данных, но не знают как извлечь из них пользу.

Полуструктурированная форма

Эта категория содержит обе описанные выше, поэтому полуструктурированные данные обладают некоторой формой, но в действительности не определяются с помощью таблиц в реляционных базах. Пример этой категории — персональные данные, представленные в XML файле.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Рост Big Data со временем:

Синим цветом представлены структурированные данные (Enterprise data), которые сохраняются в реляционных базах. Другими цветами — неструктурированные данные из разных источников (IP-телефония, девайсы и сенсоры, социальные сети и веб-приложения).

В соответствии с Gartner, большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.

  1. Объем . Сам по себе термин Big Data связан с большим размером. Размер данных — важнейший показатель при определении возможной извлекаемой ценности. Ежедневно 6 миллионов людей используют цифровые медиа, что по предварительным оценкам генерирует 2.5 квинтиллиона байт данных. Поэтому объем — первая для рассмотрения характеристика.
  2. Разнообразие — следующий аспект. Он ссылается на гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF файлов, аудио тоже рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам в хранении, добыче и анализе: 27% компаний не уверены, что работают с подходящими данными.
  3. Скорость генерации . То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет потенциал. Скорость определяет быстроту притока информации из источников — бизнес процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени.
  4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которое усложняет обработку и управление. Так, например, большая часть данных неструктурирована по своей природе.

Big Data аналитика: в чем польза больших данных

Продвижение товаров и услуг : доступ к данным из поисковиков и сайтов, таких как Facebook и Twitter, позволяет предприятиям точнее разрабатывать маркетинговые стратегии.

Улучшение сервиса для покупателей : традиционные системы обратной связи с покупателями заменяются на новые, в которых Big Data и обработка естественного языка применяется для чтения и оценки отзыва покупателя.

Расчет риска , связанного с выпуском нового продукта или услуги.

Операционная эффективность : большие данные структурируют, чтобы быстрее извлекать нужную информацию и оперативно выдавать точный результат. Такое объединение технологий Big Data и хранилищ помогает организациям оптимизировать работу с редко используемой информацией.

Предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) - примерно в 9 раз больше того, что было создано в 2006-м.

Более сложное определение

Тем не менее `большие данные ` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, - это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных .

Наилучшее определение

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

Насколько велика разница между бизнес-аналитикой и большими данными?

Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Мэтт Слокум из O"Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

  • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
  • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
  • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect"s Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения `, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing . Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning . Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining .

Classification . Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining .

Cluster analysis . Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining .

Crowdsourcing . Методика сбора данных из большого количества источников.

Data fusion and data integration . Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining . Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning . В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms . В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning . Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP ). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis . Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization . Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition . Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling . Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM -системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression . Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis . В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing . Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis . Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics . Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning . Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation . Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis . Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning . Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis .

Визуализация . Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.


Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.

Аналитический инструментарий

На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций . Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Рынки решений для управления большими данными

Платформы больших данных (BDP, Big Data Platform) как средство борьбы с цифровым хордингом

Возможность анализировать большие данные , в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно "синдромом Плюшкина". По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации ().

Мировой и рынок России

Big data Landscape - Основные поставщики

Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.

Теория и практика Больших данных в отраслях

История развития

2017

Прогноз TmaxSoft: следующая «волна» Big Data потребует модернизации СУБД

Предприятиям известно, что в накопленных ими огромных объемах данных содержится важная информация об их бизнесе и клиентах. Если компания сможет успешно применить эту информацию, то у нее будет значительное преимущество по сравнению с конкурентами, и она сможет предложить лучшие, чем у них, продукты и сервисы. Однако многие организации всё еще не могут эффективно использовать большие данные из-за того, что их унаследованная ИТ-инфраструктура неспособна обеспечить необходимую емкость систем хранения, процессы обмена данных, утилиты и приложения, необходимые для обработки и анализа больших массивов неструктурированных данных для извлечения из них ценной информации, указали в TmaxSoft.

Кроме того, увеличение процессорной мощности, необходимой для анализа постоянно увеличивающихся объемов данных, может потребовать значительных инвестиций в устаревшую ИТ-инфраструктуру организации, а также дополнительных ресурсов для сопровождения, которые можно было бы использовать для разработки новых приложений и сервисов.

5 февраля 2015 года Белый дом опубликовал доклад , в котором обсуждался вопрос о том, как компании используют «большие данные » для установления различных цен для разных покупателей - практика, известная как «ценовая дискриминация» или «дифференцированное ценообразование» (personalized pricing). Отчет описывает пользу «больших данных» как для продавцов, так и покупателей, и его авторы приходят к выводу о том, что многие проблемные вопросы, возникшие в связи с появлением больших данных и дифференцированного ценообразования, могут быть решены в рамках существующего антидискриминационного законодательства и законов, защищающих права потребителей.

В докладе отмечается, что в это время имеются лишь отдельные факты, свидетельствующие о том, как компании используют большие данные в контексте индивидуализированного маркетинга и дифференцированного ценообразования. Этот сведения показывают, что продавцы используют методы ценообразования, которые можно разделить на три категории:

  • изучение кривой спроса;
  • Наведение (steering) и дифференцированное ценообразование на основе демографических данных; и
  • целевой поведенческий маркетинг (поведенческий таргетинг - behavioral targeting) и индивидуализированное ценообразование.

Изучение кривой спроса : С целью выяснения спроса и изучения поведения потребителей маркетологи часто проводят эксперименты в этой области, в ходе которых клиентам случайным образом назначается одна из двух возможных ценовых категорий. «Технически эти эксперименты являются формой дифференцированного ценообразования, поскольку их следствием становятся разные цены для клиентов, даже если они являются «недискриминационными» в том смысле, что у всех клиенты вероятность «попасть» на более высокую цену одинакова».

Наведение (steering) : Это практика представления продуктов потребителям на основе их принадлежности к определенной демографической группе. Так, веб-сайт компьютерной компании может предлагать один и тот же ноутбук различным типам покупателей по разным ценам, уставленным на основе сообщённой ими о себе информации (например, в зависимости от того, является ли данный пользователь представителем государственных органов, научных или коммерческих учреждений, или же частным лицом) или от их географического расположения (например, определенного по IP-адресу компьютера).

Целевой поведенческий маркетинг и индивидуализированное ценообразование : В этих случаях персональные данные покупателей используются для целевой рекламы и индивидуализированного назначения цен на определенные продукты. Например, онлайн-рекламодатели используют собранные рекламными сетями и через куки третьих сторон данные об активности пользователей в интернете для того, чтобы нацелено рассылать свои рекламные материалы. Такой подход, с одной стороны, дает возможность потребителям получить рекламу представляющих для них интерес товаров и услуг, Он, однако, может вызвать озабоченность тех потребителей, которые не хотят, чтобы определенные виды их персональных данных (такие, как сведения о посещении сайтов, связанных с медицинскими и финансовыми вопросами) собирались без их согласия.

Хотя целевой поведенческий маркетинг широко распространен, имеется относительно мало свидетельств индивидуализированного ценообразования в онлайн-среде. В отчете высказывается предположение, что это может быть связано с тем, что соответствующие методы все ещё разрабатываются, или же с тем, что компании не спешат использовать индивидуальное ценообразование (либо предпочитают о нём помалкивать) - возможно, опасаясь негативной реакции со стороны потребителей.

Авторы отчета полагают, что «для индивидуального потребителя использование больших данных, несомненно, связано как с потенциальной отдачей, так и с рисками». Признавая, что при использовании больших данных появляются проблемы прозрачности и дискриминации, отчет в то же время утверждает, что существующих антидискриминационных законов и законов по защиты прав потребителей достаточно для их решения. Однако в отчете также подчеркивается необходимость «постоянного контроля» в тех случаях, когда компании используют конфиденциальную информацию непрозрачным образом либо способами, которые не охватываются существующей нормативно-правовой базой.

Данный доклад является продолжением усилий Белого дома по изучению применения «больших данных» и дискриминационного ценообразования в Интернете, и соответствующих последствий для американских потребителей. Ранее уже сообщалось о том, что рабочая группа Белого дома по большим данным опубликовала в мае 2014 года свой доклад по этому вопросу. Федеральная комиссия по торговле (FTC) также рассматривала эти вопросы в ходе проведенного ею в сентября 2014 года семинара по дискриминации в связи с использованием больших данных .

2014

Gartner развеивает мифы о "Больших данных"

В аналитической записке осени 2014 года Gartner перечислен ряд распространенных среди ИТ-руководителей мифов относительно Больших Данных и приводятся их опровержения.

  • Все внедряют системы обработки Больших Данных быстрее нас

Интерес к технологиям Больших Данных рекордно высок: в 73% организаций, опрошенных аналитиками Gartner в этом году, уже инвестируют в соответствующие проекты или собираются. Но большинство таких инициатив пока еще на самых ранних стадиях, и только 13% опрошенных уже внедрили подобные решения. Сложнее всего - определить, как извлекать доход из Больших Данных, решить, с чего начать. Во многих организациях застревают на пилотной стадии, поскольку не могут привязать новую технологию к конкретным бизнес-процессам.

  • У нас так много данных, что нет нужды беспокоиться о мелких ошибках в них

Некоторые ИТ-руководители считают, что мелкие огрехи в данных не влияют на общие результаты анализа огромных объемов. Когда данных много, каждая ошибка в отдельности действительно меньше влияет на результат, отмечают аналитики, но и самих ошибок становится больше. Кроме того, большая часть анализируемых данных - внешние, неизвестной структуры или происхождения, поэтому вероятность ошибок растет. Таким образом, в мире Больших Данных качество на самом деле гораздо важнее.

  • Технологии Больших Данных отменят нужду в интеграции данных

Большие Данные обещают возможность обработки данных в оригинальном формате с автоматическим формированием схемы по мере считывания. Считается, что это позволит анализировать информацию из одних и тех же источников с помощью нескольких моделей данных. Многие полагают, что это также даст возможность конечным пользователям самим интерпретировать любой набор данных по своему усмотрению. В реальности большинству пользователей часто нужен традиционный способ с готовой схемой, когда данные форматируются соответствующим образом, и имеются соглашения об уровне целостности информации и о том, как она должна соотноситься со сценарием использования.

  • Хранилища данных нет смысла использовать для сложной аналитики

Многие администраторы систем управления информацией считают, что нет смысла тратить время на создание хранилища данных, принимая во внимание, что сложные аналитические системы пользуются новыми типами данных. На самом деле во многих системах сложной аналитики используется информация из хранилища данных. В других случаях новые типы данных нужно дополнительно готовить к анализу в системах обработки Больших Данных; приходится принимать решения о пригодности данных, принципах агрегации и необходимом уровне качества - такая подготовка может происходить вне хранилища.

  • На смену хранилищам данных придут озера данных

В реальности поставщики вводят заказчиков в заблуждение, позиционируя озера данных (data lake) как замену хранилищам или как критически важные элементы аналитической инфраструктуры. Основополагающим технологиям озер данных не хватает зрелости и широты функциональности, присущей хранилищам. Поэтому руководителям, отвечающим за управление данными, стоит подождать, пока озера достигнут того же уровня развития, считают в Gartner.

Accenture: 92% внедривших системы больших данных, довольны результатом

Среди главных преимуществ больших данных опрошенные назвали:

  • «поиск новых источников дохода» (56%),
  • «улучшение опыта клиентов» (51%),
  • «новые продукты и услуги» (50%) и
  • «приток новых клиентов и сохранение лояльности старых» (47%).

При внедрении новых технологий многие компании столкнулись с традиционными проблемами. Для 51% камнем преткновения стала безопасность, для 47% - бюджет, для 41% - нехватка необходимых кадров, а для 35% - сложности при интеграции с существующей системой. Практически все опрошенные компании (около 91%) планируют в скором времени решать проблему с нехваткой кадров и нанимать специалистов по большим данным.

Компании оптимистично оценивают будущее технологий больших данных. 89% считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов отметили, что компании, которые не занимаются большими данными, потеряют конкурентное преимущество.

Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать большими данными. 65% респондентов считают, что это «большие картотеки данных», 60% уверены, что это «продвинутая аналитика и анализ», а 50% - что это «данные инструментов визуализации».

Мадрид тратит 14,7 млн евро на управление большими данными

В июле 2014 г. стало известно о том, что Мадрид будет использовать технологии big data для управления городской инфраструктурой. Стоимость проекта - 14,7 млн евро, основу внедряемых решений составят технологии для анализа и управления большими данными. С их помощью городская администрация будет управлять работой с каждым сервис-провайдером и соответствующим образом оплачивать ее в зависимости от уровня услуг.

Речь идет о подрядчиках администрации, которые следят за состоянием улиц, освещением, ирригацией, зелеными насаждениями, осуществляют уборку территории и вывоз, а также переработку мусора. В ходе проекта для специально выделенных инспекторов разработаны 300 ключевых показателей эффективности работы городских сервисов, на базе которых ежедневно будет осуществляться 1,5 тыс. различных проверок и замеров. Кроме того, город начнет использование инновационной технологическлй платформы под названием Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Эксперты: Пик моды на Big Data

Все без исключения вендоры на рынке управления данными в это время ведут разработку технологий для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.

Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг «больших данных » превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.

Gartner: Каждый второй ИТ-директор готов потратиться на Big data

После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют в Gartner . Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года).

Компании вынуждены потратиться на технологии обработки больших данных , поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.

Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data.

«Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», - заявил он.

По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационную инфраструктуру».

В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.

Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.

Опрос Cisco: Big Data поможет увеличить ИТ-бюджеты

В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.

Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в 2012 году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.

81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.

Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):

Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая , где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.

27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности .

21 процент нуждается в расширении полосы пропускания.

Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.

По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).

Gartner: Для управления большими данными нужны миллионы новых рабочих мест

Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner .

К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в . Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.

По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.

Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.

2012

Первый скепсис в отношении "Больших данных"

Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы больших данных может настать время освобождения от иллюзий.

Термином «Большие Данные», в это время как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.

«Из-за шумихи (или несмотря на нее) относительно идеи больших данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», - отметил Тони Байер, аналитик Ovum.

Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний больших данных в



Понравилась статья? Поделитесь ей