Аналізом великих обсягів інформації і. Застосування Великих Даних в медицині. Основні проблеми використання Big Data

Передбачалося, що загальний світовий обсяг створених і реплікованих даних в 2011-му може сягнути близько 1,8 зеттабайт (1,8 трлн. Гігабайт) - приблизно в 9 разів більше того, що було створено в 2006-му.

Більш складне визначення

Проте ` великі дані`Припускають щось більше, ніж просто аналіз величезних обсягів інформації. Проблема не в тому, що організації створюють величезні обсяги даних, а в тому, що більша їх частина представлена \u200b\u200bв форматі, погано відповідному традиційному структурованого формату БД, - це веб-журнали, відеозапису, текстові документи, машинний код або, наприклад, геопросторові дані . Все це зберігається в безлічі різноманітних сховищ, іноді навіть за межами організації. В результаті корпорації можуть мати доступ до величезного обсягу своїх даних і не мати необхідних інструментів, Щоб встановити взаємозв'язок між цими даними і зробити на їх основі значущі висновки. Додайте сюди те обставина, що дані зараз оновлюються все частіше і частіше, і ви отримаєте ситуацію, в якій традиційні методи аналізу інформації не можуть наздогнати величезними обсягами постійно оновлюваних даних, що в підсумку і відкриває дорогу технологіям великих даних.

найкраще визначення

По суті поняття великих даних має на увазі роботу з інформацією величезного обсягу і різноманітного складу, вельми часто оновлюваної і знаходиться в різних джерелах з метою збільшення ефективності роботи, створення нових продуктів і підвищення конкурентоспроможності. Консалтингова компанія Forrester дає коротку формулювання: ` великі дані об'єднують техніки і технології, які витягують сенс з даних на екстремальному межі практічності`.

Наскільки велика різниця між бізнес-аналітикою і великими даними?

Крейг Баті, виконавчий директор з маркетингу і директор за технологіями Fujitsu Australia, вказував, що бізнес-аналіз є описовим процесом аналізу результатів, досягнутих бізнесом в певний період часу, тим часом як швидкість обробки великих даних дозволяє зробити аналіз самий корінь, здатним пропонувати бізнесу рекомендації на майбутнє. Технології великих даних дозволяють також аналізувати більше типів даних в порівнянні з інструментами бізнес-аналітики, що дає можливість фокусуватися не тільки на структурованих сховищах.

Метт Слокум з O "Reilly Radar вважає, що хоча великі дані і бізнес-аналітика мають однакову мету (пошук відповідей на питання), вони відрізняються один від одного за трьома аспектам.

Великі дані призначені для обробки більш значних обсягів інформації, ніж бізнес-аналітика, і це, звичайно, відповідає традиційному визначенню великих даних.
Великі дані призначені для обробки більш швидко одержуваних і мінливих відомостей, що означає глибоке дослідження і інтерактивність. У деяких випадках результати формуються швидше, ніж завантажується веб-сторінка.
Великі дані призначені для обробки неструктурованих даних, способи використання яких ми тільки починаємо вивчати після того, як змогли налагодити їх збір і зберігання, та нам потрібні алгоритми і можливість діалогу для полегшення пошуку тенденцій, що містяться всередині цих масивів.

Згідно з опублікованою компанією Oracle білій книзі `Інформаційна архітектура Oracle: керівництво архітектора по великим данним` (Oracle Information Architecture: An Architect" s Guide to Big Data), при роботі з великими даними ми підходимо до інформації інакше, ніж при проведенні бізнес-аналізу.

Робота з великими даними не схожа на звичайний процес бізнес-аналітики, де просте додавання відомих значень приносить результат: наприклад, результат складання даних про сплачені рахунки стає обсягом продажів за рік. При роботі з великими даними результат виходить в процесі їх очищення шляхом послідовного моделювання: спочатку висувається гіпотеза, будується статистична, візуальна або семантична модель, на її підставі перевіряється вірність висунутої гіпотези і потім висувається наступна. Цей процес вимагає від дослідника або інтерпретації візуальних значень або складання інтерактивних запитів на основі знань, або розробки адаптивних алгоритмів `машинного навчання`, здатних отримати шуканий результат. Причому час життя такого алгоритму може бути досить коротким.

Методики аналізу великих даних

Існує безліч різноманітних методик аналізу масивів даних, в основі яких лежить інструментарій, запозичений з статистики та інформатики (наприклад, машинне навчання). Список не претендує на повноту, проте в ньому відображені найбільш затребувані в різних галузях підходи. При цьому слід розуміти, що дослідники продовжують працювати над створенням нових методик і вдосконаленням існуючих. Крім того, деякі з перерахованих них методик зовсім не обов'язково можуть бути застосовані виключно до великих даними і можуть з успіхом використовуватися для менших за обсягом масивів (наприклад, A / B-тестування, регресійний аналіз). Безумовно, чим більше об'ємний і діверсіфіціруемий масив піддається аналізу, тим точніші і релевантні дані вдається отримати на виході.

A / B testing. Методика, в якій контрольна вибірка по черзі порівнюється з іншими. Таким чином удасться виявити оптимальну комбінацію показників для досягнення, наприклад, найкращою відповідної реакції споживачів на маркетингову пропозицію. великі дані дозволяють провести величезну кількість ітерацій і таким чином отримати статистично достовірний результат.

Association rule learning. Набір методик для виявлення взаємозв'язків, тобто асоціативних правил, між змінними величинами в великих масивах даних. Використовується у data mining.

Classification. Набір методик, які дозволяє передбачити поведінку споживачів в певному сегменті ринку (прийняття рішень про покупку, відтік, обсяг споживання і ін.). Використовується у data mining.

Cluster analysis. Статистичний метод класифікації об'єктів по групах за рахунок виявлення наперед невідомих загальних ознак. Використовується у data mining.

Crowdsourcing. Методика збору даних з великої кількості джерел.

Data fusion and data integration. Набір методик, який дозволяє аналізувати коментарі користувачів соціальних мереж і зіставляти з результатами продажів в режимі реального часу.

Data mining. Набір методик, який дозволяє визначити найбільш сприйнятливі для продукту, що просувається або послуги категорії споживачів, виявити особливості найбільш успішних працівників, передбачити поведінкову модель споживачів.

Ensemble learning. У цьому методі задіюється безліч предикативних моделей за рахунок чого підвищується якість зроблених прогнозів.

Genetic algorithms. У цій методиці можливі рішення представляють у вигляді `хромосом`, які можуть комбінуватися і мутувати. Як і в процесі природної еволюції, виживає найбільш пристосована особина.

Machine learning. Напрямок в інформатиці (історично за ним закріпилася назва `штучний інтеллект`), яке має на меті створення алгоритмів самонавчання на основі аналізу емпіричних даних.

Natural language processing (NLP). Набір запозичених з інформатики та лінгвістики методик розпізнавання природної мови людини.

Network analysis. Набір методик аналізу зв'язків між вузлами в мережах. Стосовно до соціальних мереж дозволяє аналізувати взаємозв'язку між окремими користувачами, компаніями, спільнотами і т.п.

Optimization. Набір чисельних методів для редизайну складних систем і процесів для поліпшення одного або декількох показників. Допомагає в прийнятті стратегічних рішень, наприклад, складу виведеної на ринок продуктової лінійки, проведенні інвестиційного аналізу та ін.

Pattern recognition. Набір методик з елементами самонавчання для передбачення поведінкової моделі споживачів.

Predictive modeling. Набір методик, які дозволяють створити математичну модель наперед заданого ймовірного сценарію розвитку подій. Наприклад, аналіз бази даних CRM-системи на предмет можливих умов, які підштовхнуть абоненти змінити провайдера.

Regression. Набір статистичних методів для виявлення закономірності між зміною залежною змінною і однією або декількома незалежними. Часто застосовується для прогнозування і пророкувань. Використовується в data mining.

Sentiment analysis. В основі методик оцінки настроїв споживачів лежать технології розпізнавання природної мови людини. Вони дозволяють вичленувати з загального інформаційного потоку повідомлення, пов'язані з цікавлять предметом (наприклад, споживчим продуктом). Далі оцінити полярність судження (позитивне чи негативне), ступінь емоційності та ін.

Signal processing. Запозичений з радіотехніки набір методик, який має на меті розпізнавання сигналу на тлі шуму і його подальшого аналізу.

Spatial analysis. Набір частково запозичених з статистики методик аналізу просторових даних - топології місцевості, географічних координат, геометрії об'єктів. джерелом великих даних в цьому випадку часто виступають геоінформаційні системи (ГІС).

Statistics. Наука про збір, організації та інтерпретації даних, включаючи розробку опитувальників і проведення експериментів. Статистичні методи часто застосовуються для оціночних суджень про взаємозв'язки між тими чи іншими подіями.

Supervised learning. Набір заснованих на технологіях машинного навчання методик, які дозволяють виявити функціональні взаємозв'язки в аналізованих масивах даних.

Simulation. Моделювання поведінки складних систем часто використовується для прогнозування, передбачення і опрацювання різних сценаріїв при плануванні.

Time series analysis. Набір запозичених з статистики та цифрової обробки сигналів методів аналізу повторюваних з плином часу послідовностей даних. Одні з очевидних застосувань - відстеження ринку цінних паперів або захворюваності пацієнтів.

Unsupervised learning. Набір заснованих на технологіях машинного навчання методик, які дозволяють виявити приховані функціональні взаємозв'язки в аналізованих масивах даних. Має спільні риси з Cluster Analysis.

візуалізація. методи графічного представлення результатів аналізу великих даних у вигляді діаграм або анімації для спрощення інтерпретації полегшення розуміння отриманих результатів.

Наочне представлення результатів аналізу великих даних має принципове значення для їх інтерпретації. Не секрет, що сприйняття людини обмежена, і вчені продовжують вести дослідження в галузі вдосконалення сучасних методів представлення даних у вигляді зображень, діаграм або анімацій.

аналітичний інструментарій

На 2011 рік деякі з перерахованих в попередньому підрозділі підходів або певну їх сукупність дозволяють реалізувати на практиці аналітичні движки для роботи з великими даними. З вільних або відносно недорогих відкритих систем аналізу Big Data можна порекомендувати:

Revolution Analytics (на базі мови R для мат.статістікі).

Особливий інтерес в цьому списку представляє Apache Hadoop - ПО з відкритим кодом, яке за останні п'ять років випробувано в якості аналізатора даних більшістю трекерів акцій. Як тільки Yahoo відкрила код Hadoop спільноті з відкритим кодом, в ІТ-індустрії негайно з'явився цілий напрям по створенню продуктів на базі Hadoop. Практично всі сучасні засоби аналізу великих даних надають кошти інтеграції з Hadoop. Їх розробниками виступають як стартапи, так і загальновідомі світові компанії.

Ринки рішень для управління великими даними

Платформи великих даних (BDP, Big Data Platform) як засіб боротьби з цифровим хордінгом

можливість аналізувати великі дані, В просторіччі звана Big Data, сприймається як благо, причому однозначно. Але чи так це насправді? До чого може привести нестримне накопичення даних? Швидше за все до того, що вітчизняні психологи стосовно людини називають патологічним накопиченням, сіллогоманіей або образно "синдромом Плюшкіна". По-англійськи порочна пристрасть збирати все підряд називають хордінгом (від англ. Hoard - «запас»). За класифікацією ментальних захворювань хордінг зарахований до психічних розладів. У цифрову епоху до традиційного речового хордінгу додається цифровий (Digital Hoarding), їм можуть страждати як окремі особистості, так і цілі підприємства і організації ().

Світовий і ринок Росії

Big data Landscape - Основні постачальники

Інтерес до інструментів збору, обробки, управління та аналізу великих даних проявляли чи не всі провідні ІТ-компанії, що цілком закономірно. По-перше, вони безпосередньо стикаються з цим феноменом у власному бізнесі, по-друге, великі дані відкривають відмінні можливості для освоєння нових ніш ринку і залучення нових замовників.

На ринку з'являлося безліч стартапів, які роблять бізнес на обробці величезних масивів даних. Частина з них використовують готову хмарну інфраструктуру, яка надається великими гравцями зразок Amazon.

Теорія і практика Великих даних в галузях

Історія розвитку

2017

Прогноз TmaxSoft: наступна «хвиля» Big Data потребують модернізації СУБД

Підприємствам відомо, що в накопичених ними величезних обсягах даних міститься важлива інформація про їхній бізнес і клієнтів. Якщо компанія зможе успішно застосувати цю інформацію, то у неї буде значну перевагу в порівнянні з конкурентами, і вона зможе запропонувати кращі, ніж у них, продукти і сервіси. Однак багато організацій все ще не можуть ефективно використовувати великі дані через те, що їх успадкована ІТ-інфраструктура здатна забезпечити необхідну ємність систем зберігання, процеси обміну даних, утиліти і додатки, необхідні для обробки і аналізу великих масивів неструктурованих даних для вилучення з них цінної інформації, вказали в TmaxSoft.

Крім того, збільшення процесорної потужності, необхідної для аналізу постійно збільшуються обсягів даних, може вимагати значних інвестицій в застарілу ІТ-інфраструктуру організації, а також додаткових ресурсів для супроводу, які можна було б використовувати для розробки нових додатків і сервісів.

5 лютого 2015 року Білий дім опублікував доповідь, в якому обговорювалося питання про те, як компанії використовують « великі дані»Для встановлення різних цін для різних покупців - практика, відома як« цінова дискримінація »або« диференційоване ціноутворення »(personalized pricing). Звіт висвітлює переваги такого підходу «великих даних» як для продавців, так і покупців, і його автори приходять до висновку про те, що багато проблемних питань, що виникли в зв'язку з появою великих даних і диференційованого ціноутворення, можуть бути вирішені в рамках існуючого антидискримінаційного законодавства і законів , що захищають права споживачів.

У доповіді наголошується, що в цей час є лише окремі факти, що свідчать про те, як компанії використовують великі дані в контексті індивідуалізованого маркетингу і диференційованого ціноутворення. Цей відомості показують, що продавці використовують методи ціноутворення, які можна розділити на три категорії:

вивчення кривої попиту;
Наведення (steering) і диференційоване ціноутворення на основі демографічних даних; і
цільової поведінковий маркетинг (поведінковий таргетинг - behavioral targeting) і індивідуалізоване ціноутворення.

Вивчення кривої попиту: З метою з'ясування попиту і вивчення поведінки споживачів маркетологи часто проводять експерименти в цій області, в ході яких клієнтам випадковим чином призначається одна з двох можливих цінових категорій. «Технічно ці експерименти є формою диференційованого ціноутворення, оскільки їх наслідком стають різні ціни для клієнтів, навіть якщо вони є« недискримінаційними »в тому сенсі, що у всіх клієнти ймовірність« потрапити »на більш високу ціну однакова».

Наведення (steering): Це практика уявлення товарів споживачам на основі їх приналежності до певної демографічної групи. Так, веб-сайт комп'ютерної компанії може пропонувати один і той же ноутбук різним типам покупців за різними цінами, заставленим на основі повідомленої ними про себе інформації (наприклад, в залежності від того, чи є даний користувач представником державних органів, наукових або комерційних установ, або ж приватна особа) або від їх географічного розташування (наприклад, певного по IP-адресою комп'ютера).

Цільовий поведінковий маркетинг і індивідуалізоване ціноутворення: У цих випадках персональні дані покупців використовуються для цільової реклами та індивідуалізованого призначення цін на певні продукти. Наприклад, онлайн-рекламодавці використовують зібрані рекламними мережами і через куки третіх сторін дані про активність користувачів в інтернеті для того, щоб націлене розсилати свої рекламні матеріали. Такий підхід, з одного боку, дає можливість споживачам отримати рекламу становлять для них інтерес товарів і послуг, Він, однак, може викликати заклопотаність тих споживачів, які не хочуть, щоб певні види їх персональних даних (такі, як відомості про відвідування сайтів, пов'язаних з медичними і фінансовими питаннями) збиралися без їх згоди.

Хоча цільової поведінковий маркетинг набув значного поширення, є відносно мало свідчень індивідуалізованого ціноутворення в онлайн-середовищі. У звіті висловлюється припущення, що це може бути пов'язано з тим, що відповідні методи все ще розробляються, або ж з тим, що компанії не поспішають використовувати індивідуальне ціноутворення (або вважають за краще про нього мовчати) - можливо, побоюючись негативної реакції з боку споживачів.

Автори звіту вважають, що «для індивідуального споживача використання великих даних, безсумнівно, пов'язане як з потенційною віддачею, так і з ризиками». Визнаючи, що при використанні великих даних з'являються проблеми прозорості та дискримінації, звіт в той же час стверджує, що існуючих антидискримінаційних законів і законів по захисту прав споживачів досить для їх вирішення. Однак у звіті також наголошується на необхідності «постійного контролю» в тих випадках, коли компанії використовують конфіденційну інформацію непрозорим чином або способами, які не охоплюються існуючої нормативно-правовою базою.

Дана доповідь є продовженням зусиль Білого дому по вивченню застосування «великих даних» та дискримінаційного ціноутворення в Інтернеті, і відповідних наслідків для американських споживачів. Раніше вже повідомлялося про те, що робоча група Білого дому по великим даними опублікувала в травні 2014 року свою доповідь з цього питання. Федеральна комісія з торгівлі (FTC) також розглядала ці питання в ході проведеного нею у вересні 2014 року семінару по дискримінації в зв'язку з використанням великих даних.

2014

Gartner розвіює міфи про "Великих даних"

В аналітичній записці осені 2014 року Gartner перерахований ряд поширених серед ІТ-керівників міфів щодо Великих Даних і наводяться їх спростування.

Все впроваджують системи обробки Великих Даних швидше нас

Інтерес до технологій Великих Даних рекордно високий: в 73% організацій, опитаних аналітиками Gartner в цьому році, вже інвестують в відповідні проекти або збираються. Але більшість таких ініціатив поки що на самих ранніх стадіях, і тільки 13% опитаних вже впровадили подібні рішення. Найскладніше - визначити, як отримувати дохід з Великих Даних, вирішити, з чого почати. У багатьох організаціях застряють на пілотній стадії, оскільки не можуть прив'язати нову технологію до конкретних бізнес-процесів.

У нас так багато даних, що немає потреби турбуватися про дрібних помилках в них

Деякі ІТ-керівники вважають, що дрібні огріхи в даних не впливають на загальні результати аналізу величезних обсягів. Коли даних багато, кожна помилка окремо дійсно менше впливає на результат, відзначають аналітики, але і самих помилок стає більше. Крім того, велика частина аналізованих даних - зовнішні, невідомої структури або походження, тому ймовірність помилок зростає. Таким чином, в світі Великих Даних якість насправді набагато важливіше.

Технології Великих Даних скасують нужду в інтеграції даних

Великі Дані обіцяють можливість обробки даних в оригінальному форматі з автоматичним формуванням схеми в міру зчитування. Вважається, що це дозволить аналізувати інформацію з одних і тих же джерел за допомогою декількох моделей даних. Багато хто вважає, що це також дасть можливість кінцевим користувачам самим інтерпретувати будь-який набір даних на свій розсуд. В реальності більшості користувачів часто потрібен традиційний спосіб з готової схемою, Коли дані форматуються відповідним чином, і є угоди про рівень цілісності інформації і про те, як вона повинна співвідноситися зі сценарієм використання.

Сховища даних немає сенсу використовувати для складної аналітики

Багато адміністратори систем управління інформацією вважають, що немає сенсу витрачати час на створення сховища даних, беручи до уваги, що складні аналітичні системи користуються новими типами даних. Насправді у багатьох системах складної аналітики використовується інформація зі сховища даних. В інших випадках нові типи даних потрібно додатково готувати до аналізу в системах обробки Великих Даних; доводиться приймати рішення про придатність даних, принципах агрегації і необхідному рівні якості - така підготовка може відбуватися поза сховища.

На зміну сховищ даних прийдуть озера даних

В реальності постачальники вводять замовників в оману, позиціонуючи озера даних (data lake) як заміну сховищ або як критично важливі елементи аналітичної інфраструктури. Основоположним технологіям озер даних не вистачає зрілості і широти функціональності, властивої сховищ. Тому керівникам, які відповідають за управління даними, варто почекати, поки озера досягнуто того ж рівня розвитку, вважають в Gartner.

Accenture: 92% впровадили системи великих даних, задоволені результатом

Серед головних переваг великих даних опитані назвали:

«Пошук нових джерел доходу» (56%),
«Поліпшення досвіду клієнтів» (51%),
«Нові продукти і послуги» (50%) і
«Приплив нових клієнтів і збереження лояльності старих» (47%).

При впровадженні нових технологій багато компаній зіткнулися з традиційними проблемами. Для 51% каменем спотикання стала безпеку, для 47% - бюджет, для 41% - брак необхідних кадрів, а для 35% - складності при інтеграції з існуючою системою. Практично всі опитані компанії (близько 91%) планують незабаром вирішувати проблему з нестачею кадрів і наймати фахівців з великим даними.

Компанії оптимістично оцінюють майбутнє технологій великих даних. 89% вважають, що вони змінять бізнес настільки ж сильно, як і інтернет. 79% респондентів відзначили, що компанії, які не займаються великими даними, втратять конкурентні переваги.

Втім, опитані розійшлися в думці про те, що саме варто вважати великими даними. 65% респондентів вважають, що це «великі картотеки даних», 60% впевнені, що це «просунута аналітика і аналіз», а 50% - що це «дані інструментів візуалізації».

Мадрид витрачає 14,7 млн \u200b\u200bєвро на управління великими даними

У липні 2014 р стало відомо про те, що Мадрид буде використовувати технології big data для управління міською інфраструктурою. Вартість проекту - 14,7 млн \u200b\u200bєвро, основу впроваджуваних рішень складуть технології для аналізу та управління великими даними. З їх допомогою міська адміністрація буде керувати роботою з кожним сервіс-провайдером і відповідним чином оплачувати її в залежності від рівня послуг.

Йдеться про підрядників адміністрації, які стежать за станом вулиць, освітленням, іригації, зеленими насадженнями, здійснюють прибирання території та вивезення, а також переробку сміття. В ході проекту для спеціально виділених інспекторів розроблені 300 ключових показників ефективності роботи міських сервісів, на базі яких щодня буде здійснюватися 1,5 тис. Різних перевірок і вимірів. Крім того, місто почне використання інноваційної технологіческлй платформи під назвою Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Експерти: Пік моди на Big Data

Всі без винятку вендори на ринку управління даними в цей час ведуть розробку технологій для менеджменту Big Data. Цей новий технологічний тренд також активно обговорюється професійними спільнотою, як розробниками, так і галузевими аналітиками і потенційними споживачами таких рішень.

Як з'ясувала компанія Datashift, станом на січень 2013 року хвиля обговорень навколо « великих даних»Перевищила всі мислимі розміри. Проаналізувавши число згадок Big Data в соціальних мережах, в Datashift підрахували, що за 2012 рік цей термін вживається близько 2 млрд раз в постах, створених близько 1 млн різних авторів по всьому світу. Це еквівалентно 260 постам на годину, причому пік згадок склав 3070 згадок в годину.

Gartner: Кожен другий ІТ-директор готовий витратитися на Big data

Після кількох років експериментів з технологіями Big data і перших впроваджень в 2013 році адаптація подібних рішень значно зросте, прогнозують в Gartner. Дослідники опитали ІТ-лідерів у всьому світі і встановили, що 42% опитаних вже інвестували в технології Big data або планують зробити такі інвестиції протягом найближчого року (дані на березень 2013 року).

Компанії змушені витратитися на технології обробки великих даних, Оскільки інформаційний ландшафт стрімко змінюється, вимагаю нових підходів до обробки інформації. Багато компаній вже усвідомили, що великі масиви даних є критично важливими, причому робота з ними дозволяє досягти вигод, які будуть недоступні при використанні традиційних джерел інформації і способів її обробки. Крім того, постійне мусування теми «великих даних» в ЗМІ підігріває інтерес до відповідних технологій.

Френк Байтендідк (Frank Buytendijk), віце-президент Gartner, навіть закликав компанії стримати запал, оскільки деякі виявляють занепокоєння, що відстають від конкурентів в освоєнні Big data.

«Хвилюватися не варто, можливості для реалізації ідей на базі технологій« великих даних »фактично безмежні», - заявив він.

За прогнозами Gartner, до 2015 року 20% компаній списку Global тисячу візьмуть стратегічний фокус на «інформаційну інфраструктуру».

В очікуванні нових можливостей, які принесуть із собою технології обробки «великих даних», вже зараз багато організацій організовують процес збору і зберігання різного роду інформації.

Для освітніх і урядових організацій, а також підприємств галузі промисловості найбільший потенціал для трансформації бізнесу закладений в поєднанні накопичених даних з так званими dark data (дослівно - «темними даними»), до останніх відносяться повідомлення електронної пошти, Мультимедіа та інший подібний контент. На думку Gartner, в гонці даних переможуть саме ті, хто навчиться поводитися з різними джерелами інформації.

Опитування Cisco: Big Data допоможе збільшити ІТ-бюджети

В ході дослідження (весна 2013 року) під назвою Cisco Connected World Technology Report, проведеного в 18 країнах незалежної аналітичною компанією InsightExpress, були опитано 1 800 студентів коледжів і така ж кількість молодих фахівців у віці від 18 до 30 років. Опитування проводилося, щоб з'ясувати рівень готовності ІТ-відділів до реалізації проектів Big Data і отримати уявлення про пов'язані з цим проблеми, технологічних вади і стратегічної цінності таких проектів.

Більшість компаній збирає, записує і аналізує дані. Проте, йдеться в звіті, багато компаній у зв'язку з Big Data стикаються з цілою низкою складних ділових та інформаційно-технологічних проблем. Наприклад, 60 відсотків опитаних визнають, що рішення Big Data можуть вдосконалити процеси прийняття рішень і підвищити конкурентоспроможність, але лише 28 відсотків заявили про те, що вже отримують реальні стратегічні переваги від накопиченої інформації.

Більше половини опитаних ІТ-керівників вважають, що проекти Big Data допоможуть збільшити ІТ-бюджети в їхніх організаціях, так як будуть пред'являтися підвищені вимоги до технологій, персоналу та професійним навичкам. При цьому більше половини респондентів очікують, що такі проекти збільшать ІТ-бюджети в їхніх компаніях вже в 2012 році. 57 відсотків впевнені в тому, що Big Data збільшить їх бюджети протягом наступних трьох років.

81 відсоток респондентів заявили, що всі (або, принаймні, деякі) проекти Big Data зажадають застосування хмарних обчислень. Таким чином, поширення хмарних технологій може позначитися на швидкості поширення рішень Big Data і на цінності цих рішень для бізнесу.

Компанії збирають і використовують дані самих різних типів, Як структуровані, так і неструктуровані. І з яких джерел отримують дані учасники опитування (Cisco Connected World Technology Report):

Майже половина (48 відсотків) ІТ-керівників прогнозує подвоєння навантаження на їх мережі протягом найближчих двох років. (Це особливо характерно для Китаю, де такої точки зору дотримуються 68 відсотків опитаних, і Німеччини - 60 відсотків). 23 відсотки респондентів очікують потроєння мережевого навантаження на протязі наступних двох років. При цьому лише 40 відсотків респондентів заявили про свою готовність до вибухоподібного зростання обсягів мережевого трафіку.

27 відсотків опитаних визнали, що їм необхідні більш якісні ІТ-політики і заходи інформаційної безпеки.

21 відсоток потребує розширення смуги пропускання.

Big Data відкриває перед ІТ-відділами нові можливості для нарощування цінності і формування тісних відносин з бізнес-підрозділами, дозволяючи підвищити доходи і зміцнити фінансове становище компанії. Проекти Big Data роблять ІТ-підрозділу стратегічним партнером бізнес-підрозділів.

На думку 73 відсотків респондентів, саме ІТ-відділ стане основним локомотивом реалізації стратегії Big Data. При цьому, вважають опитані, інші відділи теж будуть підключатися до реалізації цієї стратегії. Перш за все, це стосується відділів фінансів (його назвали 24 відсотки респондентів), науково-дослідного (20 відсотків), операційного (20 відсотків), інженерного (19 відсотків), а також відділів маркетингу (15 відсотків) і продажів (14 відсотків).

Gartner: Для управління великими даними потрібні мільйони нових робочих місць

Світові ІТ витрати сягнуть $ 3,7 млрд до 2013 року, що на 3,8% більше витрат на інформаційні технології в 2012 році (прогноз на кінець року становить $ 3,6 млрд). сегмент великих даних (Big data) буде розвиватися набагато більш високими темпами, йдеться в звіті Gartner.

До 2015 року 4,4 млн робочих місць в сфері інформаційних технологій буде створено для обслуговування великих даних, з них 1,9 млн робочих місць - в. Більш того, кожна така робоче місце спричинить за собою створення трьох додаткових робочих місць за межами сфери ІТ, так що тільки в США в найближчі чотири роки 6 млн чоловік буде працювати для підтримки інформаційної економіки.

На думку експертів Gartner, головна проблема полягає в тому, що в галузі для цього недостатньо талантів: як приватна, так і державна освітня система, наприклад, в США не здатні постачати галузь достатньою кількістю кваліфікованих кадрів. Так що зі згаданих нових робочих місць в ІТ кадрами буде забезпечено тільки одне з трьох.

Аналітики вважають, що роль плекання кваліфікованих ІТ кадрів повинні брати на себе безпосередньо компанії, які в них гостро потребують, так як такі співробітники стануть перепусткою для них в нову інформаційну економіку майбутнього.

2012

Перший скепсис щодо "Великих даних"

Аналітики компаній Ovum і Gartner припускають, що для модної в 2012 році теми великих даних може настати час звільнення від ілюзій.

Терміном «Великі Дані», в цей час як правило, позначають постійно зростаючий обсяг інформації, що надходить в оперативному режимі з соціальних медіа, від мереж датчиків і інших джерел, а також зростаючий діапазон інструментів, використовуваних для обробки даних і виявлення на їх основі важливих бізнес-тенденцій.

«Через галасу (або не дивлячись на неї) щодо ідеї великих даних виробники в 2012 році з величезною надією дивилися на цю тенденцію», - зазначив Тоні Байєр, аналітик Ovum.

Байєр повідомив, що компанія DataSift провела ретроспективний аналіз згадок великих даних в

Що таке Big Data (Дослівно - великі дані)? Звернемося спочатку до оксфордського словника:

дані - величини, знаки або символи, якими оперує комп'ютер і які можуть зберігатися і передаватися в формі електричних сигналів, записуватися на магнітні, оптичні або механічні носії.

термін Big Data використовується для опису великого і зростаючого експоненціально згодом набору даних. Для обробки такої кількості даних не обійтися без.

Переваги, які надає Big Data:

Збір даних з різних джерел.
Поліпшення бізнес-процесів через аналітику в реальному часі.
Зберігання величезного обсягу даних.
Інсайти. Big Data більш прониклива до прихованої інформації за допомогою структурованих і напівструктурованих даних.
Великі дані допомагають зменшувати ризик і приймати розумні рішення завдяки підходящої ризик-аналітиці

Приклади Big Data

Нью-Йоркська фондова біржа щодня генерує 1 терабайт даних про торги за минулу сесію.

соціальні медіа: Статистика показує, що в бази даних Facebook щодня завантажується 500 терабайт нових даних, генеруються в основному через завантажень фото та відео на сервери соціальної мережі, обміну повідомленнями, коментарями під постами і так далі.

Реактивний двигун генерує 10 терабайт даних кожні 30 хвилин під час польоту. Так як щодня відбуваються тисячі перельотів, то обсяг даних досягає петабайт.

Класифікація Big Data

Форми великих даних:

структурована
неструктурована
полуструктурированного

структурована форма

Дані, які можуть зберігатися, бути доступними і обробленими в формі з фіксованою форматом називаються структурованими. За тривалий час комп'ютерні науки досягли великих успіхів в удосконаленні технік для роботи з цим типом даних (де формат відомий заздалегідь) і навчилися отримувати користь. Однак вже сьогодні спостерігаються проблеми, пов'язані з ростом обсягів до розмірів, що вимірюються в діапазоні кількох зеттабайт.

1 зеттабайт відповідає мільярду терабайт

Дивлячись на ці числа, неважко переконатися в правдивості терміна Big Data і труднощі пов'язаних з обробкою і зберіганням таких даних.

Дані, що зберігаються в реляційній базі - структуровані і мають вигляд, наприклад, таблиці співробітників компанії

неструктурована форма

Дані невідомої структури класифікуються як неструктуровані. У доповненні до великих розмірах, така форма характеризується рядом складнощів для обробки і витягу корисної інформації. Типовий приклад неструктурованих даних - гетерогенний джерело, що містить комбінацію простих текстових файлів, картинок і відео. Сьогодні організації мають доступ до великого обсягу сирих або неструктурованих даних, але не знають як витягти з них користь.

полуструктурированного форма

Ця категорія містить обидві описані вище, тому напівструктуровані дані мають деякою формою, але в дійсності не визначаються за допомогою таблиць в реляційних базах. Приклад цієї категорії - персональні дані, представлені в XML файлі.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Зростання Big Data згодом:

Синім кольором подано структуровані дані (Enterprise data), які зберігаються в реляційних базах. Іншими квітами - неструктуровані дані з різних джерел (IP-телефонія, девайси і сенсори, соціальні мережі і веб-додатки).

Відповідно до Gartner, великі дані різняться за обсягом, швидкості генерації, різноманітності і мінливості. Розглянемо ці характеристики докладніше.

Об `єм. Сам по собі термін Big Data пов'язаний з великим розміром. Розмір даних - найважливіший показник при визначенні можливої \u200b\u200bвитягується цінності. Щодня 6 мільйонів людей використовують цифрові медіа, що за попередніми оцінками генерує 2.5 квінтильйони байт даних. Тому обсяг - перша для розгляду характеристика.
різноманітність - наступний аспект. Він посилається на гетерогенні джерела і природу даних, які можуть бути як структурованими, так і неструктурованими. Раніше електронні таблиці і бази даних були єдиними джерелами інформації, розглянутими в більшості додатків. Сьогодні ж дані в формі електронних листів, фото, відео, PDF файлів, аудіо теж розглядаються в аналітичних додатках. Така різноманітність неструктурованих даних призводить до проблем в зберіганні, видобутку і аналізі: 27% компаній не впевнені, що працюють з відповідними даними.
швидкість генерації. Те, наскільки швидко дані накопичуються і обробляються для задоволення вимог, визначає потенціал. Швидкість визначає швидкість припливу інформації з джерел - бізнес процесів, логів додатків, сайтів соціальних мереж і медіа, сенсорів, мобільних пристроїв. Потік даних величезний і безперервний в часі.
мінливість описує мінливість даних в деякі моменти часу, яке ускладнює обробку і управління. Так, наприклад, велика частина даних неструктурованих за своєю природою.

Big Data аналітика: в чому користь великих даних

Просування товарів і послуг: Доступ до даних з пошукових систем і сайтів, таких як Facebook і Twitter, дозволяє підприємствам точніше розробляти маркетингові стратегії.

Поліпшення сервісу для покупців: Традиційні системи зворотного зв'язку з покупцями замінюються на нові, в яких Big Data і обробка природної мови застосовується для читання до відгуку покупця.

розрахунок ризику, Пов'язаного з випуском нового продукту або послуги.

Операційна ефективність: Великі дані структурують, щоб швидше отримувати потрібну інформацію і оперативно видавати точний результат. Таке об'єднання технологій Big Data і сховищ допомагає організаціям оптимізувати роботу з рідко використовуваної інформацією.

Тільки ледачий не говорить про Big data, але що це таке і як це працює - розуміє навряд чи. Почнемо з найпростішого - термінологія. Говорячи по-російськи, Big data - це різні інструменти, підходи і методи обробки як структурованих, так і неструктурованих даних для того, щоб їх використовувати для конкретних завдань і цілей.

Неструктуровані дані - це інформація, яка не має заздалегідь певної структури або не організована в певному порядку.

Термін «великі дані» ввів редактор журналу Nature Кліффорд Лінч ще в 2008 році в спецвипуску, присвяченому вибухового зростання світових обсягів інформації. Хоча, звичайно, самі великі дані існували і раніше. За словами фахівців, до категорії Big data відноситься більшість потоків даних понад 100 Гб в день.

Читайте також:

Сьогодні під цим простим терміном ховається за все два слова - зберігання і обробка даних.

Big data - простими словами

У сучасному світі Big data - соціально-економічний феномен, який пов'язаний з тим, що з'явилися нові технологічні можливості для аналізу величезної кількості даних.

Читайте також:

Для простоти розуміння уявіть супермаркет, в якому усі товари лежать не в звичному вам порядку. Хліб поруч з фруктами, томатна паста близько замороженої піци, рідина для розпалювання навпаки стелажа з тампонами, на якому крім інших варто авокадо, тофу або гриби шиітаке. Big data розставляють все по своїх місцях і допомагають вам знайти горіхове молоко, дізнатися вартість і термін придатності, а ще - хто, крім вас, купує таке молоко і чим воно краще молока коров'ячого.

Кеннет Кукьер: Великі дані - кращі дані

Технологія Big data

Величезні обсяги даних обробляються для того, щоб людина могла отримати конкретні і потрібні йому результати для їх подальшого ефективного застосування.

Читайте також:

Фактично, Big data - це вирішення проблем і альтернатива традиційним системам управління даними.

Техніки та методи аналізу, що застосовуються до Big data по McKinsey:

краудсорсінг;

Змішання і інтеграція даних;

Машинне навчання;

Штучні нейронні мережі;

Розпізнавання образів;

Прогнозна аналітика;

Імітаційне моделювання;

Просторовий аналіз;

Статистичний аналіз;
Візуалізація аналітичних даних.

Горизонтальна масштабованість, яка забезпечує обробку даних - базовий принцип обробки великих даних. Дані розподілені на обчислювальні вузли, а обробка відбувається без деградації продуктивності. McKinsey включив в контекст застосовності також реляційні системи управління і Business Intelligence.

технології:

NoSQL;
MapReduce;
Hadoop;
Апаратні рішення.

Читайте також:

Для великих даних виділяють традиційні визначальні характеристики, вироблені Meta Group ще в 2001 році, які називаються « три V»:

Volume - величина фізичного обсягу.
Velocity - швидкість приросту і необхідності швидкої обробки даних для отримання результатів.
Variety - можливість одночасно обробляти різні типи даних.

Big data: застосування і можливості

Обсяги неоднорідною і швидко надходить цифрової інформації обробити традиційними інструментами неможливо. Сам аналіз даних дозволяє побачити певні і непомітні закономірності, які не може побачити людина. Це дозволяє оптимізувати всі сфери нашого життя - від державного управління до виробництва і телекомунікацій.

Наприклад, деякі компанії ще кілька років тому захищали своїх клієнтів від шахрайства, а турбота про гроші клієнта - турбота про своїх власних грошах.

Сюзан Етліджер: Як бути з великими даними?

Рішення на основі Big data: «Сбербанк», «Білайн» та інші компанії

У «Білайну» є величезна кількість даних про абонентів, які вони використовують не тільки для роботи з ними, а й для створення аналітичних продуктів, на зразок зовнішнього консалтингу або IPTV-аналітики. «Білайн» сегментували базу і захистили клієнтів від грошових махінацій і вірусів, використавши для зберігання HDFS і Apache Spark, а для обробки даних - Rapidminer і Python.

Читайте також:

Або згадаємо «Сбербанк» з їх старим кейсом під назвою АС САФИ. Це система, яка аналізує фотографії для ідентифікації клієнтів банку і запобігає шахрайство. Система була впроваджена ще в 2014 році, в основі системи - порівняння фотографій з бази, які потрапляють туди з веб-камер на стійках завдяки комп'ютерному зору. Основа системи - біометрична платформа. Завдяки цьому, випадки шахрайства зменшилися в 10 разів.

Big data в світі

До 2020 року, за прогнозами, людство сформує 40-44 зеттабайт інформації. А до 2025 року виросте в 10 разів, говориться в доповіді The Data Age 2025, який був підготовлений аналітиками компанії IDC. У доповіді наголошується, що більшу частину даних генерувати будуть самі підприємства, а не звичайні споживачі.

Аналітики дослідження вважають, що дані стануть життєво-важливим активом, а безпека - критично важливим фундаментом в життя. Також автори роботи впевнені, що технологія змінить економічний ландшафт, а звичайний користувач буде комунікувати з підключеними пристроями близько 4800 разів в день.

Ринок Big data в Росії

Зазвичай великі дані надходять з трьох джерел:

Інтернет (соцмережі, форуми, блоги, ЗМІ та інші сайти);
Корпоративні архіви документів;
Показання датчиків, приладів та інших пристроїв.

Big data в банках

Крім системи, описаної вище, в стратегії «Ощадбанку» на 2014-2018 рр. йдеться про важливість аналізу супермассівов даних для якісного обслуговування клієнтів, управління ризиками та оптимізації витрат. Зараз банк використовує Big data для управління ризиками, боротьби з шахрайством, сегментації та оцінки кредитоспроможності клієнтів, управління персоналом, прогнозування черг у відділеннях, розрахунку бонусів для співробітників та інших завдань.

«ВТБ24» користується великими даними для сегментації і управління відтоком клієнтів, формування фінансової звітності, аналізу відгуків в соцмережах і на форумах. Для цього він застосовує рішення Teradata, SAS Visual Analytics і SAS Marketing Optimizer.

Великі дані (або Big Data) - це сукупність методів роботи з величезними обсягами структурованої або неструктурованої інформації. Фахівці по роботі з великими даними займаються її обробкою і аналізом для отримання наочних, що сприймаються людиною результатів. Look At Me поговорив з професіоналами і з'ясував, яка ситуація з обробкою великих даних в Росії, де і чому краще вчитися тим, хто хоче працювати в цій сфері.

Олексій Ривкін про основні напрямки в сфері високих даних, спілкуванні з замовниками та світі чисел

Я вчився в Московському інституті електронної техніки. Головне, що мені вдалося звідти винести, - це фундаментальні знання з фізики і математики. Одночасно з навчанням я працював в R & D-центрі, де займався розробкою і впровадженням алгоритмів завадостійкого кодування для засобів захищеної передачі даних. Після закінчення бакалаврату я вступив до магістратури бізнес-інформатики Вищої школи економіки. Після цього я захотів працювати в IBS. Мені пощастило, що в той час у зв'язку з великою кількістю проектів йшов додатковий набір стажерів, і після декількох співбесід я почав працювати в IBS, однією з найбільших російських компаній цієї галузі. За три роки я пройшов шлях від стажиста до архітектора корпоративних рішень. Зараз займаюся розвитком експертизи технологій Big Data для компаній-замовників з фінансового та телекомунікаційного сектора.

Є дві основні спеціалізації для людей, які хочуть працювати з великими даними: аналітики і ІТ-консультанти, які створюють технології для роботи з великими даними. Крім того, можна також говорити про професії Big Data Analyst, т. Е. Людей, які безпосередньо працюють з даними, з ІТ-платформою у замовника. Раніше це були звичайні аналітики-математики, які знали статистику і математику і за допомогою статистичного ПО вирішували завдання з аналізу даних. Сьогодні, крім знання статистики і математики, необхідно також розуміння технологій і життєвого циклу даних. У цьому, на мій погляд, і полягає відмінність сучасних Data Analyst від тих аналітиків, які були раніше.

Моя спеціалізація - ІТ-консалтинг, тобто я придумую і пропоную замовникам способи вирішення бізнес-завдань за допомогою ІТ-технологій. У консалтинг приходять люди з різним досвідом, але найважливіші якості для цієї професії - це вміння розуміти потреби клієнта, прагнення допомагати людям і організаціям, хороші комунікаційні та командні навички (оскільки це завжди робота з клієнтом і в команді), хороші аналітичні здібності. Дуже важлива внутрішня мотивація: ми працюємо в конкурентному середовищі, і замовник чекає незвичайних рішень і зацікавленості в роботі.

Велика частина часу у мене йде на спілкування з замовниками, формалізацію їх бізнес-потреб і допомогу в розробці найбільш придатною технологічної архітектури. Критерії вибору тут мають свою особливість: крім функціональних можливостей і ТСО (Total cost of ownership - загальна вартість володіння) дуже важливі нефункціональні вимоги до системи, найчастіше цей час відгуку, час обробки інформації. Щоб переконати замовника, ми часто використовуємо підхід proof of concept - пропонуємо безкоштовно «протестувати» технологію на якомусь завданні, на вузькому наборі даних, щоб переконатися, що технологія працює. Рішення повинно створювати для замовника конкурентну перевагу за рахунок отримання додаткових вигод (наприклад, x-sell, крос-продажу) або вирішувати якусь проблему в бізнесі, скажімо, знизити високий рівень шахрайства по кредитах.

Було б набагато простіше, якби клієнти приходили з готовою завданням, але поки вони не розуміють, що з'явилася революційна технологія, яка може змінити ринок за пару років

З якими проблемами доводиться стикатися? Ринок поки не готовий використовувати технології «великих даних». Було б набагато простіше, якби клієнти приходили з готовою завданням, але поки вони не розуміють, що з'явилася революційна технологія, яка може змінити ринок за пару років. Саме тому ми, по суті, працюємо в режимі стартапу - не просто продаємо технології, але і кожен раз переконуємо клієнтів, що потрібно в ці рішення інвестувати. Це така позиція візіонерів - ми показуємо замовникам, як можна поміняти свій бізнес із залученням даних та ІТ. Ми створюємо цей новий ринок - ринок комерційного ІТ-консалтингу в області Big Data.

Якщо людина хоче займатися дата-аналізом або ІТ-консалтингом у сфері Big Data, то перше, що важливо, - це математичне або технічна освіта з хорошою математичною підготовкою. Також корисно освоїти конкретні технології, припустимо SAS, Hadoop, мова R або рішення IBM. Крім того, потрібно активно цікавитися прикладними завданнями для Big Data - наприклад, як їх можна використовувати для поліпшеного кредитного скорингу в банку або управління життєвим циклом клієнта. Ці та інші знання можуть бути отримані з доступних джерел: наприклад, Coursera і Big Data University. Також є Customer Analytics Initiative в Wharton University of Pennsylvania, де опубліковано дуже багато цікавих матеріалів.

Серйозна проблема для тих, хто хоче працювати в нашій області, - це явний недолік інформації про Big Data. Ти не можеш піти в книжковий магазин або в на якийсь сайт і отримати, наприклад, вичерпний збірник кейсів за всіма застосуванням технологій Big Data в банках. Таких довідників не існує. Частина інформації знаходиться в книгах, ще частина збирається на конференціях, а до чогось доводиться доходити самим.

Ще одна проблема полягає в тому, що аналітики добре відчувають себе в світі чисел, але їм не завжди комфортно в бізнесі. Такі люди часто інтровертна, їм важко спілкуватися, і тому їм складно переконливо доносити до клієнтів інформацію про результати досліджень. Для розвитку цих навичок я б рекомендував такі книги, як «Принцип піраміди», «Говори мовою діаграм». Вони допомагають розвинути презентаційні навички, лаконічно і зрозуміло викладати свої думки.

Мені дуже допомогла участь в різних кейс-чемпіонатах під час навчання в НДУ ВШЕ. Кейс-чемпіонати - це інтелектуальні змагання для студентів, де потрібно вивчати бізнес-проблеми і пропонувати їх рішення. Вони бувають двох видів: кейс-чемпіонати консалтингових фірм, наприклад, McKinsey, BCG, Accenture, а також незалежні кейс-чемпіонати типу Changellenge. Під час участі в них я навчився бачити і вирішувати складні завдання - від ідентифікації проблеми і її структурування до захисту рекомендацій щодо її вирішення.

Олег Михальський про російський ринок і специфіці створення нового продукту в сфері високих даних

До приходу в Acronis я вже займався запуском нових продуктів на ринок в інших компаніях. Це завжди цікаво і складно водночас, тому мене відразу зацікавила можливість роботи над хмарними сервісами і рішеннями для зберігання даних. У цій сфері у нагоді весь мій попередній досвід роботи в ІТ-галузі, включаючи власний стартап-проект I-accelerator. Допомогло також і наявність бізнес-освіти (MBA) в доповнення до базового інженерного.

У Росії у великих компаній - банків, мобільних операторів і т. Д. - є потреба в аналізі великих даних, тому в нашій країні є перспективи для тих, хто хоче працювати в цій галузі. Правда, багато проектів зараз є інтеграційними, тобто зробленими на основі зарубіжних напрацювань або open source-технологій. В таких проектах не створюються принципово нові підходи і технології, а швидше адаптуються вже наявні напрацювання. У Acronis ми пішли іншим шляхом і, проаналізувавши наявні альтернативи, вирішили вкластися в власну розробку, створивши в результаті систему надійного зберігання для великих даних, яка за собівартістю не поступається, наприклад, Amazon S3, але працює надійно і ефективно і на значно менших масштабах. Власні розробки по великим даними є і у великих інтернет-компаній, але вони скоріше орієнтовані на внутрішні потреби, ніж задоволення потреб зовнішніх клієнтів.

Важливо розуміти тренди і економічні сили, які впливають на область обробки великих даних. Для цього потрібно багато читати, слухати виступи авторитетних фахівців в ІТ-індустрії, відвідувати тематичні конференції. Зараз майже кожна конференція має секцію про Big Data, але всі вони розповідають про це під різним кутом: з точки зору технологій, бізнесу або маркетингу. Можна піти на проектну роботу або стажування в компанію, яка вже веде проекти з даної тематики. Якщо ви впевнені в своїх силах, то ще не пізно організувати стартап в сфері Big Data.

Без постійного контакту з ринком нова розробка ризикує опинитися незатребуваною

Правда, коли ви відповідаєте за новий продукт, багато часу йде на аналітику ринку і спілкування з потенційними клієнтами, партнерами, професійними аналітиками, які знають багато про клієнтів і їх потреби. Без постійного контакту з ринком нова розробка ризикує опинитися незатребуваною. Завжди є багато невизначеностей: ви повинні зрозуміти, хто стануть першими користувачами (early adopters), що у вас є для них цінного і як потім залучити масову аудиторію. Друга за важливістю завдання - це сформувати і донести до розробників чітке і цілісне бачення кінцевого продукту, щоб мотивувати їх на роботу в таких умовах, коли деякі вимоги ще можуть змінюватися, а пріоритети залежать від зворотнього зв'язку, Що надходить від перших клієнтів. Тому важливе завдання - це управління очікуваннями клієнтів з одного боку і розробників з іншого. Так, щоб ні ті ні інші не втратили інтерес і довели проект до завершення. Після першого успішного проекту стає простіше, і головним завданням буде знайти правильну модель зростання для нового бізнесу.

Свого часу я почув термін "Big Data" від Германа Грефа (глава Ощадбанку). Мовляв, вони зараз у себе активно працюють над впровадженням, тому що це допоможе їм скоротити час роботи з кожним клієнтом.

Другий раз я зіткнувся з цим поняттям в інтернет-магазині клієнта, над яким ми працювали і збільшували асортимент з пари тисяч до кількох десятків тисяч товарних позицій.

Третій раз, коли побачив, що в Yandex потрібно аналітик big data. Тоді я вирішив глибше розібратися в цій темі і заодно написати статтю, яка розповість що це за термін такий, який розбурхує уми ТОП-менеджерів і інтернет-простір.

VVV або VVVVV

Зазвичай будь-яку свою статтю я починаю з пояснення що ж це за термін такий. Ця стаття не стане винятком.

Однак, це викликано перш за все не бажанням показати який я розумний, а тим, що тема по-справжньому складна і вимагає ретельного пояснення.

Наприклад, Ви можете почитати що таке big data в Вікіпедії, нічого не зрозуміти, а потім повернутися в цю статтю, щоб все таки розібратися у визначенні та застосовності для бізнесу. Отже, почнемо з опису, а потім до прикладів для бізнесу.

Big data це великі дані. Дивно, так? Реально, з англійської це перекладається як "великі дані". Але це визначення, можна сказати, для чайників.

важливо. Технологія big data це підхід / метод обробки більшого числа даних для отримання нової інформації, які важко обробити звичайними способами.

Дані можуть бути як обробленими (структурованими), так і розрізненими (тобто неструктурованими).

Сам термін з'явився відносно недавно. У 2008 році в науковому журналі цей підхід прогнозували як щось необхідне для роботи з великим об'ємом інформації, яка збільшується в геометричній прогресії.

Наприклад, щорічно інформація в інтернеті, яку потрібно зберігати, ну і само собою обробляти, збільшується на 40%. Ще раз. + 40% щороку з'являється в інтернеті нової інформації.

Якщо роздруковані документи зрозумілі і способи обробки їх теж зрозумілі (перенести в електронний вигляд, зшити в одну папку, пронумерувати), то що робити з інформацією, яка представлена \u200b\u200bв абсолютно інших "носіях" та інших обсягах:

інтернет-документи;
блоги та соціальні мережі;
аудіо / відео джерела;
вимірювальні пристрої;

Є характеристики, які дозволяють віднести інформацію і дані саме до big data.

Тобто не всі дані можуть бути придатні для аналітики. У цих характеристиках як раз і закладено ключове поняття біг дата. Всі вони вміщаються в три V.

Обсяг (від англ. Volume). Дані вимірюються в величині фізичного обсягу "документа", що підлягає аналізу;
Швидкість (від англ. Velocity). Дані не варті в своєму розвитку, а постійно приростають, саме тому і потрібно їх швидка обробка для отримання результатів;
Різноманіття (від англ. Variety). Дані можуть бути не одноформатні. Тобто можуть бути розрізненими, структурованим або структурованими частково.

Однак, періодично до VVV додають і четверту V (veracity - достовірність / правдоподібність даних) і навіть п'яту V (в деяких випадках ці - viability - життєздатність, в інших же це - value - цінність).

Десь я бачив навіть 7V, які характеризують дані, що відносяться до біг дата. Але на мій погляд це з серії (де періодично додаються P, хоча для розуміння досить початкових 4-х).

НАС УЖЕ БІЛЬШЕ 29 000 чол.
включає

Кому ж це треба?

Постає логічне запитання, як можна використовувати інформацію (якщо що, біг дата це сотні і тисячі терабайт)? Навіть не так.

Ось є інформація. Так для чого придумали тоді біг дата? Яке застосування у big data в маркетингу і в бізнесі?

Звичайні бази даних не можуть зберігати і обробляти (я зараз говорю навіть не про аналітику, а просто зберігання і обробку) величезної кількості інформації.
Біг дата же вирішує цю головну задачу. Успішно зберігає і управляє інформацією з великим об'ємом;
Структурує відомості, що приходять з різних джерел (відео, зображень, аудіо і текстових документів), в один єдиний, зрозумілий і прийнятний вид;
Формування аналітики і створення точних прогнозів на підставі структурованої і обробленої інформації.

Це складно. Якщо говорити просто, то будь-який маркетолог, який розуміє, що якщо вивчити великий обсяг інформації (про Вас, Вашої компанії, Ваших конкурентів, Вашої галузі), то можна отримати дуже пристойні результати:

Повне розуміння Вашої компанії і Вашого бізнесу з боку цифр;
Вивчити своїх конкурентів. А це, в свою чергу, дасть можливість вирватися вперед за рахунок переважання над ними;
Дізнатися нову інформацію про своїх клієнтів.

І саме тому що технологія big data дає наступні результати, все з нею і носяться.

Намагаються прикрутити цю справу в свою компанію, щоб отримати збільшення продажів і зменшення витрат. А якщо конкретно, то:

Збільшення крос продажів і додаткових продажів за рахунок кращого знання переваг клієнтів;
Пошук популярних товарів і причин чому їх купують (і навпаки);
Удосконалення продукту або послуги;
Поліпшення рівня обслуговування;
Підвищення лояльності і клієнтоорієнтованості;
Попередження шахрайства (більше актуально для банківської сфери);
Зниження зайвих витрат.

Найпоширеніший приклад, який наводиться в усіх джерелах - це, звичайно ж, компанія Apple, Яка збирає дані про своїх користувачів (телефон, годинник, комп'ютер).

Саме через наявність еко-системи корпорація стільки знає про своїх користувачів і надалі використовує це для отримання прибутку.

Ці та інші приклади використання Ви можете прочитати в будь-який інший статті крім цієї.

Йдемо в майбутнє

Я ж Вам розповім про інший проект. Вірніше про людину, який будує майбутнє, використовуючи big data рішення.

Це Ілон Маск і його компанія Tesla. Його головна мрія - зробити автомобілі автономними, тобто Ви сідаєте за кермо, включаєте автопілот від Москви до Владивостока і ... засинаєте, тому що Вам зовсім не потрібно керувати автомобілем, адже він все зробить сам.

Здавалося б, фантастика? Але немає! Просто Ілон надійшов набагато мудріше, ніж Google, які керують автомобілями за допомогою десятків супутників. І пішов іншим шляхом:

У кожен продаваний автомобіль ставиться комп'ютер, який збирають всю інформацію.
Всю - це значить взагалі всю. Про водія, стилі його водіння, дорогах навколо, рух інших автомобілів. Обсяг таких даних доходить до 20-30 ГБ на годину;
Далі ця інформація по супутниковому зв'язку передається в центральний комп'ютер, який займається обробкою цих даних;
На основі даних big data, які обробляє даний комп'ютер, Будується модель безпілотного автомобіля.

До слова, якщо у Google справи йдуть досить кепсько і їх автомобілі весь час потрапляють в аварії, то у Маска, за рахунок того що йде робота з big data, справи йдуть набагато краще, адже тестові моделі показують дуже непогані результати.

Але ... Це все з економіки. Що ми всі про прибуток, та про прибуток? Багато що, що може вирішити біг дата, абсолютно не пов'язано із заробітком і грошима.

Статистика Google, якраз таки заснована на big data, показує цікаву річ.

Перед тим як медики оголошують про початок епідемії захворювання в якомусь регіоні, в цьому регіоні істотно зростає кількість пошукових запитів про лікування даного захворювання.

Таким чином, правильне вивчення даних і їх аналіз може сформувати прогнози і передбачити початок епідемії (і, відповідно, її запобігання) набагато швидше, ніж висновок офіційних органів і їх дії.

Застосування в Росії

Однак, Росія як завжди трохи "пригальмовує". Так само визначення big data в Росії з'явилося не більше, ніж 5 років тому (я зараз саме про звичайні компанії).

І це не дивлячись на те, що це один з найбільш швидкозростаючих ринків у світі (наркотики і зброю нервово курять в стороні), адже щорічно ринок програмного забезпечення для збору та аналізу big data приростає на 32%.

Щоб охарактеризувати ринок big data в Росії, мені пригадується одна стара жарт. Біг дата це як секс до 18 років.

Всі про це говорять, навколо цього багато галасу і мало реальних дій, і всім соромно зізнатися, що самі-то вони цим не займаються. І правда, навколо цього багато галасу, але мало реальних дій.

Хоча відома дослідницька компанія Gartner вже в 2015 році оголосила, що біг дата це вже не зростаючий тренд (як до речі і штучний інтелект), а цілком самостійні інструменти для аналізу та розвитку передових технологій.

Найбільш активні ніші, де застосовується big data в Росії, це банки / страхування (недарма я почав статтю з голови Ощадбанку), телекомунікаційна сфера, ритейл, нерухомість і ... державний сектор.

Для прикладу розповім більш докладно про парі секторів економіки, які використовують алгоритми big data.

банки

Почнемо з банків і тієї інформації, яку вони збирають про нас і наших діях. Для прикладу я взяв ТОП-5 російських банків, які активно інвестують в big data:

Сбербанк;
Газпромбанк;
ВТБ 24;
Альфа Банк;
Тінькофф банк.

Особливо приємно бачити в числі російських лідерів Альфа Банк. Як мінімум, приємно усвідомлювати, що банк, офіційним партнером якого ти є, розуміє необхідність впровадження нових маркетингових інструментів в свою компанію.

Але приклади використання і вдалого впровадження big data я хочу показати на банку, який мені подобається за нестандартний погляд і вчинки його засновника.

Я говорю про Тінькофф банк. Їх головним завданням стояла розробка системи для аналізу великих даних в режимі реального часу через розрослася клієнтської бази.

Результати: час внутрішніх процесів скоротилася мінімум в 10 разів, а для деяких - більше, ніж в 100 разів.

Ну і невелике відволікання. Знаєте чому я заговорив про нестандартні витівки і вчинки Олега Тинькова?

Просто на мій погляд саме вони допомогли йому перетворитися з бізнесмена середньої руки, яких тисячі в Росії, в одного з найвідоміших і впізнаваних підприємців. На підтвердження подивіться це незвичайне і цікаве відео:

Нерухомість

У нерухомості все набагато складніше. І це саме той приклад, який я хочу Вам привести для розуміння біг дати в межах звичайного бізнесу. Початкові дані:

Великий обсяг текстової документації;
Відкриті джерела (приватні супутники, передають дані про зміни землі);
Величезний обсяг неконтрольованої інформації в Інтернет;
Постійні зміни в джерелах і даних.

І на основі цього потрібно підготувати і оцінити вартість земельної ділянки, наприклад, під уральської селом. У професіонала на це піде тиждень.

У Російського товариства оцінювачів & РОСЕКО, власне які і впровадили собі аналіз big data за допомогою програмного забезпечення, піде на це не більше 30 хвилин неквапливої \u200b\u200bроботи. Порівняйте, тиждень і 30 хвилин. Колосальна різниця.

Ну і на закуску

Звичайно ж величезні обсяги інформації не можуть зберігатися і оброблятися на простих жорстких дисках.

А програмне забезпечення, яке структурує і аналізує дані - це взагалі інтелектуальна власність і кожен раз авторська розробка. Однак, є інструменти, на основі яких створюється вся ця краса:

Hadoop & MapReduce;
NoSQL бази даних;
Інструменти класу Data Discovery.

Якщо чесно, я не зможу Вам виразно пояснити чим вони відрізняються один від одного, так як знайомству і роботі з цими речами вчать в фізико-математичних інститутах.

Навіщо тоді я про це заговорив, якщо не зможу пояснити? Пам'ятайте у всіх кіно грабіжники заходять в будь-який банк і бачать величезну кількість всяких залізяк, підключених до проводів?

Те ж саме і в біг датою. Наприклад, ось модель, яка є на даний момент одним з найбільш лідерів на ринку.

Інструмент Біг дата

Вартість в максимальній комплектації доходить до 27 мільйонів рублів за стійку. Це, звичайно, люксова версія. Я це до того, щоб Ви заздалегідь приміряли створення big data в своєму бізнесі.

Коротко про головне

Ви можете запитати навіщо ж вам, малому і середньому бізнесу робота з біг дата?

На це я відповім Вам цитатою одну людину: "Найближчим часом клієнтами будуть затребувані компанії, які краще розуміють їх поведінку, звички і максимально відповідають їм".

Але давайте поглянемо правді в очі. Щоб впровадити біг дата в малому бізнесі, це треба володіти не тільки великими бюджетами на розробку і впровадження софта, але і на утримання фахівців, хоча б таких як аналітик big data і сисадмін.

І це я зараз мовчу про те, що у Вас повинні бути такі дані для обробки.

Окей. Для малого бізнесу тема майже не може бути застосована. Але це не означає, що Вам потрібно забути все що прочитали вище.

Просто вивчайте не свої дані, а результати аналітики даних відомих як зарубіжних, так і російських компаній.

Наприклад, роздрібна мережа Target за допомогою аналітики по big data з'ясувала, що вагітні жінки перед другим триместром вагітності (з 1-го по 12-й тиждень вагітності) активно скуповують неароматизованим кошти.

Завдяки цим даним вони відправляють їм купони зі знижками на неароматизовані кошти з обмеженим терміном дії.

А якщо Ви ну прям зовсім невелике кафе, наприклад? Та дуже просто. Використовуйте додаток лояльності.

І через деякий час і завдяки накопиченої інформації, Ви зможете не тільки пропонувати клієнтам релевантні їхнім потребам страви, а й побачити самі непродані і самі маржинальні страви буквально парою клацань мишки.

Звідси висновок. Впроваджувати біг дата малому бізнесу навряд чи варто, а ось використовувати результати і напрацювання інших компаній - обов'язково.