Системи аналізу великих даних. Йдемо в майбутнє. Як працює технологія Big-Data

У кожної промислової революції були свої символи: чавун і пар, сталь і потокове виробництво, полімери та електроніка, а чергова революція відбудеться під знаком композитних матеріалів і даних. Big Data - помилковий слід або майбутнє індустрії?

20.12.2011 Леонід Черняк

Символами першої промислової революції були чавун і пар, другий - сталь і потокове виробництво, третьої - полімерні матеріали, алюміній і електроніка, а чергова революція відбудеться під знаком композитних матеріалів і даних. Big Data це помилковий слід або майбутнє індустрії?

Уже понад три роки багато говорять і пишуть про великих Даних(Big Data) в поєднанні зі словом «проблема», посилюючи таємничість цієї теми. За цей час «проблема» виявилася в фокусі уваги переважної більшості великих виробників, в розрахунку на виявлення її рішення створюється безліч стартапів, а всі провідні галузеві аналітики сурмлять про те, наскільки зараз важливим є вміння працювати з великими обсягами даних для забезпечення конкурентоспроможності. Подібна, не дуже аргументована, масовість провокує інакомислення, і можна зустріти чимало скептичних висловлювань на ту ж тему, а іноді до Big Data навіть прикладають епітет red herring (букв. «Копчена оселедець» - помилковий слід, відволікаючий маневр).

Так що ж таке Big Data? Найпростіше уявити Big Data у вигляді стихійно обрушилася і казна-звідки взялася лавини даних або звести проблему до нових технологій, радикально змінює інформаційне середовище, а може бути, разом з Big Data ми переживаємо черговий етап в науково-технічної революції? Швидше за все, і те, і друге, і третє, і ще поки невідоме. Показово, що з більш ніж чотири мільйони сторінок в Web, що містять словосполучення Big Data, один мільйон містить ще й слово definition - як мінімум чверть пишуть про Big Data намагається дати своє визначення. Така масова зацікавленість свідчить на користь того, що, швидше за все, в Big Data є щось якісно інше, ніж те, до чого підштовхує буденна свідомість.

Передісторія

Те, що переважна частина згадок Big Data так чи інакше пов'язана з бізнесом, може ввести в оману. Насправді термін народився аж ніяк не в корпоративному середовищі, а запозичений аналітиками з наукових публікацій. Big Data відноситься до числа небагатьох назв, що мають цілком достовірну дату свого народження - 3 вересня 2008 року, коли вийшов спеціальний номер найстарішого британського наукового журналу Nature, присвячений пошуку відповіді на питання «Як можуть вплинути на майбутнє науки технології, що відкривають можливості роботи з великими обсягами даних? ». Спеціальний номер підсумовує попередні дискусії про роль даних в науці взагалі і в електронній науці (e-science) зокрема.

Роль даних в науці стала предметом обговорення дуже давно - першим про обробку даних ще в XVIII столітті писав англійський астроном Томас Сімпсон в праці «Про переваги використання чисел в астрономічних спостереженнях», але тільки в кінці минулого століття інтерес до цієї теми придбав помітну гостроту, а на передній план обробка даних вийшла в кінці минулого століття, коли виявилося, що комп'ютерні методи можуть застосовуватися практично у всіх науках від археології до ядерної фізики. Як наслідок, помітно змінюються і самі наукові методи. Не випадково з'явився неологізм libratory, утворений від слів library (бібліотека) і laboratory (лабораторія), який відображає зміни, що стосуються подання про те, що можна вважати результатом дослідження. До сих пір на суд колег представлялися тільки отримані кінцеві результати, а не сирі експериментальні дані, а тепер, коли в «цифру» можуть бути переведені найрізноманітніші дані, коли є різноманітні цифрові носії, то об'єктом публікації можуть бути різного роду виміряні дані, причому особливого значення набуває можливість повторної обробки в libratory раніше накопичених даних. А далі складається позитивний зворотний зв'язок, за рахунок якої процес накопичення наукових даних постійно прискорюється. Саме тому, усвідомлюючи масштаб прийдешніх змін, редактор номера Nature Кліффорд Лінч запропонував для нової парадигми спеціальну назву Великі Дані, вибране ним за аналогією з такими метафорами, як Велика Рефт, Велика Руда і т. П., Що відображають не тільки кількість чогось, скільки перехід кількості в якість.

Великі Дані та бізнес

Не минуло й року, як термін Big Data потрапив на сторінки провідних бізнес-видань, в яких, однак, використовувалися вже зовсім інші метафори. Big Data порівнюють з мінеральними ресурсами - the new oil (нова нафту), goldrush (золота лихоманка), data mining (розробка даних), чим підкреслюється роль даних як джерела прихованої інформації; з природними катаклізмами - data tornado (ураган даних), data deluge (повінь даних), data tidal wave (повінь даних), вбачаючи в них загрозу; вловлюючи зв'язок з промисловим виробництвом - data exhaust (викид даних), firehose (шланг даних), Industrial Revolution (промислова революція). У бізнесі, як і в науці, великі обсяги даних теж не є щось абсолютно нове - вже давно говорили про необхідність роботи з великими обсягами даних, наприклад в зв'язку з поширенням радіочастотної ідентифікації (RFID) і соціальних мереж, і так само, як і в науці, тут не вистачало тільки яскравою метафори для визначення того, що відбувається. Ось чому в 2010 році з'явилися перші продукти, які претендують на потрапляння в категорію Big Data, - знайшлося підходяще назва для вже існуючих речей. Показово, що в версію 2011 Hype Cycle, що характеризує стан і перспективи нових технологій, аналітики Gartner ввели ще одну позицію Big Data and Extreme Information Processing and Management з оцінкою терміну масового впровадження відповідних рішень від двох до п'яти років.

Чому Великі Дані виявилися проблемою?

З моменту появи терміна Big Data пройшло вже три роки, але якщо в науці все більш-менш ясно, то місце Big Data в бізнесі залишається невизначеним, не випадково так часто говорять про «проблеми Великих Даних», причому не просто про проблему, але до всього іншого ще і погано визначеною. Нерідко проблему спрощують, інтерпретуючи зразок закону Мура, з тією лише різницею, що в даному випадку ми маємо справу з феноменом подвоєння кількості даних за рік, або гіперболізують, представляючи мало не як стихійне лихо, з яким терміново потрібно якимось способом впоратися. Даних дійсно стає все більше і більше, але при цьому не береться до уваги ту обставину, що проблема аж ніяк не зовнішня, вона викликана не стільки обрушилися в неймовірній кількості даними, скільки нездатністю старими методами впоратися з новими обсягами, і, що найголовніше, нами самими створюваними. Спостерігається дивний дисбаланс - здатність породжувати дані виявилася сильнішою, ніж здатність їх переробляти. Причина виникнення цього перекосу полягає, швидше за все, в тому, що за 65 років історії комп'ютерів ми так і не зрозуміли, що ж таке дані і як вони пов'язані з результатами обробки. Дивно, математики століттями розбираються з основними поняттями своєї науки, такими як число і системи числення, залучаючи до цього філософів, а в нашому випадку дані та інформація, аж ніяк не тривіальні речі, залишені без уваги і віддані на відкуп інтуїтивного сприйняття. Ось і вийшло, що всі ці 65 років неймовірними темпами розвивалися власне технології роботи з даними і майже не розвивалася кібернетика і теорія інформації, що залишилися на рівні 50-х років, коли лампові комп'ютери використовувалися виключно для розрахунків. Дійсно, спостерігається зараз метушня навколо Big Data при уважному викликає скептичну посмішку.

Масштабування і багаторівневе зберігання

Хмари, великі дані, аналітика - ці три фактори сучасних ІТ не тільки взаємопов'язані, але сьогодні вже не можуть існувати одне без одного. Робота з Великими Даними неможлива без хмарних сховищ і хмарних обчислень - поява хмарних технологій не тільки у вигляді ідеї, а вже в вигляді закінчених і реалізованих проектів стало спусковим гачком для запуску нового витка спіралі збільшення інтересу до аналітики Великих Даних. Якщо говорити про вплив на індустрію в цілому, то сьогодні стали очевидні зрослі вимоги до масштабування систем зберігання. Це дійсно необхідна умова - адже заздалегідь важко передбачити, для яких аналітичних процесів знадобляться ті чи інші дані і наскільки інтенсивно буде завантажено існуюче сховище. Крім цього, стають однаково важливі вимоги як по вертикальному, так і горизонтальному масштабування.

У новому поколінні своїх систем зберігання компанія Fujitsu приділила велику увагу саме аспектам масштабування і багаторівневого зберігання даних. Практика показує, що сьогодні для виконання аналітичних задач потрібно сильно завантажувати системи, однак бізнес вимагає, щоб всі сервіси, програми та самі дані завжди залишалися доступними. Крім цього, вимоги до результатів аналітичних досліджень сьогодні дуже високі - грамотно, правильно і своєчасно проведені аналітичні процеси дозволяють істотно поліпшити результати роботи бізнесу в цілому.

– Олександр Яковлєв ([Email protected]), Менеджер з маркетингу продукції Fujitsu (Москва).

Ігноруванням ролі даних і інформації, як предметів дослідження, була закладена та сама міна, яка вибухнула зараз, в момент, коли змінилися потреби, коли лічильна навантаження на комп'ютери виявилася набагато менше, ніж інші види робіт, що виконуються над даними, а мета цих дій полягає в отриманні нової інформації і нових знань з уже існуючих масивів даних. Ось чому поза відновлення зв'язків ланцюжка «дані - інформація - знання» говорити про вирішення проблеми Великих Даних безглуздо. Дані обробляються для отримання інформації, якою має бути рівно стільки, щоб людина могла перетворити її в знання.

За останні десятиліття серйозних робіт по зв'язках сирих даних з корисною інформацією не було, а то, що ми звично називаємо теорією інформації Клода Шеннона, є не чим іншим, як статистичною теорією передачі сигналів, і до інформації, яка сприймається людиною, не має ніякого відношення. Є безліч окремих публікацій, що відображають приватні точки зору, але немає повноцінної сучасної теорії інформації. В результаті переважна кількість фахівців взагалі не робить різниці між даними та інформацією. Навколо все тільки констатують, що даних багато або дуже багато, але зрілого уявлення, чого саме багато, якими шляхами слід вирішувати проблему, немає ні у кого - а все тому, що технічні можливості роботи з даними явно випередили рівень розвитку здібностей до їх використання . Тільки у одного учасника, редактора журналу Web 2.0 Journal Дайонн Хінчкліфа, є класифікація Великих Даних, що дозволяє співвіднести технології з результатом, який чекають від обробки Великих Даних, а й вона далеко не задовільна.

Хінчкліф ділить підходи до Big Data на три групи: Швидкі Дані (Fast Data), їх обсяг вимірюється терабайтами; Велика Аналітика (Big Analytics) - петабайтного дані і Глибоке Проникнення (Deep Insight) - екзабайт, зеттабайт. Групи розрізняються між собою не тільки оперованими обсягами даних, але і якістю рішення по їх обробки.

Обробка для Fast Data не припускав отримання нових знань, її результати співвідносяться з апріорними знаннями і дозволяють судити про те, як протікають ті чи інші процеси, вона дозволяє краще й детальніше побачити те, що відбувається, підтвердити або відкинути якісь гіпотези. Тільки невелика частина з існуючих зараз технологій підходить для вирішення завдань Fast Data, в цей список потрапляють деякі технології роботи зі сховищами (продукти Greenplum, Netezza, Oracle Exadata, Teradata, СУБД типу Verica і kdb). Швидкість роботи цих технологій має зростати синхронно із зростанням обсягів даних.

Завдання, які вирішуються засобами Big Analytics, помітно відрізняються, причому не тільки кількісно, \u200b\u200bале і якісно, \u200b\u200bа відповідні технології повинні допомагати в отриманні нових знань - вони служать для перетворення зафіксованої в даних інформації в нове знання. Однак на цьому середньому рівні не передбачається наявність штучного інтелекту при виборі рішень або будь-яких автономних дій аналітичної системи - вона будується за принципом «навчання з учителем». Інакше кажучи, весь її аналітичний потенціал закладається в неї в процесі навчання. Найбільш очевидний приклад - машина, яка грає в Jeopardy !. Класичними представниками такої аналітики є продукти MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache і Mahout.

Вищий рівень, Deep Insight, передбачає навчання без вчителя (unsupervised learning) і використання сучасних методів аналітики, а також різні способи візуалізації. На цьому рівні можливе виявлення знань і закономірностей, апріорно невідомих.

Аналітика Великих Даних

З плином часу комп'ютерні програми стають все ближче до реального світу у всьому його різноманітті, звідси зростання обсягів вхідних даних і звідси ж потреба в їх аналітиці, причому в режимі, максимально наближеному до реального часу. Конвергенція цих двох тенденцій привела до виникнення напряму аналітика Великих Даних (Big Data Analytics).

Перемога комп'ютера Watson стала блискучою демонстрацією можливостей Big Data Analytics - ми вступаємо в цікаву епоху, коли комп'ютер вперше використовується не стільки як інструмент для прискорення розрахунків, а як помічник, який розширює людські можливості у виборі інформації і прийнятті рішень. Здавалися утопічними задуми Ванневара Буша, Джозефа Ліклайдера і Дага Енгельбарта починають збуватися, але відбувається це не зовсім так, як це бачилося десятки років назад - сила комп'ютера не в перевазі над людиною по логічним можливостям, на що особливо сподівалися вчені, а в істотно більшою здатності обробляти гігантські обсяги даних. Щось подібне було в протиборстві Гаррі Каспарова з Deep Blue, комп'ютер не був більш майстерним гравцем, але він міг швидше перебирати більшу кількість варіантів.

Гігантські обсяги в поєднанні з високою швидкістю, що відрізняють Big Data Analytics від інших додатків, вимагають відповідних комп'ютерів, і сьогодні практично всі основні виробники пропонують спеціалізовані програмно-апаратні системи: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine і Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform на базі HP Converged Infrastructure. Крім цього в гру вступило безліч невеликих і початківців компаній: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Зворотній зв'язок

Якісно нові додатки Big Data Analytics вимагають для себе не тільки нових технологій, а й якісного іншого рівня системного мислення, а ось з цим спостерігаються труднощі - розробники рішень Big Data Analytics часто заново відкривають істини, відомі з 50-х років. В результаті нерідко аналітика розглядається у відриві від засобів підготовки вихідних даних, візуалізації та інших технологій надання результатів людині. Навіть така поважна організація, як The Data Warehousing Institute, розглядає аналітику в відриві від всього іншого: за її даними, вже зараз 38% підприємств досліджують можливість використання Advanced Analytics в практиці управління, а ще 50% мають намір зробити це протягом найближчих трьох років. Такий інтерес обґрунтовується приведенням безлічі аргументів з бізнесу, хоча можна сказати і простіше - підприємствам в нових умовах потрібно більш досконала система управління, і починати її створення треба з встановлення зворотного зв'язку, тобто з системи, що допомагає в прийнятті рішень, а в майбутньому, може бути, вдасться автоматизувати і власне прийняття рішень. Дивно, але все сказане укладається в методику створення автоматизованих систем управління технологічними об'єктами, відому з 60-х років.

Нові засоби для аналізу потрібні тому, що даних стає не просто більше, ніж раніше, а більше їх зовнішніх і внутрішніх джерел, тепер вони складніше і різноманітніше (структуровані, неструктуровані та квазіструктурірованние), використовуються різні схеми індексації (реляційні, багатовимірні, noSQL). Колишніми способами впоратися з даними вже неможливо - Big Data Analytics поширюється на великі і складні масиви, тому ще використовують терміни Discovery Analytics (відкриває аналітика) і Exploratory Analytics (пояснює аналітика). Як не називати, суть одна - зворотний зв'язок, що постачає в прийнятному вигляді осіб, котрі приймають рішення, відомостями про різного роду процесах.

компоненти

Для збору сирих даних використовуються відповідні апаратні і програмні технології, які саме - залежить від природи об'єкта управління (RFID, відомості з соціальних мереж, різноманітні текстові документи і т. П.). Ці дані надходять на вхід аналітичної машини (регулятора в колі зворотного зв'язку, якщо продовжувати аналогію з кібернетикою). Цей регулятор базується на програмно-апаратній платформі, на якій працює власне аналітичне ПЗ, він не забезпечує вироблення управляючих впливів, достатніх для автоматичного управління, тому в контур включаються вчені за даними (data scientist) або інженери в області даних. Їх функцію можна порівняти з тією роллю, яку відіграють, наприклад, фахівці в області електротехніки, що використовують знання з фізики в додатку до створення електричних машин. Завдання інженерів полягає в управлінні процесом перетворення даних в інформацію, яка використовується для прийняття рішень, - вони-то і замикають ланцюжок зворотного зв'язку. З чотирьох компонентів Big Data Analytics в даному випадку нас цікавить тільки один - програмно-апаратна платформа (системи цього типу називають Analytic Appliance або Data Warehouse Appliance).

Протягом ряду років єдиним виробником аналітичних спеціалізованих машин була Teradata, але не вона була першою - ще в кінці 70-х років тодішній лідер британської комп'ютерної індустрії компанія ICL зробила не надто вдалу спробу створити контентно-адресується сховище (Content-Addressable Data Store), в основі якого була СУБД IDMS. Але першою створити «машину баз даних» вдалося компанії Britton-Lee в 1983 році на базі мультипроцессорной конфігурації процесорів сімейства Zilog Z80. В подальшому Britton-Lee була куплена Teradata, з 1984 року випускала комп'ютери MPP-архітектури для систем підтримки прийняття рішень і сховищ даних. А першим представником нового покоління постачальників подібних комплексів стала компанія Netezza - в її вирішенні Netezza Performance Server використовувалися стандартні сервери-леза разом зі спеціалізованими лезами Snippet Processing Unit.

Аналітика в СУБД

Аналітика тут - перш за все прогнозна, або предиктивна (Predictive Analysis, РА). У більшості існуючих реалізацій вихідними для систем РА є дані, раніше накопичені в сховищах даних. Для аналізу дані спочатку переміщують в проміжні вітрини (Independent Data Mart, IDM), де уявлення даних не залежить від використовують їх програм, а потім ті ж дані переносяться в спеціалізовані аналітичні вітрини (Аnalytical Data Mart, ADM), і вже з ними працюють фахівці , застосовуючи різні інструменти розробки, або видобутку даних (Data Mining). Така багатоступенева модель цілком прийнятна для відносно невеликих обсягів даних, але при їх збільшенні та при підвищенні вимог до оперативності в такого роду моделях виявляється ряд недоліків. Крім необхідності в переміщенні даних існування безлічі незалежних ADM призводить до ускладнення фізичної і логічної інфраструктури, розростається кількостей використовуваних інструментів моделювання, отримані різними аналітиками результати виявляються неузгоджені, далеко не оптимально використовуються обчислювальні потужності і канали. Крім того, роздільне існування сховищ і ADM робить практично неможливою аналітику в часі, наближеному до реального.

Виходом може бути підхід, який отримав назву In-Database Analytics або No-Copy Analytics, який передбачає використання для цілей аналітики даних, які безпосередньо є в базі. Такі СУБД іноді називають аналітичними і паралельними. Підхід став особливо привабливий з появою технологій MapReduce і Hadoop. У нових програмах покоління класу In-Database Analytics всі види розробки даних та інші види інтенсивної роботи виконуються безпосередньо над даними, що знаходяться в сховищі. Очевидно, що це помітно прискорює процеси і дозволяє виконувати в реальному часі такі додатки, як розпізнавання образів, кластеризація, регресійний аналіз, різного роду прогнозування. Прискорення досягається не тільки за рахунок позбавлення від переміщень зі сховища в вітрини, але головним чином за рахунок використання різних методів розпаралелювання, в тому числі кластерних систем з необмеженою масштабуванням. Рішення типу In-Database Analytics відкривають можливість для використання хмарних технологій в додатку до аналітики. Наступним кроком може стати технологія SAP HANA (High Performance Analytic Appliance), суть якої в розміщенні даних для аналізу в оперативній пам'яті.

Основні постачальники ...

До 2010 року основними постачальниками ПО для In-Database Analytics були компанії Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL) , Oracle (Oracle Database 11g / 10g, Oracle Exadata), SenSage (SenSage / columnar), Sybase (Sybase IQ), Teradata і Vertica Systems (Vertica Analytic Database). Все це добре відомі компанії, за винятком стартапу з Кремнієвої долини SenSage. Продукти помітно різняться по типу даних, з якими вони можуть працювати, за функціональними можливостями, інтерфейсів, за вживаним аналітичного ПО і по їх здатності працювати в хмарах. Лідером по зрілості рішень є Teradata, а по авангардності - Aster Data. Список постачальників аналітичного ПО коротше - в локальних змінах можуть працювати продукти компаній KXEN, SAS, SPSS та TIBCO, а в хмарах - Amazon, Cascading, Google, Yahoo! і Сloudera.

Рік 2010-й став поворотним в області предиктивної аналітики, яке можна порівняти з 2007 роком, коли IBM придбала Cognos, SAP - Business Object, а Oracle - Hyperion. Все почалося з того, що EMC придбала Greenplum, потім IBM - Netezza, HP - Vertica, Teradata купила Aster Data і SAP купила Sybase.

... і нові можливості

Аналітична парадигма відкриває принципово нові можливості, що успішно довели два інженера з Кельна, які створили компанію ParStream (офіційне ім'я empulse GmbH). Удвох їм вдалося створити аналітичну платформу на базі процесорів як універсальних, так і графічних процесорів, конкурентну з попередниками. Чотири роки тому Міхаель Хюммепль і Джорг Бінерт, які працювали раніше в Accenture, отримали замовлення від німецької туристичної фірми, Якій для формування турів була потрібна система, здатна за 100 мілісекунд вибирати запис, що містить 20 параметрів, в базі з 6 млрд записів. Жодне з існуючих рішень з таким завданням впоратися не може, хоча з аналогічними проблемами стикаються всюди, де потрібно оперативний аналіз вмісту дуже великих баз даних. Компанія ParStream народилася з передумови застосування технологій високопродуктивних обчислень до Big Data Analytics. Хюммепль і Бінерт почали з того, що написали власне ядро \u200b\u200bСУБД, розраховане для роботи на кластері x86-архітектури, що підтримує операції з даними у вигляді паралельних потоків, звідси і назва ParStream. Вони обрали в якості вихідної установки роботу тільки зі структурованими даними, що власне і відкриває можливість для відносно простого розпаралелювання. За своїм задумом ця база даних ближче до нового проекту Google Dremel, ніж до MapReduce або Hadoop, які не адаптовані до запитів в реальному часі. Почавши з платформи x86 / Linux, Хюммепль і Бінерт незабаром переконалися, що їхня база даних може підтримуватися і графічні процесори nVidia Fermi.

Big Data і Data Processing

Щоб зрозуміти, чого ж слід очікувати від того, що назвали Big Data, слід вийти за межі сучасного вузького «айтішной» світогляду і спробувати побачити те, що відбувається в більш широкої історико-технологічної ретроспективі, наприклад спробувати знайти аналогії з технологіями, що мають більш тривалу історію. Адже, назвавши предмет нашої діяльності технологією, треба і ставитися до нього як до технології. Практично всі відомі матеріальні технології зводяться до переробки, обробки або у роботі специфічного для них вихідної сировини або якихось інших компонентів з метою отримання якісно нових продуктів - щось є на вході технологічного процесу і щось на виході.

особливість нематеріальних інформаційні технології полягає в тому, що тут не настільки очевидна технологічний ланцюжок, не ясно, що є сировиною, що результатом, що надходить на вхід і що виходить на виході. Найпростіше сказати, що на вході сирі дані, а на виході корисна інформація. В цілому майже вірно, однак зв'язок між цими двома сутностями надзвичайно складна; якщо ж залишитися на рівні здорової прагматики, то можна обмежитися такими міркуваннями. Дані - це виражені в різній формі сирі факти, які самі по собі не несуть корисного сенсу до тих пір, поки не поставлені в контекст, належним чином не організовані і не впорядковані в процесі обробки. Інформація з'являється в результаті аналізу оброблених даних людиною, цей аналіз надає даним сенс і забезпечує їм споживчі якостей. Дані - це неорганізовані факти, які необхідно перетворювати в інформацію. До останнього часу уявлення про обробці даних(Data processing) зводилися до органічного колі алгоритмічних, логічних або статистичних операцій над відносно невеликими обсягами даних. Однак у міру зближення комп'ютерних технологій з реальним світом зростає потреба перетворень даних з реального світу в інформацію про реальний світ, оброблюваних даних стає більше, і вимоги до швидкості обробки зростають.

Логічно інформаційні технології мало чим відрізняються від матеріальних технологій, на вході сирі дані, на виході - структуровані, в формі, більш зручною для сприйняття людиною, вилучення з них інформації і силою інтелекту перетворення інформації в корисне знання. Комп'ютери назвали комп'ютерами за їх здатність рахувати, згадаємо перший додаток для ENIAC - обробка даних стрільби з гвинтівок і перетворення їх в артилерійські таблиці. Тобто комп'ютер переробляв сирі дані, витягував корисні і записував їх у формі, прийнятною для використання. Перед нами не що інше, як звичайний технологічний процес. Взагалі кажучи, замість прищепити терміна Information Technology варто було б частіше вживати більш точний Data Processing.

На інформаційні технології повинні поширюватися загальні закономірності, в згоді з якими розвиваються всі інші технології, а це перш за все збільшення кількості сировини, що переробляється і підвищення якості переробки. Так відбувається скрізь, незалежно від того, що саме служить сировиною, а що результатом, будь то металургія, нафтохімія, біотехнології, напівпровідникові технології і т. Д. Спільним є ще й те, що жодне з технологічних напрямків не розвивається монотонно, рано чи пізно виникають моменти прискореного розвитку, скачки. Швидкі переходи можуть відбуватися в тих випадках, коли зовні виникає потреба, а всередині технологій є здатність її задовольнити. Комп'ютери не можна було будувати на вакуумних лампах - і з'явилися напівпровідники, автомобілям потрібно багато бензину - відкрили крекінг-процес, і таких прикладів безліч. Таким чином, під ім'ям Big Data ховається намічається якісний перехід в комп'ютерних технологіях, здатний спричинити за собою серйозні зміни, не випадково його називають новою промисловою революцією. Big Data - чергова технічна революція з усіма витікаючими наслідками.

Перший досвід в Data Processing датується IV тисячоліттям до нашої ери, коли з'явилося піктографічне письмо. З тих пір склалося кілька основних напрямків роботи з даними, найпотужнішим було і залишається текстове, від перших глиняних табличок до SSD, від бібліотек середини першого тисячоліття до нашої ери до сучасних бібліотек, потім з'явилися різного роду математичні чисельні методи від папірусу з доведенням теореми Піфагора і табличних прийомів спрощення розрахунків до сучасних комп'ютерів. У міру розвитку суспільства стали збиратися різного роду табличні дані, автоматизація роботи з якими почалася з табуляторов, а в XIX та ХХ столітті було запропоновано безліч нових методів створення та накопичення даних. Необхідність роботи з великими обсягами даних розуміли давно, але не було коштів, звідси утопічні проекти типу «Лібраріума» Поля Отле, або фантастична система для прогнозування погоди з використанням праці 60 тис. Людей-розраховувачів.

Сьогодні комп'ютер перетворився в універсальний інструмент для роботи з даними, хоча замислювався він тільки лише для автоматизації розрахунків. Ідея застосувати комп'ютер для Data Processing зародилася в IBM через десять років після винаходу цифрових програмованих комп'ютерів, а до цього для обробки даних використовувалися перфораторні пристрої типу Unit Record, винайдені Германом Холлеритом. Їх називали Unit Record, тобто одинична запис - кожна карта містила всю запис, що відноситься до якогось одного об'єкту. Перші комп'ютери не вміли працювати з Великими Даними - лише з появою накопичувачів на дисках і стрічках вони змогли скласти конкуренцію машино-рахункових станцій, що проіснував до кінця 60-х років. До речі, в реляційних базах даних явно простежується спадщина Unit Record.

Простота - запорука успіху

Зростання обсягів сирих даних разом з необхідністю їх аналізу в режимі реального часу вимагають створення та впровадження інструментів, що дозволяють ефективно вирішувати так звану задачу Big Data Analytics. Технології компанії Information Builders дозволяють працювати з даними, що надходять з будь-яких джерел в режимі реального часу, завдяки безлічі різних адаптерів і архітектурі Enterprise Service Bus. Інструмент WebFOCUS дозволяє аналізувати дані «на льоту» і дає можливість візуалізувати результати кращим для користувача способом.

Грунтуючись на технології RSTAT, компанія Information Builders створила продукт для предиктивної аналітики, що дозволяє проводити сценарне прогнозування: «Що буде, якщо» і «Що необхідно для».

Технології бізнес-аналітики прийшли і до Росії, проте лише небагато російські компанії використовують саме предіктивне аналіз, що викликано низькою культурою використання бізнес-аналітики на вітчизняних підприємствах і складністю сприйняття існуючих методів аналізу бізнес-користувачем. З огляду на це, компанія Information Builders пропонує сьогодні продукти, які аналітиками Gartner оцінюються як найпростіші у використанні.

– Михайло Строєв([Email protected]), Директор з розвитку бізнесу в Росії та СНД InfoBuild CIS (Москва).

дані всюди

У міру поступового перетворення комп'ютерів з рахункових пристроїв в універсальні машини для обробки даних, приблизно після 1970 року, стали з'являтися нові терміни: дані як продукти (data product); інструменти для роботи з даними (data tool); додатки, що реалізуються за допомогою відповідної організації (data application); наука про дані (data science); вчені, що працюють з даними (data scientist), і навіть журналісти, які доносять відомості, що містяться в даних, до широкого загалу (data journalist).

Великого поширення сьогодні отримали додатки класу data application, які не просто виконують операції над даними, а витягають з них додаткові цінності і створюють продукти у вигляді даних. До числа перших додатків цього типу відноситься база аудіодисків CDDB, яка на відміну від традиційних баз даних створена шляхом екстрагування даних з дисків і поєднання їх з метаданими (назви дисків, треків і т. П.). Ця база лежить в основі сервісу Apple iTunes. Одним з факторів комерційного успіху Google також стало усвідомлення ролі data application - володіння даними дозволяє цій компанії багато «знати», використовуючи дані, що лежать поза шуканої сторінки (алгоритм PageRank). У Google досить просто вирішена проблема коректності правопису - для цього створена база даних помилок і виправлень, а користувачеві пропонуються виправлення, які він може прийняти або відхилити. Аналогічний підхід застосовується і для розпізнавання при мовному введенні - в його основі накопичені звукові дані.

У 2009 році під час спалаху свинячого грипу аналіз запитів до пошукових машин дозволив простежити процес поширення епідемії. По дорозі Google пішли багато компаній (Facebook, LinkedIn, Amazon і ін.), Не тільки надають послуги, але і використовують накопичені дані в інших цілях. Можливість обробляти дані такого типу дала поштовх до появи ще однієї науки про населення - citizen science. Результати, отримані шляхом всебічного аналізу даних про населення, дозволяють отримати набагато глибші знання про людей і приймати більш обґрунтовані адміністративні і комерційні рішення. Сукупність даних і засобів роботи з ними зараз називають infoware.

Машина для Великих Даних

Сховища даних, інтернет-магазини, біллінгові системи або будь-яка інша платформа, яку можна віднести до проектів Великих Даних, зазвичай володіє унікальною специфікою, і при її проектуванні головним є інтеграція з промисловими даними, забезпечення процесів накопичення даних, їх організації та аналітики.

Компанія Oracle надала інтегроване рішення Oracle Big Data Appliance підтримки ланцюжка обробки Великих Даних, що складається з оптимізованого обладнання з повним стеком програмного забезпечення і 18 серверів Sun X4270 M2. Межсоединение будується на базі Infiniband 40 Гбіт / с і 10-Gigabit Ethernet. Oracle Big Data Appliance включає в себе комбінацію як відкритого, так і спеціалізованого ПЗ від Oracle.

Сховища типу ключ-значення або NoSQL СУБД визнані сьогодні основними для світу Великих Даних і оптимізовані для швидкого накопичення даних і доступу до них. В якості такої СУБД для Oracle Big Data Appliance використовується СУБД на базі Oracle Berkley DB, що зберігає інформацію про топології системи зберігання, що розподіляє дані і розуміє, де можуть бути розміщені дані з найменшими тимчасовими витратами.

Рішення Oracle Loader for Hadoop дозволяє за допомогою технології MapReduce створювати оптимізовані набори даних для їх завантаження і аналізу в СУБД Oracle 11g. Дані генеруються в «рідному» форматі СУБД Oracle, що дозволяє мінімізувати використання системних ресурсів. Обробка відформатованих даних здійснюється на кластері, а потім дані можуть бути доступні з робочих місць користувачів традиційної РСУБД за допомогою стандартних команд SQL або коштів бізнес-аналітики. Інтеграція даних Hadoop і Oracle СУБД здійснюється за допомогою рішення Oracle Data Integrator.

Oracle Big Data Appliance поставляється з відкритим дистрибутивом Apache Hadoop, включаючи файлову систему HDFS і інші компоненти, відкритим дистрибутивом статистичного пакета R для аналізу сирих даних і системою Oracle Enterprise Linux 5.6. Підприємства, які вже використовують Hadoop, можуть інтегрувати дані, розміщені на HDFS в СУБД Oracle за допомогою функціоналу зовнішніх таблиць, причому немає необхідності відразу завантажувати дані в СУБД - зовнішні дані можуть бути використані в зв'язці з внутрішніми даними бази Oracle за допомогою команд SQL.

Підключення між Oracle Big Data Appliance і Oracle Exadata через Infiniband забезпечує високошвидкісну передачу даних для пакетної обробки або SQL-запитів. Oracle Exadata забезпечує необхідну продуктивність як для сховищ даних, так і для додатків оперативної обробки транзакцій.

Новий продукт Oracle Exalytics може бути використаний для вирішення завдань бізнес-аналітики, оптимізований для використання Oracle Business Intelligence Enterprise Edition з обробкою в оперативній пам'яті.

– Володимир Демкин ([Email protected]), Провідний консультант з напрямку Oracle Exadata компанії Oracle СНД (Москва).

Наука і фахівці

Автор доповіді «Що таке наука про дані?» (What is Data Science?), Що вийшов в серії O'Reilly Radar Report, Майк Лукідіс написав: «Майбутнє належить компаніям і людям, здатним перетворити дані в продукти». Це висловлювання мимоволі викликає в пам'яті відомі слова Ротшильда «Хто володіє інформацією - той володіє світом», сказані ним, коли він раніше за інших дізнався про поразку Наполеона при Ватерлоо і провернув аферу з цінними паперами. Сьогодні цей афоризм варто перефразувати: «Миром володіє той, хто володіє даними і технологіями їх аналізу». Що жив трохи пізніше Карл Маркс показав, що промислова революція розділила людей на дві групи - на володіють засобами виробництва і тих, хто працює на них. У загальних рисах зараз відбувається щось подібне, але тепер предметом володіння і поділу функцій не є засоби виробництва матеріальних цінностей, а засоби виробництва даних і інформації. І ось тут-то і виникають проблеми - виявляється, володіти даними набагато складніше, ніж володіти матеріальними активами, перші досить просто тиражуються і ймовірність їх розкрадання набагато вище, ніж крадіжки матеріальних предметів. Крім того, існують легальні прийоми розвідки - при наявності достатнього обсягу і відповідних аналітичних методів можна «вирахувати» те, що приховано. Ось чому зараз така увага приділяється аналітиці Великих Даних Big Data Analytics (див. Врізку) і засобам захисту від неї.

Різні види діяльності з даними, і перш за все володіння методами добування інформації, називають наукою про дані (data science), що, в усякому разі в перекладі на російську, кілька дезорієнтує, оскільки швидше за відноситься не до деякої нової академічної науки, а до міждисциплінарного набору знань і навичок, необхідних для отримання знань. Склад подібного набору значною мірою залежить від області, але можна виділити більш-менш узагальнені кваліфікаційні вимоги до фахівців, яких називають data scientist. Найкраще це вдалося зробити Дрю Конвей, який в минулому займався аналізом даних про терористичні загрози в одній зі спецслужб США. Основні тези його дисертації опубліковані в щоквартальному журналі IQT Quarterly, який видавав компанією In-Q-Tel, яка виконує посередницьку функцію між ЦРУ США і науковими організаціями.

Свою модель Конвей зобразив у вигляді діаграми Венна (див. Малюнок), що представляє три області знання і умінь, якими потрібно володіти і мати, щоб стати фахівцем за даними. Хакерські навички не слід розуміти як злочинні дії, в даному випадку так названо поєднання володіння певним інструментарієм з особливим аналітичним складом розуму, як у Еркюля Пуаро, або, можливо, цю здатність можна назвати дедуктивним методом Шерлока Холмса. На відміну від великих сищиків потрібно ще бути експертом в ряді математичних напрямків і розуміти предмет. Машинне навчання утворюється на перетині перших двох областей, на перетині другого і третього - традиційні методи. Третя зона перетину небезпечна спекулятивні, без математичних методів не може бути об'єктивного бачення. На перетині всіх трьох зон лежить наука про дані.

Діаграма Конвея дає спрощену картину; по-перше, на перетині хакерського і математичного кіл лежить не тільки машинне навчання, по-друге, розмір останнього кола набагато більше, сьогодні він включає безліч дисциплін і технологій. Машинним навчанням називають тільки одну з областей штучного інтелекту, пов'язану з побудовою алгоритмів, здатних до навчання, вона ділиться на дві підобласті: прецедентне, або індуктивне навчання, що виявляє приховані закономірності в даних, і дедуктивний, націлене на формалізацію експертних знань. Ще машинне навчання ділиться на навчання з учителем (Supervised Learning), коли вивчаються методи класифікації, засновані на заздалегідь підготовлених тренувальних наборах даних, і без вчителя (Unsupervised Learning), коли внутрішні закономірності шукаються за допомогою кластерного аналізу.

Отже, Big Data - це не спекулятивні міркування, а символ наздоганяє технічної революції. Необхідність в аналітичній роботі з великими даними помітно змінить обличчя ІТ-індустрії і стимулює появу нових програмних і апаратних платформ. Уже сьогодні для аналізу великих обсягів даних застосовуються самі передові методи: штучні нейронні мережі - моделі, побудовані за принципом організації та функціонування біологічних нейронних мереж; методи предиктивної аналітики, статистики та Natural Language Processing (напрямки штучного інтелекту і математичної лінгвістики, який вивчає проблеми комп'ютерного аналізу і синтезу природних мов). Використовуються також і методи, які залучають людей-експертів, або краудсорсінг, А / В тестування, сентимент-аналіз та ін. Для візуалізації результатів застосовуються відомі методи, наприклад хмари тегів і зовсім нові Clustergram, History Flow і Spatial Information Flow.

З боку технологій Великих Даних підтримуються розподіленими файловими системами Google File System, Cassandra, HBase, Lustre і ZFS, програмними конструкціями MapReduce і Hadoop і безліччю інших рішень. За оцінками експертів, наприклад McKinsey Institute, під впливом Великих Даних найбільшою трансформації піддасться сфера виробництва, охорони здоров'я, торгівлі, адміністративного управління та контролю над індивідуальними переміщеннями.

Ви ж знаєте цю відому жарт? Big Data - це як секс до 18:

всі про це думають;
всі про це говорять;
всі думають, що їхні друзі це роблять;
майже ніхто цього не робить;
той, хто це робить, робить це погано;
всі думають, що в наступний раз краще вийде;
ніхто не вживає заходів безпеки;
будь-якого соромно зізнатися в тому, що він чогось не знає;
якщо у кого-то что-то виходить, від цього завжди багато шуму.

Але давайте відверто, з будь-якої галасом поруч завжди буде йти звичайна цікавість: що за сир-бор і чи є там щось дійсно важливе? Якщо коротко - так, є. Подробиці - нижче. Ми відібрали для вас найдивовижніші і цікаві застосування технологій Big Data. Це невелике дослідження ринку на зрозумілих прикладах зіштовхує з простим фактом: майбутнє не настає, не потрібно «почекати ще n років і чарівництво стане реальністю». Ні, воно вже прийшло, але все ще непомітно оку і тому Припекание сингулярності ще не обпалює відому точку ринку праці так сильно. Поїхали.

1 Як застосовуються технології Big Data там, де вони зародилися

Великі IT компанії - то місце, де зародилася наука про дані, тому їх внутрішня кухня в цій області найцікавіше. Кампанія Google, батьківщина парадигми Map Reduce,, єдиною метою якого є навчання своїх програмістів технологій машинного навчання. І в цьому криється їхня конкурентна перевага: після отримання нових знань, співробітники будуть впроваджувати нові методи в тих проектах Google, де вони постійно працюють. Уявіть собі, наскільки величезний список сфер, в яких кампанія може зробити революцію. Один із прикладів: нейронні мережі використовуються.

Корпорація і впроваджує машинне навчання в усі свої продукти. Її перевага - наявність великої екосистеми, в яку входять всі цифрові пристрої, що використовуються в повсякденному житті. Це дозволяє Apple досягати неможливого рівня: у кампанії є стільки даних про користувачів, скільки немає ні у будь-якої іншої. При цьому, політика конфіденційності дуже сувора: корпорація завжди хвалилася тим, що не використовує даних клієнтів в рекламних цілях. Відповідно, інформація користувачів шифрується так, що юристи Apple або навіть ФБР з ордером не зможуть її прочитати. За ви знайдете великий огляд розробок Apple в сфері ІІ.

2 Великі Дані на 4 колесах

Сучасний автомобіль - накопичувач інформації: він акумулює всі дані про водія, навколишньому середовищу, підключених пристроях і про себе самого. Вже скоро один транспортний засіб, який підключено до мережі на кшталт тієї, що, буде генерувати до 25 Гб даних за годину.

Транспортна телематика використовується автовиробниками протягом багатьох років, але зараз лобіюється складніший метод збору даних, який в повній мірі задіє Big Data. А це означає, що тепер технології можуть оповістити водія про поганих дорожніх умовах шляхом автоматичної активації антиблокувальної гальмівної і пробуксовочная системи.

Інші концерни, включаючи BMW, використовують технології Большіx Даних в поєднанні з відомостями, зібраними з тестованих прототипів, вбудованої в автомобілі системою «пам'яті помилок» і клієнтськими скаргами, щоб на ранній стадії виробництва визначити слабкі місця моделі. Тепер замість ручної оцінки даних, яка займає місяці, застосовується сучасний алгоритм. Помилки і витрати на їх усунення зменшуються, що дозволяє прискорити робочі процеси аналізу інформації в BMW.

Згідно з експертними оцінками, до 2019 року оборот ринку підключених в єдину мережу автомобілі, досягне $ 130 млрд. Це не дивно, якщо враховувати темпи інтеграції автовиробниками технологій, які є невід'ємною частиною транспортного засобу.

Використання Великих Даних допомагає зробити машину більш безпечною і функціональною. Так, компанія Toyota шляхом вбудовування інформаційних комунікаційних модулів (DCM). Цей інструмент, який використовується для Великих Даних, обробляє і аналізує дані, зібрані DCM, щоб в подальшому отримувати від них користь.

3 Застосування Великих Даних в медицині

Реалізація технологій Big Data в медичній сфері дозволяє лікарям більш ретельно вивчити хвороба і вибрати ефективний курс лікування для конкретного випадку. Завдяки аналізу інформації, медпрацівникам легшає передбачати рецидиви і вживати превентивних заходів. Як результат - більш точна постановка діагнозу і вдосконалені методи лікування.

Нова методика дозволила поглянути на проблеми пацієнтів з іншого боку, що призвело до відкриття раніше невідомих джерел проблеми. Наприклад, деякі раси генетично більш схильні до захворювань серця, ніж представники інших етнічних груп. Тепер, коли пацієнт скаржиться на певне захворювання, лікарі беруть до уваги дані про представників його раси, які скаржилися на таку ж проблему. Збір і аналіз даних дозволяє дізнаватися про хворих набагато більше: від переваг в їжі і стилю життя до генетичної структури ДНК і метаболітах клітин, тканин, органів. Так, Центр дитячої геномної медицини в Канзас-Сіті використовує пацієнтів і аналізу мутацій генетичного коду, які викликають рак. Індивідуальний підхід до кожного пацієнта з урахуванням його ДНК підніме ефективність лікування на якісно інший рівень.

З розуміння того, як використовуються Великі Дані, випливає перше і дуже важливе зміна в медичній сфері. Коли пацієнт проходить курс лікування, лікарня або інше закладами охорони здоров'я може отримати багато важливої \u200b\u200bінформації про людину. Зібрані відомості використовуються для прогнозування рецидивів захворювань з певним ступенем точності. Наприклад, якщо пацієнт переніс інсульт, лікарі вивчають відомості про час порушення мозкового кровообігу, аналізують проміжний період між попередніми прецедентами (в разі виникнення таких), звертаючи особливу увагу на стресові ситуації і важкі фізичні навантаження в життя хворого. На підставі цих даних, лікарні видають пацієнтові чіткий план дій, щоб запобігти можливості інсульту в майбутньому.

Свою роль відіграють і носяться пристрої, які допомагають виявляти проблеми зі здоров'ям, навіть якщо у людини немає явних симптомів тієї чи іншої хвороби. Замість того щоб оцінювати стан пацієнта шляхом тривалого курсу обстежень, лікар може робити висновки на підставі зібраної фітнес-трекером або «розумними» годинами інформації.

Один з останніх прикладів -. У той час як пацієнт проходив обстеження через нового нападу судоми, викликаного пропущеним прийомом ліків, лікарі виявили, що чоловік має куди більш серйозну проблему зі здоров'ям. Цією проблемою виявилася фібриляція передсердь. Діагноз вдалося поставити завдяки тому, що співробітники відділення отримали доступ до телефону пацієнта, а саме до додатка, пов'язаному з його фітнес-трекером. Дані з додатка виявилися ключовим фактором у визначенні діагнозу, адже на момент обстеження у чоловіка ніяких серцевих відхилень виявлено не було.

Це лише один з небагатьох випадків, який показує, чому використання Великих Даних в медичній сфері сьогодні грає таку значущу роль.

4 Аналіз даних вже став стрижнем роздрібної торгівлі

Розуміння призначених для користувача запитів і таргетинг - одна з найбільших і максимально освітлених широкому загалу областей застосування інструментів Big Data. Великі Дані допомагають аналізувати клієнтські звички, щоб в подальшому краще розуміти запити споживачів. Компанії прагнуть розширити традиційний набір даних інформацією з соціальних мереж і історією пошуку браузера з метою формування максимально повної клієнтської картини. Іноді великі організації як глобальна мета вибирають створення власної предсказательной моделі.

Наприклад, мережі магазинів Target за допомогою глибинного аналізу даних і власної системи прогнозування вдається з високою точністю визначити -. За кожним клієнтом закріплюється ID, який в свою чергу прив'язаний до кредитці, імені або по електронній пошті. Ідентифікатор служить своєрідною кошиком покупок, де зберігається інформація про все, що коли-небудь людина придбала. Фахівцями мережі встановлено, що жінки в положенні активно набувають неароматизовані кошти перед другим триместром вагітності, а протягом перших 20 тижнів налягають на кальцієві, цинкові і магнієві добавки. На підставі отриманих даних Target відправляє купони на дитячі товари клієнтам. Самі ж знижки на товари для дітей «розбавляються» купонами на інші продукти, щоб пропозиції купити ліжечко або пелюшки не виглядали занадто нав'язливими.

Навіть урядові відомства знайшли спосіб, як використовувати технології Big Data для оптимізації виборчих кампаній. Деякі вважають, що перемога Б. Обами на президентських виборах США в 2012 році обумовлена \u200b\u200bчудовою роботою його команди аналітиків, які обробляли величезні масиви даних в правильному ключі.

5 Великі Дані на сторожі закону і порядку

За останні кілька років правоохоронним структурам вдалося з'ясувати, як і коли використовувати Великі Дані. Загальновідомим фактом є те, що Агентство національної безпеки застосовує технології Великих Даних, щоб запобігти терористичним актам. Інші відомства задіють прогресивну методологію, щоб запобігати більш дрібні злочини.

Департамент поліції Лос-Анджелеса застосовує. Вона займається тим, що зазвичай називають проактивного охороною правопорядку. Використовуючи звіти про злочини за певний період часу, алгоритм визначає райони, де ймовірність скоєння правопорушень є найбільшою. Система відзначає такі ділянки на карті міста невеликими червоними квадратами і ці дані тут же передаються в патрульні машини.

копи Чикаго використовують технології Великих Даних трохи іншим чином. У охоронців правопорядку з Міста вітрів також, але він спрямований на окреслення «кола ризику», що складається з людей, які можуть виявитися жертвою або учасником збройного нападу. За інформацією газети The New York Times, даний алгоритм привласнює людині оцінку вразливості на підставі його кримінальне минуле (арешти і участь в перестрілках, приналежність до злочинних угрупувань). Розробник системи запевняє, що в той час як система вивчає кримінальне минуле особистості, вона не враховує другорядних факторів на кшталт раси, статі, етнічної приналежності та місця розташування людини.

6 Як технології Big Data допомагають розвиватися містам

Генеральний директор Veniam Жоао Баррос демонструє карту відстеження Wi-Fi-роутерів в автобусах міста Порту

Аналіз даних також застосовується для поліпшення ряду аспектів життєдіяльності міст і країн. Наприклад, знаючи точно, як і коли використовувати технології Big Data, можна оптимізувати потоки транспорту. Для цього береться в розрахунок пересування автомобілів в режимі онлайн, аналізуються соціальні медіа та метеорологічні дані. Сьогодні ряд міст взяв курс на використання аналізу даних з метою об'єднання транспортної інфраструктури з іншими видами комунальних послуг в єдине ціле. Це концепція «розумного» міста, в якому автобуси чекають спізнюється поїзд, а світлофори здатні прогнозувати завантаженість на дорогах, щоб мінімізувати пробки.

На основі технологій Великих Даних в місті Лонг-Біч працюють «розумні» лічильники води, які використовуються для припинення незаконного поливу. Раніше вони застосовувалися з метою скорочення споживання води приватними домоволодіннями (максимальний результат - скорочення на 80%). Економія прісної води - питання актуальне завжди. Особливо, коли держава переживає найсильнішу посуху, яка коли-небудь була зафіксована.

До переліку тих, хто використовує Big Data, приєдналися представники Департаменту транспорту міста Лос-Анджелеса. На підставі даних, отриманих від датчиків дорожніх камер, влади здійснюють контроль роботи світлофорів, що в свою чергу дозволяє регулювати трафік. Під управлінням комп'ютеризованої системи знаходиться близько 4 500 тисяч світлофорів по всьому місту. Згідно з офіційними даними, новий алгоритм допоміг зменшити затори на 16%.

7 Двигун прогресу в сфері маркетингу і продажів

У маркетингу інструменти Big Data дозволяють виявити, просування яких ідей на тому чи іншому етапі циклу продажів є найбільш ефективним. За допомогою аналізу даних визначається, як інвестиції здатні поліпшити систему управління взаємовідносинами з клієнтами, яку стратегію слід вибрати для підвищення коефіцієнта конверсії і як оптимізувати життєвий цикл клієнта. У бізнесі, пов'язаному з хмарними технологіями, алгоритми Великих Даних застосовують для з'ясування того, як мінімізувати ціну залучення клієнта і збільшити його життєвий цикл.

Диференціація стратегій ціноутворення в залежності від внутрішньосистемного рівня клієнта - це, мабуть, головне, для чого Big Data використовується в сфері маркетингу. Компанія McKinsey з'ясувала, що близько 75% доходів середньостатистичної фірми складають базові продукти, на 30% з яких встановлюються некоректні ціни. Збільшення ціни на 1% призводить до зростання операційного прибутку на 8,7%.

Дослідницькій групі Forrester вдалося визначити, що аналіз даних дозволяє маркетологам зосередитися на тому, як зробити відносини з клієнтами більш успішними. Досліджуючи напрямок розвитку клієнтів, фахівці можуть оцінити рівень їхньої лояльності, а також продовжити життєвий цикл в контексті конкретної компанії.

Оптимізація стратегій продажів і етапи виходу на нові ринки з використанням геоаналітікі знаходять відображення в біофармацевтичної промисловості. Згідно McKinsey, компанії, що займаються виробництвом медикаментів, витрачають в середньому від 20 до 30% прибутку на адміністрування і продажу. Якщо підприємства почнуть активніше використовувати Великі Дані, Щоб визначити найбільш рентабельні і швидко зростаючі ринки, витрати будуть негайно скорочені.

Аналіз даних - засіб отримання компаніями повного уявлення щодо ключових аспектів їх бізнесу. Збільшення доходів, зниження витрат і скорочення оборотного капіталу є тими трьома завданнями, які сучасний бізнес намагається вирішити за допомогою аналітичних інструментів.

Нарешті, 58% директорів по маркетингу запевняють, що реалізація технологій Big Data простежується в пошукової оптимізації (SEO), e-mail- і мобільний маркетинг, де аналіз даних відіграє найбільш значиму роль у формуванні маркетингових програм. І лише на 4% менше респондентів впевнені, що Великі Дані будуть відігравати значиму роль у всіх маркетингових стратегіях протягом довгих років.

8 Аналіз даних в масштабах планети

Не менш цікаво те,. Можливо, що саме машинне навчання в кінцевому рахунку буде єдиною силою, здатною підтримувати крихку рівновагу. Тема впливу людини на глобальне потепління до сих пір викликає багато суперечок, тому тільки достовірні Предсказательная моделі на основі аналізу великого обсягу даних можуть дати точну відповідь. В кінцевому рахунку, зниження викидів допоможе і нам всім: ми будемо менше витрачатися на енергію.

Зараз Big Data - це не абстрактне поняття, яке, можливо, знайде своє застосування через пару років. Це цілком робочий набір технологій, здатний принести користь практично у всіх сферах людської діяльності: від медицини і охорони громадського порядку до маркетингу і продажів. Етап активної інтеграції Великих Даних в нашу повсякденне життя тільки почався, і хто знає, якою буде роль Big Data вже через кілька років?

Що таке Big Data (Дослівно - великі дані)? Звернемося спочатку до оксфордського словника:

дані - величини, знаки або символи, якими оперує комп'ютер і які можуть зберігатися і передаватися в формі електричних сигналів, Записуватися на магнітні, оптичні або механічні носії.

термін Big Data використовується для опису великого і зростаючого експоненціально згодом набору даних. Для обробки такої кількості даних не обійтися без.

Переваги, які надає Big Data:

Збір даних з різних джерел.
Поліпшення бізнес-процесів через аналітику в реальному часі.
Зберігання величезного обсягу даних.
Інсайти. Big Data більш прониклива до прихованої інформації за допомогою структурованих і напівструктурованих даних.
Великі дані допомагають зменшувати ризик і приймати розумні рішення завдяки підходящої ризик-аналітиці

Приклади Big Data

Нью-Йоркська фондова біржа щодня генерує 1 терабайт даних про торги за минулу сесію.

соціальні медіа: Статистика показує, що в бази даних Facebook щодня завантажується 500 терабайт нових даних, генеруються в основному через завантажень фото та відео на сервери соціальної мережі, обміну повідомленнями, коментарями під постами і так далі.

Реактивний двигун генерує 10 терабайт даних кожні 30 хвилин під час польоту. Так як щодня відбуваються тисячі перельотів, то обсяг даних досягає петабайт.

Класифікація Big Data

Форми великих даних:

структурована
неструктурована
полуструктурированного

структурована форма

Дані, які можуть зберігатися, бути доступними і обробленими в формі з фіксованою форматом називаються структурованими. За тривалий час комп'ютерні науки досягли великих успіхів в удосконаленні технік для роботи з цим типом даних (де формат відомий заздалегідь) і навчилися отримувати користь. Однак вже сьогодні спостерігаються проблеми, пов'язані з ростом обсягів до розмірів, що вимірюються в діапазоні кількох зеттабайт.

1 зеттабайт відповідає мільярду терабайт

Дивлячись на ці числа, неважко переконатися в правдивості терміна Big Data і труднощі пов'язаних з обробкою і зберіганням таких даних.

Дані, що зберігаються в реляційній базі - структуровані і мають вигляд, наприклад, таблиці співробітників компанії

неструктурована форма

Дані невідомої структури класифікуються як неструктуровані. У доповненні до великих розмірах, така форма характеризується рядом складнощів для обробки і витягу корисної інформації. Типовий приклад неструктурованих даних - гетерогенний джерело, що містить комбінацію простих текстових файлів, картинок і відео. Сьогодні організації мають доступ до великого обсягу сирих або неструктурованих даних, але не знають як витягти з них користь.

полуструктурированного форма

Ця категорія містить обидві описані вище, тому напівструктуровані дані мають деякою формою, але в дійсності не визначаються за допомогою таблиць в реляційних базах. Приклад цієї категорії - персональні дані, представлені в XML файлі.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Зростання Big Data згодом:

Синім кольором подано структуровані дані (Enterprise data), які зберігаються в реляційних базах. Іншими квітами - неструктуровані дані з різних джерел (IP-телефонія, девайси і сенсори, соціальні мережі і веб-додатки).

Відповідно до Gartner, великі дані різняться за обсягом, швидкості генерації, різноманітності і мінливості. Розглянемо ці характеристики докладніше.

Об `єм. Сам по собі термін Big Data пов'язаний з великим розміром. Розмір даних - найважливіший показник при визначенні можливої \u200b\u200bвитягується цінності. Щодня 6 мільйонів людей використовують цифрові медіа, що за попередніми оцінками генерує 2.5 квінтильйони байт даних. Тому обсяг - перша для розгляду характеристика.
різноманітність - наступний аспект. Він посилається на гетерогенні джерела і природу даних, які можуть бути як структурованими, так і неструктурованими. Раніше електронні таблиці і бази даних були єдиними джерелами інформації, розглянутими в більшості додатків. Сьогодні ж дані в формі електронних листів, фото, відео, PDF файлів, аудіо теж розглядаються в аналітичних додатках. Така різноманітність неструктурованих даних призводить до проблем в зберіганні, видобутку і аналізі: 27% компаній не впевнені, що працюють з відповідними даними.
швидкість генерації. Те, наскільки швидко дані накопичуються і обробляються для задоволення вимог, визначає потенціал. Швидкість визначає швидкість припливу інформації з джерел - бізнес процесів, логів додатків, сайтів соціальних мереж і медіа, сенсорів, мобільних пристроїв. Потік даних величезний і безперервний в часі.
мінливість описує мінливість даних в деякі моменти часу, яке ускладнює обробку і управління. Так, наприклад, велика частина даних неструктурованих за своєю природою.

Big Data аналітика: в чому користь великих даних

Просування товарів і послуг: Доступ до даних з пошукових систем і сайтів, таких як Facebook і Twitter, дозволяє підприємствам точніше розробляти маркетингові стратегії.

Поліпшення сервісу для покупців: Традиційні системи зворотного зв'язку з покупцями замінюються на нові, в яких Big Data і обробка природної мови застосовується для читання до відгуку покупця.

розрахунок ризику, Пов'язаного з випуском нового продукту або послуги.

Операційна ефективність: Великі дані структурують, щоб швидше отримувати потрібну інформацію і оперативно видавати точний результат. Таке об'єднання технологій Big Data і сховищ допомагає організаціям оптимізувати роботу з рідко використовуваної інформацією.

Передбачалося, що загальний світовий обсяг створених і реплікованих даних в 2011-му може сягнути близько 1,8 зеттабайт (1,8 трлн. Гігабайт) - приблизно в 9 разів більше того, що було створено в 2006-му.

Більш складне визначення

Проте ` великі дані`Припускають щось більше, ніж просто аналіз величезних обсягів інформації. Проблема не в тому, що організації створюють величезні обсяги даних, а в тому, що більша їх частина представлена \u200b\u200bв форматі, погано відповідному традиційному структурованого формату БД, - це веб-журнали, відеозапису, текстові документи, машинний код або, наприклад, геопросторові дані . Все це зберігається в безлічі різноманітних сховищ, іноді навіть за межами організації. В результаті корпорації можуть мати доступ до величезного обсягу своїх даних і не мати необхідних інструментів, щоб встановити взаємозв'язок між цими даними і зробити на їх основі значущі висновки. Додайте сюди те обставина, що дані зараз оновлюються все частіше і частіше, і ви отримаєте ситуацію, в якій традиційні методи аналізу інформації не можуть наздогнати величезними обсягами постійно оновлюваних даних, що в підсумку і відкриває дорогу технологіям великих даних.

найкраще визначення

По суті поняття великих даних має на увазі роботу з інформацією величезного обсягу і різноманітного складу, вельми часто оновлюваної і знаходиться в різних джерелах з метою збільшення ефективності роботи, створення нових продуктів і підвищення конкурентоспроможності. Консалтингова компанія Forrester дає коротку формулювання: ` великі дані об'єднують техніки і технології, які витягують сенс з даних на екстремальному межі практічності`.

Наскільки велика різниця між бізнес-аналітикою і великими даними?

Крейг Баті, виконавчий директор з маркетингу і директор за технологіями Fujitsu Australia, вказував, що бізнес-аналіз є описовим процесом аналізу результатів, досягнутих бізнесом в певний період часу, тим часом як швидкість обробки великих даних дозволяє зробити аналіз самий корінь, здатним пропонувати бізнесу рекомендації на майбутнє. Технології великих даних дозволяють також аналізувати більше типів даних в порівнянні з інструментами бізнес-аналітики, що дає можливість фокусуватися не тільки на структурованих сховищах.

Метт Слокум з O "Reilly Radar вважає, що хоча великі дані і бізнес-аналітика мають однакову мету (пошук відповідей на питання), вони відрізняються один від одного за трьома аспектам.

Великі дані призначені для обробки більш значних обсягів інформації, ніж бізнес-аналітика, і це, звичайно, відповідає традиційному визначенню великих даних.
Великі дані призначені для обробки більш швидко одержуваних і мінливих відомостей, що означає глибоке дослідження і інтерактивність. У деяких випадках результати формуються швидше, ніж завантажується веб-сторінка.
Великі дані призначені для обробки неструктурованих даних, способи використання яких ми тільки починаємо вивчати після того, як змогли налагодити їх збір і зберігання, та нам потрібні алгоритми і можливість діалогу для полегшення пошуку тенденцій, що містяться всередині цих масивів.

Згідно з опублікованою компанією Oracle білій книзі `Інформаційна архітектура Oracle: керівництво архітектора по великим данним` (Oracle Information Architecture: An Architect" s Guide to Big Data), при роботі з великими даними ми підходимо до інформації інакше, ніж при проведенні бізнес-аналізу.

Робота з великими даними не схожа на звичайний процес бізнес-аналітики, де просте додавання відомих значень приносить результат: наприклад, результат складання даних про сплачені рахунки стає обсягом продажів за рік. При роботі з великими даними результат виходить в процесі їх очищення шляхом послідовного моделювання: спочатку висувається гіпотеза, будується статистична, візуальна або семантична модель, на її підставі перевіряється вірність висунутої гіпотези і потім висувається наступна. Цей процес вимагає від дослідника або інтерпретації візуальних значень або складання інтерактивних запитів на основі знань, або розробки адаптивних алгоритмів ` машинного навчання `, Здатних отримати шуканий результат. Причому час життя такого алгоритму може бути досить коротким.

Методики аналізу великих даних

Існує безліч різноманітних методик аналізу масивів даних, в основі яких лежить інструментарій, запозичений з статистики та інформатики (наприклад, машинне навчання). Список не претендує на повноту, проте в ньому відображені найбільш затребувані в різних галузях підходи. При цьому слід розуміти, що дослідники продовжують працювати над створенням нових методик і вдосконаленням існуючих. Крім того, деякі з перерахованих них методик зовсім не обов'язково можуть бути застосовані виключно до великих даними і можуть з успіхом використовуватися для менших за обсягом масивів (наприклад, A / B-тестування, регресійний аналіз). Безумовно, чим більше об'ємний і діверсіфіціруемий масив піддається аналізу, тим точніші і релевантні дані вдається отримати на виході.

A / B testing. Методика, в якій контрольна вибірка по черзі порівнюється з іншими. Таким чином удасться виявити оптимальну комбінацію показників для досягнення, наприклад, найкращою відповідної реакції споживачів на маркетингову пропозицію. великі дані дозволяють провести величезну кількість ітерацій і таким чином отримати статистично достовірний результат.

Association rule learning. Набір методик для виявлення взаємозв'язків, тобто асоціативних правил, між змінними величинами в великих масивах даних. Використовується у data mining.

Classification. Набір методик, які дозволяє передбачити поведінку споживачів в певному сегменті ринку (прийняття рішень про покупку, відтік, обсяг споживання і ін.). Використовується у data mining.

Cluster analysis. Статистичний метод класифікації об'єктів по групах за рахунок виявлення наперед невідомих загальних ознак. Використовується у data mining.

Crowdsourcing. Методика збору даних з великої кількості джерел.

Data fusion and data integration. Набір методик, який дозволяє аналізувати коментарі користувачів соціальних мереж і зіставляти з результатами продажів в режимі реального часу.

Data mining. Набір методик, який дозволяє визначити найбільш сприйнятливі для продукту, що просувається або послуги категорії споживачів, виявити особливості найбільш успішних працівників, передбачити поведінкову модель споживачів.

Ensemble learning. У цьому методі задіюється безліч предикативних моделей за рахунок чого підвищується якість зроблених прогнозів.

Genetic algorithms. У цій методиці можливі рішення представляють у вигляді `хромосом`, які можуть комбінуватися і мутувати. Як і в процесі природної еволюції, виживає найбільш пристосована особина.

Machine learning. Напрямок в інформатиці (історично за ним закріпилася назва `штучний інтеллект`), яке має на меті створення алгоритмів самонавчання на основі аналізу емпіричних даних.

Natural language processing (NLP). Набір запозичених з інформатики та лінгвістики методик розпізнавання природної мови людини.

Network analysis. Набір методик аналізу зв'язків між вузлами в мережах. Стосовно до соціальних мереж дозволяє аналізувати взаємозв'язку між окремими користувачами, компаніями, спільнотами і т.п.

Optimization. Набір чисельних методів для редизайну складних систем і процесів для поліпшення одного або декількох показників. Допомагає в прийнятті стратегічних рішень, наприклад, складу виведеної на ринок продуктової лінійки, проведенні інвестиційного аналізу та ін.

Pattern recognition. Набір методик з елементами самонавчання для передбачення поведінкової моделі споживачів.

Predictive modeling. Набір методик, які дозволяють створити математичну модель наперед заданого ймовірного сценарію розвитку подій. Наприклад, аналіз бази даних CRM -системи на предмет можливих умов, які підштовхнуть абоненти змінити провайдера.

Regression. Набір статистичних методів для виявлення закономірності між зміною залежною змінною і однією або декількома незалежними. Часто застосовується для прогнозування і пророкувань. Використовується в data mining.

Sentiment analysis. В основі методик оцінки настроїв споживачів лежать технології розпізнавання природної мови людини. Вони дозволяють вичленувати із загального інформаційного потоку повідомлення, пов'язані з цікавлять предметом (наприклад, споживчим продуктом). Далі оцінити полярність судження (позитивне чи негативне), ступінь емоційності та ін.

Signal processing. Запозичений з радіотехніки набір методик, який має на меті розпізнавання сигналу на тлі шуму і його подальшого аналізу.

Spatial analysis. Набір частково запозичених з статистики методик аналізу просторових даних - топології місцевості, географічних координат, геометрії об'єктів. джерелом великих даних в цьому випадку часто виступають геоінформаційні системи (ГІС).

Statistics. Наука про збір, організації та інтерпретації даних, включаючи розробку опитувальників і проведення експериментів. Статистичні методи часто застосовуються для оціночних суджень про взаємозв'язки між тими чи іншими подіями.

Supervised learning. Набір заснованих на технологіях машинного навчання методик, які дозволяють виявити функціональні взаємозв'язки в аналізованих масивах даних.

Simulation. Моделювання поведінки складних систем часто використовується для прогнозування, передбачення і опрацювання різних сценаріїв при плануванні.

Time series analysis. Набір запозичених з статистики та цифрової обробки сигналів методів аналізу повторюваних з плином часу послідовностей даних. Одні з очевидних застосувань - відстеження ринку цінних паперів або захворюваності пацієнтів.

Unsupervised learning. Набір заснованих на технологіях машинного навчання методик, які дозволяють виявити приховані функціональні взаємозв'язки в аналізованих масивах даних. Має спільні риси з Cluster Analysis.

візуалізація. Методи графічного представлення результатів аналізу великих даних у вигляді діаграм або анімації для спрощення інтерпретації полегшення розуміння отриманих результатів.

Наочне представлення результатів аналізу великих даних має принципове значення для їх інтерпретації. Не секрет, що сприйняття людини обмежена, і вчені продовжують вести дослідження в галузі вдосконалення сучасних методів представлення даних у вигляді зображень, діаграм або анімацій.

аналітичний інструментарій

На 2011 рік деякі з перерахованих в попередньому підрозділі підходів або певну їх сукупність дозволяють реалізувати на практиці аналітичні движки для роботи з великими даними. З вільних або відносно недорогих відкритих систем аналізу Big Data можна порекомендувати:

Revolution Analytics (На базі мови R для мат.статістікі).

Особливий інтерес в цьому списку представляє Apache Hadoop - ПО з відкритим кодом, яке за останні п'ять років випробувано в якості аналізатора даних більшістю трекерів акцій. Як тільки Yahoo відкрила код Hadoop спільноті з відкритим кодом, в ІТ-індустрії негайно з'явився цілий напрям по створенню продуктів на базі Hadoop. Практично всі сучасні засоби аналізу великих даних надають кошти інтеграції з Hadoop. Їх розробниками виступають як стартапи, так і загальновідомі світові компанії.

Ринки рішень для управління великими даними

Платформи великих даних (BDP, Big Data Platform) як засіб боротьби з цифровим хордінгом

можливість аналізувати великі дані, В просторіччі звана Big Data, сприймається як благо, причому однозначно. Але чи так це насправді? До чого може привести нестримне накопичення даних? Швидше за все до того, що вітчизняні психологи стосовно людини називають патологічним накопиченням, сіллогоманіей або образно "синдромом Плюшкіна". По-англійськи порочна пристрасть збирати все підряд називають хордінгом (від англ. Hoard - «запас»). За класифікацією ментальних захворювань хордінг зарахований до психічних розладів. У цифрову епоху до традиційного речового хордінгу додається цифровий (Digital Hoarding), їм можуть страждати як окремі особистості, так і цілі підприємства і організації ().

Світовий і ринок Росії

Big data Landscape - Основні постачальники

Інтерес до інструментів збору, обробки, управління та аналізу великих даних проявляли чи не всі провідні ІТ-компанії, що цілком закономірно. По-перше, вони безпосередньо стикаються з цим феноменом у власному бізнесі, по-друге, великі дані відкривають відмінні можливості для освоєння нових ніш ринку і залучення нових замовників.

На ринку з'являлося безліч стартапів, які роблять бізнес на обробці величезних масивів даних. Частина з них використовують готову хмарну інфраструктуру, яка надається великими гравцями зразок Amazon.

Теорія і практика Великих даних в галузях

Історія розвитку

2017

Прогноз TmaxSoft: наступна «хвиля» Big Data потребують модернізації СУБД

Підприємствам відомо, що в накопичених ними величезних обсягах даних міститься важлива інформація про їхній бізнес і клієнтів. Якщо компанія зможе успішно застосувати цю інформацію, то у неї буде значну перевагу в порівнянні з конкурентами, і вона зможе запропонувати кращі, ніж у них, продукти і сервіси. Однак багато організацій все ще не можуть ефективно використовувати великі дані через те, що їх успадкована ІТ-інфраструктура здатна забезпечити необхідну ємність систем зберігання, процеси обміну даних, утиліти і додатки, необхідні для обробки і аналізу великих масивів неструктурованих даних для вилучення з них цінної інформації, вказали в TmaxSoft.

Крім того, збільшення процесорної потужності, необхідної для аналізу постійно збільшуються обсягів даних, може вимагати значних інвестицій в застарілу ІТ-інфраструктуру організації, а також додаткових ресурсів для супроводу, які можна було б використовувати для розробки нових додатків і сервісів.

5 лютого 2015 року Білий дім опублікував доповідь, в якому обговорювалося питання про те, як компанії використовують « великі дані»Для встановлення різних цін для різних покупців - практика, відома як« цінова дискримінація »або« диференційоване ціноутворення »(personalized pricing). Звіт висвітлює переваги такого підходу «великих даних» як для продавців, так і покупців, і його автори приходять до висновку про те, що багато проблемних питань, що виникли в зв'язку з появою великих даних і диференційованого ціноутворення, можуть бути вирішені в рамках існуючого антидискримінаційного законодавства і законів , що захищають права споживачів.

У доповіді наголошується, що в цей час є лише окремі факти, що свідчать про те, як компанії використовують великі дані в контексті індивідуалізованого маркетингу і диференційованого ціноутворення. Цей відомості показують, що продавці використовують методи ціноутворення, які можна розділити на три категорії:

вивчення кривої попиту;
Наведення (steering) і диференційоване ціноутворення на основі демографічних даних; і
цільової поведінковий маркетинг (поведінковий таргетинг - behavioral targeting) і індивідуалізоване ціноутворення.

Вивчення кривої попиту: З метою з'ясування попиту і вивчення поведінки споживачів маркетологи часто проводять експерименти в цій області, в ході яких клієнтам випадковим чином призначається одна з двох можливих цінових категорій. «Технічно ці експерименти є формою диференційованого ціноутворення, оскільки їх наслідком стають різні ціни для клієнтів, навіть якщо вони є« недискримінаційними »в тому сенсі, що у всіх клієнти ймовірність« потрапити »на більш високу ціну однакова».

Наведення (steering): Це практика уявлення товарів споживачам на основі їх приналежності до певної демографічної групи. Так, веб-сайт комп'ютерної компанії може пропонувати один і той же ноутбук різним типам покупців за різними цінами, заставленим на основі повідомленої ними про себе інформації (наприклад, в залежності від того, чи є даний користувач представником державних органів, наукових або комерційних установ, або ж приватна особа) або від їх географічного розташування (наприклад, певного по IP -Адреса комп'ютера).

Цільовий поведінковий маркетинг і індивідуалізоване ціноутворення: У цих випадках персональні дані покупців використовуються для цільової реклами та індивідуалізованого призначення цін на певні продукти. Наприклад, онлайн-рекламодавці використовують зібрані рекламними мережами і через куки третіх сторін дані про активність користувачів в інтернеті для того, щоб націлене розсилати свої рекламні матеріали. Такий підхід, з одного боку, дає можливість споживачам отримати рекламу становлять для них інтерес товарів і послуг, Він, однак, може викликати заклопотаність тих споживачів, які не хочуть, щоб певні види їх персональних даних (такі, як відомості про відвідування сайтів, пов'язаних з медичними і фінансовими питаннями) збиралися без їх згоди.

Хоча цільової поведінковий маркетинг набув значного поширення, є відносно мало свідчень індивідуалізованого ціноутворення в онлайн-середовищі. У звіті висловлюється припущення, що це може бути пов'язано з тим, що відповідні методи все ще розробляються, або ж з тим, що компанії не поспішають використовувати індивідуальне ціноутворення (або вважають за краще про нього мовчати) - можливо, побоюючись негативної реакції з боку споживачів.

Автори звіту вважають, що «для індивідуального споживача використання великих даних, безсумнівно, пов'язане як з потенційною віддачею, так і з ризиками». Визнаючи, що при використанні великих даних з'являються проблеми прозорості та дискримінації, звіт в той же час стверджує, що існуючих антидискримінаційних законів і законів по захисту прав споживачів досить для їх вирішення. Однак у звіті також наголошується на необхідності «постійного контролю» в тих випадках, коли компанії використовують конфіденційну інформацію непрозорим чином або способами, які не охоплюються існуючої нормативно-правовою базою.

Дана доповідь є продовженням зусиль Білого дому по вивченню застосування «великих даних» та дискримінаційного ціноутворення в Інтернеті, і відповідних наслідків для американських споживачів. Раніше вже повідомлялося про те, що робоча група Білого дому по великим даними опублікувала в травні 2014 року свою доповідь з цього питання. Федеральна комісія з торгівлі (FTC) також розглядала ці питання в ході проведеного нею у вересні 2014 року семінару по дискримінації в зв'язку з використанням великих даних.

2014

Gartner розвіює міфи про "Великих даних"

В аналітичній записці осені 2014 року Gartner перерахований ряд поширених серед ІТ-керівників міфів щодо Великих Даних і наводяться їх спростування.

Все впроваджують системи обробки Великих Даних швидше нас

Інтерес до технологій Великих Даних рекордно високий: в 73% організацій, опитаних аналітиками Gartner в цьому році, вже інвестують в відповідні проекти або збираються. Але більшість таких ініціатив поки що на самих ранніх стадіях, і тільки 13% опитаних вже впровадили подібні рішення. Найскладніше - визначити, як отримувати дохід з Великих Даних, вирішити, з чого почати. У багатьох організаціях застряють на пілотній стадії, оскільки не можуть прив'язати нову технологію до конкретних бізнес-процесів.

У нас так багато даних, що немає потреби турбуватися про дрібних помилках в них

Деякі ІТ-керівники вважають, що дрібні огріхи в даних не впливають на загальні результати аналізу величезних обсягів. Коли даних багато, кожна помилка окремо дійсно менше впливає на результат, відзначають аналітики, але і самих помилок стає більше. Крім того, велика частина аналізованих даних - зовнішні, невідомої структури або походження, тому ймовірність помилок зростає. Таким чином, в світі Великих Даних якість насправді набагато важливіше.

Технології Великих Даних скасують нужду в інтеграції даних

Великі Дані обіцяють можливість обробки даних в оригінальному форматі з автоматичним формуванням схеми в міру зчитування. Вважається, що це дозволить аналізувати інформацію з одних і тих же джерел за допомогою декількох моделей даних. Багато хто вважає, що це також дасть можливість кінцевим користувачам самим інтерпретувати будь-який набір даних на свій розсуд. В реальності більшості користувачів часто потрібен традиційний спосіб з готовою схемою, коли дані форматуються відповідним чином, і є угоди про рівень цілісності інформації і про те, як вона повинна співвідноситися зі сценарієм використання.

Сховища даних немає сенсу використовувати для складної аналітики

Багато адміністратори систем управління інформацією вважають, що немає сенсу витрачати час на створення сховища даних, беручи до уваги, що складні аналітичні системи користуються новими типами даних. Насправді у багатьох системах складної аналітики використовується інформація зі сховища даних. В інших випадках нові типи даних потрібно додатково готувати до аналізу в системах обробки Великих Даних; доводиться приймати рішення про придатність даних, принципах агрегації і необхідному рівні якості - така підготовка може відбуватися поза сховища.

На зміну сховищ даних прийдуть озера даних

В реальності постачальники вводять замовників в оману, позиціонуючи озера даних (data lake) як заміну сховищ або як критично важливі елементи аналітичної інфраструктури. Основоположним технологіям озер даних не вистачає зрілості і широти функціональності, властивої сховищ. Тому керівникам, які відповідають за управління даними, варто почекати, поки озера досягнуто того ж рівня розвитку, вважають в Gartner.

Accenture: 92% впровадили системи великих даних, задоволені результатом

Серед головних переваг великих даних опитані назвали:

«Пошук нових джерел доходу» (56%),
«Поліпшення досвіду клієнтів» (51%),
«Нові продукти і послуги» (50%) і
«Приплив нових клієнтів і збереження лояльності старих» (47%).

При впровадженні нових технологій багато компаній зіткнулися з традиційними проблемами. Для 51% каменем спотикання стала безпеку, для 47% - бюджет, для 41% - брак необхідних кадрів, а для 35% - складності при інтеграції з існуючою системою. Практично всі опитані компанії (близько 91%) планують незабаром вирішувати проблему з нестачею кадрів і наймати фахівців з великим даними.

Компанії оптимістично оцінюють майбутнє технологій великих даних. 89% вважають, що вони змінять бізнес настільки ж сильно, як і інтернет. 79% респондентів відзначили, що компанії, які не займаються великими даними, втратять конкурентні переваги.

Втім, опитані розійшлися в думці про те, що саме варто вважати великими даними. 65% респондентів вважають, що це «великі картотеки даних», 60% впевнені, що це «просунута аналітика і аналіз», а 50% - що це «дані інструментів візуалізації».

Мадрид витрачає 14,7 млн \u200b\u200bєвро на управління великими даними

У липні 2014 р стало відомо про те, що Мадрид буде використовувати технології big data для управління міською інфраструктурою. Вартість проекту - 14,7 млн \u200b\u200bєвро, основу впроваджуваних рішень складуть технології для аналізу та управління великими даними. З їх допомогою міська адміністрація буде керувати роботою з кожним сервіс-провайдером і відповідним чином оплачувати її в залежності від рівня послуг.

Йдеться про підрядників адміністрації, які стежать за станом вулиць, освітленням, іригації, зеленими насадженнями, здійснюють прибирання території та вивезення, а також переробку сміття. В ході проекту для спеціально виділених інспекторів розроблені 300 ключових показників ефективності роботи міських сервісів, на базі яких щодня буде здійснюватися 1,5 тис. Різних перевірок і вимірів. Крім того, місто почне використання інноваційної технологіческлй платформи під назвою Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Експерти: Пік моди на Big Data

Всі без винятку вендори на ринку управління даними в цей час ведуть розробку технологій для менеджменту Big Data. Цей новий технологічний тренд також активно обговорюється професійними спільнотою, як розробниками, так і галузевими аналітиками і потенційними споживачами таких рішень.

Як з'ясувала компанія Datashift, станом на січень 2013 року хвиля обговорень навколо « великих даних»Перевищила всі мислимі розміри. Проаналізувавши число згадок Big Data в соціальних мережах, В Datashift підрахували, що за 2012 рік цей термін вживається близько 2 млрд раз в постах, створених близько 1 млн різних авторів по всьому світу. Це еквівалентно 260 постам на годину, причому пік згадок склав 3070 згадок в годину.

Gartner: Кожен другий ІТ-директор готовий витратитися на Big data

Після кількох років експериментів з технологіями Big data і перших впроваджень в 2013 році адаптація подібних рішень значно зросте, прогнозують в Gartner . Дослідники опитали ІТ-лідерів у всьому світі і встановили, що 42% опитаних вже інвестували в технології Big data або планують зробити такі інвестиції протягом найближчого року (дані на березень 2013 року).

Компанії змушені витратитися на технології обробки великих даних, Оскільки інформаційний ландшафт стрімко змінюється, вимагаю нових підходів до обробки інформації. Багато компаній вже усвідомили, що великі масиви даних є критично важливими, причому робота з ними дозволяє досягти вигод, які будуть недоступні при використанні традиційних джерел інформації і способів її обробки. Крім того, постійне мусування теми «великих даних» в ЗМІ підігріває інтерес до відповідних технологій.

Френк Байтендідк (Frank Buytendijk), віце-президент Gartner, навіть закликав компанії стримати запал, оскільки деякі виявляють занепокоєння, що відстають від конкурентів в освоєнні Big data.

«Хвилюватися не варто, можливості для реалізації ідей на базі технологій« великих даних »фактично безмежні», - заявив він.

За прогнозами Gartner, до 2015 року 20% компаній списку Global 1000 візьмуть стратегічний фокус на «інформаційну інфраструктуру».

В очікуванні нових можливостей, які принесуть із собою технології обробки «великих даних», вже зараз багато організацій організовують процес збору і зберігання різного роду інформації.

Для освітніх і урядових організацій, а також підприємств галузі промисловості найбільший потенціал для трансформації бізнесу закладений в поєднанні накопичених даних з так званими dark data (дослівно - «темними даними»), до останніх відносяться повідомлення електронної пошти, мультимедіа та інший подібний контент. На думку Gartner, в гонці даних переможуть саме ті, хто навчиться поводитися з різними джерелами інформації.

Опитування Cisco: Big Data допоможе збільшити ІТ-бюджети

В ході дослідження (весна 2013 року) під назвою Cisco Connected World Technology Report, проведеного в 18 країнах незалежної аналітичною компанією InsightExpress, були опитано 1 800 студентів коледжів і така ж кількість молодих фахівців у віці від 18 до 30 років. Опитування проводилося, щоб з'ясувати рівень готовності ІТ-відділів до реалізації проектів Big Data і отримати уявлення про пов'язані з цим проблеми, технологічних вади і стратегічної цінності таких проектів.

Більшість компаній збирає, записує і аналізує дані. Проте, йдеться в звіті, багато компаній у зв'язку з Big Data стикаються з цілою низкою складних ділових та інформаційно-технологічних проблем. Наприклад, 60 відсотків опитаних визнають, що рішення Big Data можуть вдосконалити процеси прийняття рішень і підвищити конкурентоспроможність, але лише 28 відсотків заявили про те, що вже отримують реальні стратегічні переваги від накопиченої інформації.

Більше половини опитаних ІТ-керівників вважають, що проекти Big Data допоможуть збільшити ІТ-бюджети в їхніх організаціях, так як будуть пред'являтися підвищені вимоги до технологій, персоналу та професійним навичкам. При цьому більше половини респондентів очікують, що такі проекти збільшать ІТ-бюджети в їхніх компаніях вже в 2012 році. 57 відсотків впевнені в тому, що Big Data збільшить їх бюджети протягом наступних трьох років.

81 відсоток респондентів заявили, що всі (або, принаймні, деякі) проекти Big Data зажадають застосування хмарних обчислень. Таким чином, поширення хмарних технологій може позначитися на швидкості поширення рішень Big Data і на цінності цих рішень для бізнесу.

Компанії збирають і використовують дані самих різних типів, як структуровані, так і неструктуровані. І з яких джерел отримують дані учасники опитування (Cisco Connected World Technology Report):

Майже половина (48 відсотків) ІТ-керівників прогнозує подвоєння навантаження на їх мережі протягом найближчих двох років. (Це особливо характерно для Китаю , Де такої точки зору дотримуються 68 відсотків опитаних, і Німеччини - 60 відсотків). 23 відсотки респондентів очікують потроєння мережевого навантаження на протязі наступних двох років. При цьому лише 40 відсотків респондентів заявили про свою готовність до вибухоподібного зростання обсягів мережевого трафіку.

27 відсотків опитаних визнали, що їм необхідні більш якісні ІТ-політики і заходи інформаційної безпеки.

21 відсоток потребує розширення смуги пропускання.

Big Data відкриває перед ІТ-відділами нові можливості для нарощування цінності і формування тісних відносин з бізнес-підрозділами, дозволяючи підвищити доходи і зміцнити фінансове становище компанії. Проекти Big Data роблять ІТ-підрозділу стратегічним партнером бізнес-підрозділів.

На думку 73 відсотків респондентів, саме ІТ-відділ стане основним локомотивом реалізації стратегії Big Data. При цьому, вважають опитані, інші відділи теж будуть підключатися до реалізації цієї стратегії. Перш за все, це стосується відділів фінансів (його назвали 24 відсотки респондентів), науково-дослідного (20 відсотків), операційного (20 відсотків), інженерного (19 відсотків), а також відділів маркетингу (15 відсотків) і продажів (14 відсотків).

Gartner: Для управління великими даними потрібні мільйони нових робочих місць

Світові ІТ витрати сягнуть $ 3,7 млрд до 2013 року, що на 3,8% більше витрат на інформаційні технології в 2012 році (прогноз на кінець року становить $ 3,6 млрд). сегмент великих даних (Big data) буде розвиватися набагато більш високими темпами, йдеться в звіті Gartner.

До 2015 року 4,4 млн робочих місць в сфері інформаційних технологій буде створено для обслуговування великих даних, з них 1,9 млн робочих місць - в. Більш того, кожна така робоче місце спричинить за собою створення трьох додаткових робочих місць за межами сфери ІТ, так що тільки в США в найближчі чотири роки 6 млн чоловік буде працювати для підтримки інформаційної економіки.

На думку експертів Gartner, головна проблема полягає в тому, що в галузі для цього недостатньо талантів: як приватна, так і державна освітня система, наприклад, в США не здатні постачати галузь достатньою кількістю кваліфікованих кадрів. Так що зі згаданих нових робочих місць в ІТ кадрами буде забезпечено тільки одне з трьох.

Аналітики вважають, що роль плекання кваліфікованих ІТ кадрів повинні брати на себе безпосередньо компанії, які в них гостро потребують, так як такі співробітники стануть перепусткою для них в нову інформаційну економіку майбутнього.

2012

Перший скепсис щодо "Великих даних"

аналітики компаній Ovum і Gartner припускають, що для модної в 2012 році теми великих даних може настати час звільнення від ілюзій.

Терміном «Великі Дані», в цей час як правило, позначають постійно зростаючий обсяг інформації, що надходить в оперативному режимі з соціальних медіа, від мереж датчиків і інших джерел, а також зростаючий діапазон інструментів, використовуваних для обробки даних і виявлення на їх основі важливих бізнес-тенденцій.

«Через галасу (або не дивлячись на неї) щодо ідеї великих даних виробники в 2012 році з величезною надією дивилися на цю тенденцію», - зазначив Тоні Байєр, аналітик Ovum.

Байєр повідомив, що компанія DataSift провела ретроспективний аналіз згадок великих даних в