Contacte

Analiza cantităților mari de informații și. Utilizarea datelor mari în medicină. Probleme mari de utilizare a datelor mari

Sa preconizat că volumul global global al datelor create și replicate în 2011 poate ajunge la aproximativ 1,8 satetta (1,8 trilioane gigabyte) - de aproximativ 9 ori mai mare decât ceea ce a fost creat în 2006.

Definiție mai complexă.

Cu toate acestea " date mare"Invitați mai mult decât o analiză a unor cantități uriașe de informații. Problema nu este că organizațiile creează cantități uriașe de date și, în faptul că majoritatea sunt prezentate într-un format, prost relevant pentru formatul tradițional de bază de date structurat - acestea sunt jurnalele web, înregistrările video, documentele text, codul mașinii sau , de exemplu, date geospațiale. Toate acestea sunt stocate în multe depozite diverse, uneori chiar în afara organizației. Ca rezultat, corporația poate avea acces la cantitatea imensă din datele lor și nu are instrumente necesareSă stabilească relații între aceste date și să facă concluzii semnificative pe baza acestora. Adăugați aici faptul că datele sunt actualizate din ce în ce mai des și mai des și veți obține o situație în care metodele tradiționale de analiză a informațiilor nu pot afecta cantitățile uriașe de date actualizate constant, care în cele din urmă și deschide tehnologiile rutiere date mari.

Cea mai bună definiție

În esență, conceptul date mari Aceasta implică locul de muncă cu informațiile de un volum imens și o varietate de compoziții, foarte des actualizate și situate în diferite surse pentru a spori eficiența muncii, crearea de noi produse și creșterea competitivității. Compania de consultanță Forrester oferă o scurtă formulare: ` Date mare Combinați tehnicile și tehnologiile care elimină semnificația datelor privind limita extremă a caracterului practic ".

Cât de mare este diferența dintre analiticii de afaceri și datele mari?

CRAIG BAI, director executiv al Marketingului și Director al Fujitsu Australia Technologies, a indicat că analiza de afaceri este un proces descriptiv pentru analizarea rezultatelor obținute de întreprindere într-o anumită perioadă de timp, între timp ca viteza de procesare date mari Vă permite să faceți o analiză predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Tehnologia de date mare vă permite, de asemenea, să analizați mai multe tipuri de date în comparație cu instrumentele de analiză a afacerilor, ceea ce face posibilă concentrarea nu numai a instalațiilor de depozitare structurate.

Matt Slocum de la O "Reilly Radar consideră că totuși date mare Și analiștii de afaceri au același scop (căutați răspunsuri la întrebare), ele diferă unul de celălalt în trei aspecte.

  • Datele mari sunt concepute pentru a gestiona cantități mai semnificative de informații decât analistul de afaceri, și acest lucru, desigur, corespunde definiției tradiționale a datelor mari.
  • Datele mari sunt destinate procesării mai rapide obținute și schimbarea informațiilor, ceea ce înseamnă cercetări profunde și interactivitate. În unele cazuri, rezultatele sunt formate mai repede decât pagina web este încărcată.
  • Datele mari sunt destinate prelucrării datelor nestructurate, ale căror metode de utilizare începem să studiem după ce capabile să stabilim colectarea și depozitarea lor și avem nevoie de algoritmi și posibilitatea de a facilita căutarea tendințelor conținute în aceste matrice.

Potrivit unei cărți albe publicate Oracle "Oracle Informații Architecture: Ghidul arhitectului pentru date mari (arhitectura informațiilor Oracle: un ghid al arhitectului la date mari), atunci când lucrați cu date mari, abordăm informații altfel decât atunci când conducem analize de afaceri.

Lucrul cu date mari nu este similar cu procesul obișnuit de informații de afaceri, unde o simplă adăugare a valorilor cunoscute aduce rezultatul: de exemplu, rezultatul adăugării conturilor plătite devine un volum de vânzări pentru anul respectiv. Când lucrați cu date mari, rezultatul este obținut în procesul de curățare prin modelare succesivă: În primul rând, ipoteza este introdusă, este construită un model statistic, vizual sau semantic, loialitatea față de ipotezele și-a extins baza este verificată și apoi Următorul este prezentat. Acest proces necesită un cercetător sau o interpretare a valorilor vizuale sau compilarea interogărilor bazate pe cunoaștere interactivă sau dezvoltarea de algoritmii adaptabili "instruirea mașinii, capabilă să obțină rezultatul dorit. Iar durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Metode de analiză a datelor mari

Există multe metode diverse de analiză a matricelor de date, care se bazează pe instrumentele împrumutate din statistici și știința informaticii (de exemplu, învățarea mașinii). Lista nu pretinde că este completă, dar reflectă abordările cele mai solicitate în diferite industrii. În același timp, trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi tehnici și îmbunătățirea celor existente. În plus, unele dintre aceste metode nu sunt aplicate neapărat exclusiv la date mari și pot fi utilizate cu succes pentru matrice mai mici (de exemplu, testare A / B, analiza de regresie). Desigur, se analizează mai multă matrice mai volumetrică și diversificată, pot fi obținute datele mai precise și relevante la ieșire.

Testarea A / B. Tehnica în care eșantionul de control este alternativ comparativ cu ceilalți. Astfel, este posibil să se identifice combinația optimă a indicatorilor de realizare, de exemplu, cel mai bun răspuns al consumatorilor pentru o ofertă de marketing. Date mare vă permit să cheltuiți un număr mare de iterații și să obțineți astfel un rezultat statistic fiabil.

Învățarea regulilor de asociere. Un set de tehnici de identificare a relațiilor, adică Reguli asociative între variabilele din matrice de date mari. Folosit B. mineritul de date..

Clasificare. Un set de tehnici care vă permite să preziceți comportamentul consumatorilor într-un anumit segment de piață (luarea deciziilor privind achiziționarea, ieșirea, volumul consumului etc.). Folosit B. mineritul de date..

Analiza grupului.. Metoda statistică de clasificare a obiectelor prin grupări prin detectarea caracteristicilor comune necunoscute. Folosit B. mineritul de date..

Crowdsourcing.. Metodologia de colectare a datelor de la un numar mare Surse.

Fuziunea datelor și integrarea datelor. Un set de tehnici care vă permite să analizați comentariile utilizatorilor de rețele sociale și să comparați cu rezultatele vânzărilor în timp real.

Mineritul de date.. Un set de tehnici care vă permite să determinați cele mai sensibile la categoria de produse sau de serviciu progresivă a consumatorilor, să identifice caracteristicile celor mai de succes angajați, să prezică un model comportamental al consumatorilor.

Ansamblul de învățare. În această metodă, multe modele predicative sunt implicate în detrimentul căruia a fost făcută calitatea previziunilor.

Algoritmi genetici.. În această tehnică solutii posibile Ele reprezintă în formă "cromozomul", care pot fi combinate și reciproc. Ca și în procesul de evoluție naturală, cele mai adaptate individuale supraviețuiesc.

Învățare automată. Direcția în informatică (istoric, numele inteligenței artificiale) a fost înrădăcinată istoric, care urmărește obiectivul de a crea algoritmi de auto-studiu bazat pe o analiză a datelor empirice.

Prelucrarea limbajului natural (NLP.). Set de împrumutate din tehnici de știință și lingvistică pentru recunoașterea limbii naturale a unei persoane.

Analiza rețelei.. Un set de metode de analiză a legăturilor dintre nodurile în rețele. În ceea ce privește rețelele sociale, vă permite să analizați relația dintre utilizatorii individuali, companiile, comunitățile etc.

Optimizare. Un set de metode numerice pentru redesignarea sistemelor complexe și procese pentru a îmbunătăți unul sau mai mulți indicatori. Ajută la luarea deciziilor strategice, de exemplu, compoziția liniei de produse a fost lansată pe piață, analiza investițiilor și așa mai departe.

Recunoasterea formelor. Un set de tehnici cu elemente de auto-învățare pentru prezicerea unui model de comportament al consumatorului.

Modelarea predictivă. Un set de tehnici care permit crearea unui model matematic înaintea scenariului specificat de dezvoltare a evenimentelor specificate. De exemplu, o analiză a bazei de date CRM pentru posibile condiții pe care abonații le vor solicita să le schimbe furnizorul.

Regresie. Un set de metode statistice pentru identificarea modelelor dintre o schimbare a variabilei dependente și una sau mai multe independente. Este adesea folosit pentru prognoză și predicții. Utilizate în mineritul de date.

Analiza sentimentelor. Metodele de evaluare a sentimentului consumatorului se bazează pe tehnicile de recunoaștere a limbii umane. Ele vă permit să fiți scos din general fluxul de informații Mesaje legate de subiectul interesului (de exemplu, de produsul de consum). În continuare pentru a estima polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate și așa mai departe.

Procesare a semnalului.. Împrumutat de la ingineria radio Un set de tehnici care urmărește obiectivul de recunoaștere țintă pe fondul zgomotului și analiza ulterioară.

Analiza spațială. Setul de a fi parțial împrumutat din metodele de statistică pentru analiza datelor spațiale - topologia terenului, coordonatele geografice, geometria obiectelor. Sursă date mari În acest caz, sistemele informatice geografice efectuează adesea (GIS).

Statistici. Colectarea științei, organizarea și interpretarea datelor, inclusiv dezvoltarea de chestionare și efectuarea experimentelor. Metodele statistice sunt adesea utilizate pentru conjugații estimate privind relațiile dintre cele sau alte evenimente.

Învățarea supravegheată. Metode de prelucrare bazate pe tehnici de învățare a mașinilor care vă permit să identificați relațiile funcționale în matricele de date analizate.

Simulare. Modelarea comportamentului sistemelor complexe este adesea folosită pentru a prezice, a prezice și a studia diferitele scripturi la planificare.

Analiza seriei de timp. Set de împrumutate din statistici și prelucrarea digitală Semnalele metodelor de analiză repetate în timpul secvențelor de date. Unele dintre aplicațiile evidente urmăresc piața valorilor mobiliare sau incidența pacienților.

Învățarea nesupravegheată. Un set de tehnici de învățare a mașinilor bazate pe tehnici de învățare a mașinilor care vă permit să identificați relațiile funcționale ascunse în matricele de date analizate. Are caracteristici comune cu Analiza grupului..

Vizualizare. Metode reprezentare grafică Rezultatele analizei datelor mari sub formă de diagrame sau imagini animate pentru a simplifica interpretarea facilitării înțelegerii rezultatelor obținute.


O reprezentare vizuală a rezultatelor unei mari analize de date este de o importanță fundamentală pentru interpretarea lor. Nu este un secret că percepția umană este limitată, iar oamenii de știință continuă să desfășoare cercetări în domeniul îmbunătățirii metodelor moderne de prezentare a datelor sub formă de imagini, diagrame sau animații.

Instrumentul analitic

Pentru 2011, unele dintre abordările enumerate în subsecțiunea anterioară sau combinația lor definitivă fac posibilă implementarea motoarelor analitice de a lucra cu date mari în practică. A sistemelor libere sau relativ ieftine de analiză a datelor, puteți recomanda:

  • Revolution Analytics (bazat pe limba R pentru mat. Stracecias).

De interes deosebit în această listă reprezintă Apache Hadoop - prin sursă deschisă, care în ultimii cinci ani a fost testat ca analizor al datelor de către majoritatea acțiunilor de urmărire. De îndată ce Yahoo a deschis codul Hadoop cu o comunitate open source, o direcție întreagă pentru crearea de produse bazate pe Hadoop a apărut în industria IT. Aproape toate mijloacele moderne de analiză date mari Oferiți instrumente de integrare cu Hadoop. Dezvoltatorii lor acționează ca startups și cunoscute companii mondiale.

Piețele soluții pentru gestionarea datelor mari

Platforme mari de date (BDP, platformă de date mare) ca mijloc de combatere a treburilor digitale

Abilitatea de a analiza date mare, În surpriza numită date mari, percepută ca un bun și cu siguranță. Dar este într-adevăr? Ce poate fi acumularea de date? Cel mai probabil, la faptul că psihologii interni în legătură cu omul sunt numiți stocare patologică, silhloromie sau sindromul Plushkin "figurativ". În limba engleză, o pasiune vicioasă de a colecta totul într-un rând este numită Horing (din turul englez - "stoc"). Conform clasificării bolilor mentale, chorodarea este numărată pentru tulburări psihice. Digital Sharding (Harding digital) este adăugat la epoca digitală, aceștia pot suferi atât identități individuale, cât și întreprinderi și organizații întregi ().

Piața mondială și rusă

Peisaj de date mari - Furnizori principali

Interesul pentru instrumentele de colectare, prelucrare, management și analiză date mari A expus toate companiile IT de conducere, care sunt destul de naturale. În primul rând, se confruntă direct cu acest fenomen în propria lor afacere, în al doilea rând, date mare Deschideți oportunități excelente pentru dezvoltarea de nișă nouă a pieței și atrage noi clienți.

O mulțime de startupuri au apărut pe piață care face o afacere cu privire la prelucrarea unor matrice de date uriașe. Unii dintre aceștia folosesc infrastructura de cloud finalizată furnizată de jucători mari Ca Amazon.

Teoria și practica datelor mari în industrii

Istoria dezvoltării

2017

Prognoza Tmaxsoft: următorul "val" date mari vor necesita actualizarea DBMS

Întreprinderile sunt cunoscute că, în cantități uriașe de date, există informații importante despre afacerea și clienții lor. Dacă compania poate aplica cu succes aceste informații, atunci va avea un avantaj semnificativ în comparație cu concurenții și va fi capabil să ofere cele mai bune rezultate, produse și servicii. Cu toate acestea, multe organizații încă nu pot utiliza în mod eficient date mare Datorită faptului că infrastructura IT moștenită nu este în măsură să furnizeze capacitatea necesară a sistemelor de stocare, procesele de schimb de date, utilitățile și aplicațiile necesare pentru prelucrarea și analizarea unor rețele mari de date nestructurate pentru a extrage informații valoroase indicate în Tmaxsoft.

În plus, o creștere a capacității procesorului necesar pentru analiza volumelor de date în continuă creștere poate necesita investiții semnificative în infrastructura IT depășită a organizației, precum și resursele suplimentare de sprijin care ar putea fi utilizate pentru a dezvolta noi aplicații și servicii.

La 5 februarie 2015, Casa Albă a publicat un raport în care a fost discutată întrebarea date mare»Pentru a stabili diverse prețuri pentru diferiți cumpărători - practică cunoscută sub numele de" discriminare a prețurilor "sau" prețuri diferențiate "(prețuri personalizate). Raportul descrie beneficiul "datelor mari" atât pentru vânzători, cât și pentru cumpărători, iar autorii săi ajung la concluzia că multe probleme problematice care decurg din apariția datelor mari și a prețurilor diferențiate pot fi soluționate în cadrul legislației existente împotriva discriminării și Legi care protejează drepturile consumatorilor.

Raportul constată că, în acest moment, există doar fapte individuale care indică modul în care companiile folosesc date mari în contextul marketingului individualizat și a prețurilor diferențiate. Aceste informații arată că vânzătorii utilizează metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

  • studiul curbei cererii;
  • Orientări (direcție) și stabilirea prețurilor diferențiate pe baza datelor demografice; și
  • Țintă marketing comportamental (direcționarea comportamentală - direcționarea comportamentală) și stabilirea prețurilor individualizate.

Studierea curbei cererii: Pentru a clarifica cererea și studiul comportamentului consumatorilor, comercianții desfășoară adesea experimente în acest domeniu, în cadrul căreia una dintre cele două categorii posibile de preț este numită aleatoriu de către clienți. "Din punct de vedere tehnic, aceste experimente sunt forma de stabilire a prețurilor diferențiate, deoarece consecința lor devine prețuri diferite pentru clienți, chiar dacă acestea sunt" nediscriminatorii "în sensul că toți clienții au probabilitatea de a" obține "la un preț mai mare de același preț . "

DIRECȚIE): Aceasta este practica prezentării produselor către consumatori pe baza apartenenței la un grup demografic specific. Deci, site-ul web compania de calculatoare poate oferi unu și același laptop cu diferite tipuri de cumpărători la prețuri diferite, stabilite pe baza informațiilor raportate de acestea (de exemplu, în funcție de dacă acest utilizator Reprezentant al organelor de stat, instituții științifice sau comerciale sau de către o persoană privată) sau din locația lor geografică (de exemplu, definită de adresa IP a computerului).

Țintă marketingul comportamental și prețurile individualizate: În aceste cazuri, datele personale ale cumpărătorilor sunt utilizate pentru publicitatea orientată și prețurile personalizate pentru anumite produse. De exemplu, agenții de publicitate online utilizează colectați prin rețele de publicitate și prin cookie-urile de date ale terților despre activitatea utilizatorilor de pe Internet pentru a-și trimite materialele promoționale. O astfel de abordare, pe de o parte, face posibilă consumatorilor să primească publicitate de bunuri și servicii pentru ei, totuși, poate provoca preocupările acelor consumatori care nu doresc anumite tipuri de date personale (cum ar fi informațiile despre Site-urile de vizită legate de problemele medicale și financiare) au fost colectate fără consimțământul lor.

Deși marketingul comportamental vizat este larg răspândit, există relativ puține dovezi ale prețurilor individualizate în mediul online. Raportul sugerează că acest lucru se datorează faptului că metodele corespunzătoare sunt încă dezvoltate sau cu faptul că companiile nu se grăbesc să folosească prețurile individuale (sau preferă să-l laudeze) - poate, temându-se de reacția negativă de la consumatori.

Autorii raportului consideră că "pentru un consumator individual, utilizarea datelor mari este, fără îndoială, datorită atât a potențialului revenire, cât și riscurilor". Recunoscând că, atunci când se utilizează date mari, apar probleme de transparență și discriminare, raportul susține că legile existente privind discriminarea și protecția consumatorilor sunt suficiente pentru a le rezolva. Cu toate acestea, raportul subliniază, de asemenea, necesitatea "controlului continuu" în cazurile în care companiile utilizează informații confidențiale printr-o manieră opacă sau prin metode care nu sunt acoperite de un cadru de reglementare existent.

Acest raport este o continuare a eforturilor Casei Albe de a studia utilizarea "datelor mari" și a prețurilor discriminatorii pe Internet și consecințe relevante pentru consumatorii americani. Anterior, sa raportat deja că grupul de lucru al Casei Albe pentru Date Mare și-a publicat raportul pe această temă în mai 2014. Comisia federală pentru comerț (FTC) a luat în considerare și aceste aspecte în cadrul seminarului privind discriminarea în septembrie 2014 în septembrie 2014, datorită utilizării datelor mari.

2014

Gartner dispează miturile despre "Big Data"

În nota analitică a căderii din 2014, Gartner a enumerat un număr de mituri comune printre managerii IT privind datele mari și respingerea acestora.

  • Toată lumea implementează mai repede sisteme de prelucrare a datelor mari decât noi

Interesul pentru tehnologiile de date mai mari este înregistrat: 73% dintre organizațiile chestionate de Analistii Gartner în acest an investesc deja în proiecte relevante sau sunt colectate. Dar majoritatea acestor inițiative sunt încă în primele etape, iar doar 13% dintre respondenți au implementat deja astfel de soluții. Cel mai dificil lucru este de a determina cum să extrageți veniturile din date mari, să decideți unde să începeți. În multe organizații sunt blocate în etapa pilot, pentru că nu se pot lega tehnologie nouă la procese de afaceri specifice.

  • Avem atât de multe date că nu este nevoie să vă faceți griji cu privire la greșelile mici în ele

Unii manageri IT consideră că defectele mici din date nu afectează rezultatele generale ale analizei volumelor imense. Atunci când există o mulțime de date, fiecare eroare oferă separat mai puține rezultatul, marca analiștilor, dar devine tot mai mult. În plus, majoritatea datelor analizate sunt o structură sau o origine externă, necunoscută, astfel încât probabilitatea erorilor este în creștere. Astfel, în lumea datelor mari, calitatea este de fapt mult mai importantă.

  • Tehnologia de date mare va anula nevoia de integrare a datelor

Datele mari promite capacitatea de a procesa datele într-un format original cu formarea automată a circuitului, deoarece este citită. Se crede că acest lucru va permite analizarea informațiilor din aceleași surse utilizând mai multe modele de date. Mulți cred că va permite, de asemenea, utilizatorilor finali să interpreteze orice set de date la discreția sa. În realitate, majoritatea utilizatorilor au nevoie de multe ori cu un mod tradițional cu schema finalizatăAtunci când datele sunt formatate în consecință, există acorduri privind nivelul integrității informațiilor și modul în care ar trebui să se refere la scenariul de utilizare.

  • Depozitul de date nu are sens să se utilizeze pentru analitice complexe

Mulți administratori de sisteme de gestionare a informațiilor consideră că nu are sens să-și petreacă timpul Crearea unui depozit de date, luând în considerare faptul că sistemele analitice complexe utilizează noi tipuri de date. De fapt, în multe sisteme de analiză complexă utilizează informații din stocarea datelor. În alte cazuri, noile tipuri de date trebuie să fie pregătite suplimentar pentru a analiza sisteme mari de prelucrare a datelor; Este necesar să se ia decizii privind adecvarea datelor, principiile de agregare și nivelul necesar de calitate - astfel de pregătire pot apărea în afara depozitului.

  • Lacurile de date vor veni să schimbe instalațiile de stocare a datelor

În realitate, furnizorii sunt clienți înșelătoare, poziționând lacurile de date (lac de date) ca înlocuind facilitățile de depozitare sau ca elemente critice ale infrastructurii analitice. Tehnologiile fundamentale ale lacurilor din date nu au scadența și latitudinea funcționalității inerente instalațiilor de depozitare. Prin urmare, liderii responsabili de gestionarea datelor ar trebui să aștepte până când lacurile ajung la același nivel de dezvoltare, cred în Gartner.

Accenture: 92% din sistemul de implementare a datelor mari sunt îndeplinite cu rezultatul

Printre principalele avantaje ale datelor mari, respondenții au sunat:

  • "Căutați noi surse de venit" (56%),
  • "Îmbunătățirea experienței clienților" (51%),
  • "Produse și servicii noi" (50%) și
  • "Influxul de noi clienți și conservarea loialității mai vechi" (47%).

În introducerea de noi tehnologii, multe companii s-au confruntat cu probleme tradiționale. Pentru un bloc de poticnire de 51%, securitatea a fost, pentru 47% - buget, pentru 41% - lipsa cadrelor necesare și pentru complexitatea de 35% atunci când se integrează cu un sistem existent. Aproape toate companiile intervievate (aproximativ 91%) intenționează să rezolve problema cu lipsa personalului și angajează specialiști din date excelente.

Companiile optimiste evaluează tehnologiile viitoare ale datelor mari. 89% cred că vor schimba afacerea la fel de mult ca internetul. 79% dintre respondenți au remarcat că companiile care nu se bucură de date mari vor pierde un avantaj competitiv.

Cu toate acestea, respondenții au abordat opinia că merită să fie mare. 65% dintre respondenți consideră că acestea sunt "cărți de date mari", 60% sunt încrezători că este "analitică și analiză avansată", iar 50% este că acestea sunt "date de instrumente de vizualizare".

Madrid cheltuiește 14,7 milioane de euro pe gestionarea datelor mari

În iulie 2014, a devenit cunoscut faptul că Madrid va folosi tehnologia de date importante pentru a gestiona infrastructura urbană. Costul proiectului este de 14,7 milioane de euro, baza soluțiilor implementate va fi tehnologiile de analiză și gestionare a datelor mari. Cu ajutorul lor, administrația urbană va gestiona munca cu fiecare furnizor de servicii și va plăti în mod corespunzător, în funcție de nivelul de servicii.

Vorbim despre contractorii administrației, care sunt urmate de starea străzilor, iluminatului, irigației, plantațiilor verzi, efectuează curățarea teritoriului și a exportului, precum și prelucrarea gunoiului. În timpul proiectului, au fost elaborate 300 de indicatori-cheie ai performanței serviciilor urbane pentru inspectori special selectați, pe baza cărora 1,5 mii de controale și măsurători diferite vor fi efectuate zilnic. În plus, orașul va începe să utilizeze o platformă tehnologică inovatoare numită Madrid Inteligente (menta) - Smart Madrid.

2013

Experți: vârf de modă pe date mari

Toată lumea Fără excepție de la vânzătorul de pe piața managementului datelor în acest moment, tehnologiile dezvoltă tehnologii pentru gestionarea importantă a datelor. Această nouă tendință tehnologică este, de asemenea, discutată în mod activ de comunitatea profesională, atât dezvoltatori, cât și analiștii sectoriali și potențialii consumatori ai unor astfel de soluții.

După cum a aflat DataShift, începând cu ianuarie 2013, un val de discuții în jurul " date mari"A depășit toate dimensiunile imaginabile. După analizarea numărului de mențiuni de date importante privind rețelele sociale, dataShift a fost calculată că în 2012 acest termen a fost utilizat aproximativ 2 miliarde de ori în posturi create aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de posturi pe oră, iar vârful referințelor s-au ridicat la 3070 de referințe pe oră.

Gartner: Fiecare al doilea regizor IT este gata să cheltuiască bani pe date mari

După câțiva ani de experimente cu tehnologii de date mari și primele introduceri în adaptarea din 2013 astfel de soluții Acesta va crește semnificativ, prezis în Gartner. Cercetătorii au intervievat liderii IT din întreaga lume și au constatat că 42% dintre respondenți au investit deja în tehnologia de date importante sau au intenționat să facă astfel de investiții în anul următor (date pentru martie 2013).

Companiile sunt forțate să cheltuiască bani pe tehnologia de prelucrare. date mariDeoarece peisajul informațional se schimbă rapid, cerând noi abordări pentru prelucrarea informațiilor. Multe companii și-au dat seama deja că marile mari de date sunt critice, iar lucrările cu ele vă permite să obțineți beneficii care nu sunt disponibile atunci când se utilizează surse tradiționale de informații și metode de procesare. În plus, datoria permanentă față de subiectul "datelor mari" în mass-media este de încălzire în domeniul tehnologiilor relevante.

Frank Cumpădijk, vicepreședinte Gartner, a cerut chiar și companiei să tempereze praful, deoarece unii sunt îngrijorați că aceștia rămân în urma concurenților în dezvoltarea datelor mari.

"Nu este necesar să vă faceți griji cu privire la posibilitatea de a implementa idei pe baza tehnologiilor" Big Data "sunt de fapt nesfârșite", a spus el.

Potrivit lui Gartner, până în 2015, 20% din companiile globale de 1000 de liste vor avea un accent strategic asupra "infrastructurii".

În anticiparea noilor caracteristici care vor aduce cu ei tehnologia de prelucrare a "datelor mari", acum multe organizații organizează procesul de colectare și stocare a diferitelor tipuri de informații.

Pentru organizațiile educaționale și guvernamentale, precum și companiile industriale, cel mai mare potențial de transformare a afacerilor este pus în combinație de date acumulate cu așa-numitele date întunecate (literalmente "date întunecate"), acestea din urmă includ mesaje e-mail, Multimedia și alte conținuturi similare. Potrivit lui Gartner, aceia vor învăța cum să se ocupe de datele din cele mai diferite surse de informații.

Sondajul Cisco: Datele mari vor contribui la creșterea bugetelor IT

În timpul studiului (primăvara 2013), numit Raportul Tehnologiei Mondiale Cisco Connecte, efectuat în 18 țări de către o companie independentă de analitică, au fost intervievați 1.800 de studenți și același număr de tineri profesioniști cu vârsta cuprinsă între 18 și 30 de ani. Studiul a fost realizat pentru a afla nivelul de pregătire a departamentelor IT la implementarea proiectului Date mare. și obțineți o idee despre problemele conexe, defectele tehnologice și valoarea strategică a acestor proiecte.

Cele mai multe companii colectează, scrie și analizează datele. Cu toate acestea, raportul spune că multe companii în legătură cu datele mari se confruntă cu o serie de probleme complexe de afaceri și tehnologii informaționale. De exemplu, 60% dintre respondenți recunosc că soluțiile mari de date pot îmbunătăți procesele de luare a deciziilor și pot spori competitivitatea, dar numai 28% au declarat că sunt deja obținute avantaje strategice reale ale informațiilor acumulate.

Mai mult de jumătate dintre managerii IT respondenți consideră că proiectele de date mari vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe sporite pentru tehnologii, personal și abilități profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă la astfel de proiecte pentru a crește bugetele IT în companiile lor deja în 2012. 57% sunt încrezători că datele mari își vor spori bugetele în următorii trei ani.

81% dintre respondenți au spus că toate proiectele de date mari (sau cel puțin) vor necesita aplicații cloud computing.. Astfel, distribuția tehnologiilor cloud poate afecta viteza de distribuție a soluțiilor de date mari și a valorilor acestor soluții de afaceri.

Companiile colectează și utilizează datele cele mai multe tipuri diferitecum ar fi structurat și nestructurat. Iată din ce surse au primit datele participanților la sondaj (Raportul de tehnologie mondială Cisco):

Aproape jumătate (48%) din managerii IT prezice dublarea încărcăturii în rețeaua lor în următorii doi ani. (Aceasta este deosebit de caracteristică a Chinei, unde 68% dintre respondenți și Germania sunt aderate la un punct de vedere - 60%). 23% dintre respondenți așteaptă triplarea încărcăturii de rețea în următorii doi ani. În același timp, doar 40% dintre respondenți au declarat disponibilitatea creșterii explozive a traficului de rețea.

27% dintre respondenți au recunoscut că au nevoie de o mai bună politică IT și măsuri de securitate a informațiilor.

21% trebuie să extindă lățimea de bandă.

Datele mari deschid noi oportunități înainte de departamentele IT pentru a spori valoarea și a forma o relație strânsă cu unitățile de afaceri, permițând creșterea veniturilor și consolidarea poziției financiare a companiei. Proiectele de date mari fac diviziuni cu un partener strategic al unităților de afaceri.

Potrivit a 73% dintre respondenți, este departamentul IT care va deveni principala locomotivă a implementării strategiei de date importante. În același timp, consideră că respondenții, alte departamente se vor conecta, de asemenea, la punerea în aplicare a acestei strategii. În primul rând, se referă la departamentele de finanțare (24% dintre respondenți), cercetarea (20%), operațional (20%), inginerie (19%), precum și departamentele de marketing (15%) și vânzările (14%) .

Gartner: Pentru a gestiona datele mari, sunt necesare milioane de noi locuri de muncă.

Costurile IT mondiale au fost atinse de 3,7 miliarde de dolari până în 2013, ceea ce reprezintă cu 3,8% mai multe cheltuieli pentru tehnologia informației în 2012 (prognoza la sfârșitul anului este de 3,6 miliarde de dolari). Segment date mari (Date mari) vor dezvolta rate mult mai mari, spune raportul Gartner.

Până în 2015, vor fi create 4,4 milioane de locuri de muncă în domeniul tehnologiilor informaționale pentru a servi date mari, din care se află 1,9 milioane de locuri de muncă. Mai mult decât atât, fiecare la locul de muncă El va implica crearea a trei locuri de muncă suplimentare în afara sectorului IT, astfel încât numai în Statele Unite în următorii patru ani 6 milioane de oameni vor lucra pentru a menține economia informațională.

Potrivit experților Gartner, principala problemă este că, în industrie, pentru acest lucru nu sunt suficiente talente: atât sistemul educațional privat, cât și de stat, de exemplu, în Statele Unite nu sunt în măsură să furnizeze industriei un număr suficient de personal calificat. Deci, din noile locuri de muncă menționate în cadrele IT vor fi asigurate doar una din cele trei.

Analiștii cred că rolul de a picta personalul IT calificat ar trebui să se ia direct la companie, care are nevoie de ele, deoarece astfel de angajați îi vor transmite noilor economii informaționale a viitorului.

2012

Primul scepticism pentru "Big Data"

Analiștii companiilor Ovum și Gartner sugerează că pentru modă în Teme 2012 date mari poate veni momentul eliberării de iluzii.

Termenul "date mari", în acest moment, de regulă, denotă cantitatea tot mai mare de informații care intră în modul operațional. De la social media, din rețelele senzorilor și altor surse, precum și o gamă tot mai mare de instrumente utilizate pentru prelucrarea datelor și identificarea tendințelor importante de afaceri pe baza acestora.

"Din cauza hype (sau în ciuda acestuia) cu privire la ideea de date mari, producătorii din 2012 cu o mare speranță au analizat această tendință", a spus Tony Bayer, analist Ovum.

Bayer a spus că data de date a efectuat o analiză retrospectivă a menții datelor mari în

Ce Date mare. (literalmente - date mare)? Să ne întoarcem mai întâi la dicționarul Oxford:

Date - valori, semne sau simboluri care operează calculatorul și care pot fi stocate și transmise sub formă de semnale electrice, înregistrate pe medii magnetice, optice sau mecanice.

Termen Date mare. Folosit pentru a descrie o mare și crescând exponențial cu un timp stabilit de date. Pentru a procesa un astfel de date, nu faceți fără.

Avantajele pe care le oferă date mari:

  1. Colectarea datelor din diferite surse.
  2. Îmbunătățirea proceselor de afaceri prin analiză în timp real.
  3. Stocarea unei cantități uriașe de date.
  4. Insights. Datele mari sunt mai perceptive la informații ascunse folosind date structurate și semi-structurate.
  5. Datele mari ajută la reducerea riscului și fac soluții inteligente datorită unei analize de risc adecvate.

Exemple de date mari.

Bursa de Valori din New York Zilnic generează 1 Terabyte. Datele privind tranzacționarea în timpul sesiunii anterioare.

Social Media.: Statisticile arată că baza de date Facebook este încărcată zilnic 500 Terabytes Datele noi sunt generate în principal datorită descărcărilor și videoclipurilor foto pe servere de rețea socială, mesagerie, comentarii sub posturi și așa mai departe.

Motor turboreactor Generează 10 Terabytes Date la fiecare 30 de minute în timpul zborului. Deoarece mii de zboruri sunt efectuate zilnic, cantitatea de date atinge petobytes.

Clasificarea datelor mari.

Forme de date mari:

  • Structurată
  • Nestructurat
  • Semi-structurat

Forma structurată

Datele care pot fi stocate, sunt disponibile și prelucrate în formă cu un format fix se numește structurat. De mult timp, științele informatice au obținut un mare succes în îmbunătățirea tehnicianului pentru a lucra cu acest tip de date (unde formatul este cunoscut în avans) și învățat să beneficieze. Cu toate acestea, astăzi există probleme asociate cu creșterea volumelor la dimensiunea măsurată în intervalul mai multor zeettabiți.

1 Zettabyte corespunde unui miliard de Terabyte

Privind la aceste numere, este ușor să se verifice veridicitatea termenului date mari și dificultățile de conjugat cu procesarea și stocarea acestor date.

Datele stocate în baza relațională sunt structurate și au o formă, de exemplu, tabelul angajaților companiei

Formă nestructurată

Datele unei structuri necunoscute sunt clasificate ca nestructurate. În plus față de dimensiuni mari, o astfel de formă se caracterizează printr-o serie de dificultăți pentru prelucrarea și eliminarea informațiilor utile. Un exemplu tipic de date nestructurate este o sursă eterogenă care conține o combinație de fișiere text simple, imagini și video. Astăzi, organizațiile au acces la volumul mare de date brute sau nestructurate, dar nu știu cum să beneficieze de ele.

Formă semi-structurată

Această categorie conține ambele descrise mai sus, prin urmare datele semi-structurate posedă o anumită formă, dar în realitate nu sunt definite utilizând tabele în baze relaționale. Un exemplu din această categorie este datele personale prezentate în fișierul XML.

Prashant Rao.Masculin35 Seeema R.Femeie41 Satish Mane.Masculin29 Subrato Roy.Masculin26 Jeremiah J.Masculin35

Caracteristici Date mari.

Creșterea datelor mari cu timpul:

Albastru a prezentat date structurate (date între întreprinderi), care sunt stocate în baze relaționale. Alte culori sunt date nestructurate din diferite surse (telefonie, dispozitive și senzori, rețele sociale și aplicații web).

În conformitate cu Gartner, datele mari diferă în volum, ratele de generare, varietatea și variabilitatea. Luați în considerare aceste caracteristici în detaliu.

  1. Volum. Prin ea însăși, termenul de date mari este asociat cu o dimensiune mare. Dimensiunea datelor este cel mai important indicator atunci când determină o posibilă valoare recuperabilă. Zilnic 6 milioane de oameni utilizează medii digitale, care estimate preliminare generează 2,5 octeți de date Quintillion. Prin urmare, volumul este primul care ia în considerare caracteristica.
  2. Diversitate - Următorul aspect. Se referă la surse eterogene și natura datelor, care pot fi structurate și nestructurate. Anterior, foile de calcul și baze de date au fost singurele surse de informații considerate în majoritatea aplicațiilor. Astăzi, date sub formă de e-mailuri, fotografii, video, fișiere PDF, audio sunt, de asemenea, luate în considerare în aplicațiile analitice. O astfel de varietate de date nestructurate conduce la probleme în depozitare, miniere și analiză: 27% dintre companii nu sunt încrezători că lucrează cu date adecvate.
  3. Rata de generare. Cât de repede se acumulează datele acumulate și prelucrate pentru a îndeplini cerințele, determină potențialul. Viteza determină viteza fluxului de informații din surse - procese de afaceri, jurnale de aplicații, site-uri de rețele sociale și medii, senzori, dispozitive mobile. Fluxul de date este imens și continuu în timp.
  4. Variabilitate Descrie inconstanța datelor la unele puncte în timp, care complică procesarea și gestionarea. De exemplu, majoritatea datelor sunt nestructurate de natură.

Big Data Analytics: Care este beneficiul datelor mari

Promovarea bunurilor și serviciilor: Accesul la date de la motoarele de căutare și site-uri, cum ar fi Facebook și Twitter, permite întreprinderilor să dezvolte mai precis strategii de marketing.

Îmbunătățirea serviciului pentru cumpărători: Sistemele de feedback tradiționale cumpărători sunt înlocuite cu cele noi în care datele mari și prelucrarea limbii naturale sunt folosite pentru a citi și evalua revizuirea clientului.

Calculul risculuiasociate cu eliberarea unui nou produs sau serviciu.

Eficiența operațională: Datele mari sunt structurate pentru a elimina rapid informațiile necesare și pentru a da imediat rezultatul exact. O astfel de combinație de tehnologii și depozite mari de date ajută organizațiile să optimizeze munca cu informații rar utilizate.

Doar leneș nu vorbește date mari, dar ceea ce este și cum funcționează - este puțin probabil. Să începem cu cea mai simplă terminologie. În limba rusă, datele mari sunt diferite instrumente, abordări și metode de prelucrare a datelor structurate și nestructurate pentru a le folosi pentru anumite sarcini și obiective.

Datele nestructurate sunt informații care nu au o structură predeterminată sau nu este organizată într-o anumită ordine.

Termenul "Big Data" a introdus editorul revistei Natura Clifford Lynch în 2008 într-o problemă specială dedicată creșterii explozive a volumelor informațiilor mondiale. Deși, desigur, datele mari au existat înainte. Potrivit experților, categoria de date mare include majoritatea fluxurilor de date de peste 100 GB pe zi.

Vezi si:

Astăzi, sub acest termen simplu, doar două cuvinte sunt ascunse - stocare și prelucrare a datelor.

Date mari - cuvinte simple

În lumea modernă, datele mari sunt un fenomen socio-economic, care este asociat cu faptul că noi capabilități tehnologice păreau să analizeze o cantitate imensă de date.

Vezi si:

Pentru a ușura înțelegerea, imaginați-vă un supermarket în care toate bunurile nu se află în ordinea obișnuită. Pâinea de lângă fructe, pastă de roșii lângă pizza înghețată, lichid pentru aprindere în fața suportului cu tampoane, pe care, printre altele, reprezintă agocado, tofu sau ciuperci shiitake. Datele mari setați totul în locul său și vă ajută să găsiți lapte nuci, să aflați data de cost și expirare, și, de asemenea, care, pe lângă dvs., cumpără un astfel de lapte și cum este mai bine decât laptele de vacă.

Kenneth Cucier: Date mari - cele mai bune date

Tehnologie date mari.

Volumele de date uriașe sunt procesate astfel încât o persoană să poată obține rezultatele specifice și necesare pentru utilizarea în continuare eficientă.

Vezi si:

De fapt, datele mari sunt o soluție la probleme și o alternativă la sistemele tradiționale de gestionare a datelor.

Tehnici și metode de analiză aplicabile datelor mari de către McKinsey:

  • Crowdsourcing;

    Amestecarea și integrarea datelor;

    Învățare automată;

    Rețele neuronale artificiale;

    Recunoasterea formelor;

    Analiza prognozată;

    Simulare;

    Analiza spațială;

    Analize statistice;

  • Vizualizarea datelor analitice.

Scalabilitate orizontală, care oferă prelucrarea datelor - principiul de bază al procesării datelor mari. Datele sunt distribuite nodurilor de calcul, iar prelucrarea are loc fără degradare a productivității. McKinsey a inclus sisteme de control relațional și inteligență de afaceri în contextul aplicabilității.

Tehnologii:

  • Nosql;
  • Mapreduce;
  • Hadoop;
  • Soluții hardware.

Vezi si:

Pentru datele mari, caracteristicile tradiționale de definire produse de Meta Group încă în 2001, numite " Trei V.»:

  1. VOLUM. - amploarea volumului fizic.
  2. Viteză. - Rata de creștere și necesitatea unei prelucrări rapide a datelor pentru obținerea rezultatelor.
  3. Varietate. - Abilitatea de a procesa simultan diverse tipuri de date.

Date mari: aplicație și caracteristici

Volumele de informații digitale neomogene și rapide nu pot fi tratate cu unelte tradiționale. Analiza datelor în sine vă permite să vedeți anumite modele inconspicuoase pe care o persoană nu le poate vedea. Acest lucru vă permite să optimizați toate sferele vieții noastre - de la guvern la producție și telecomunicații.

De exemplu, unele companii și-au apărat clienții de fraudă cu câțiva ani în urmă, iar îngrijirea banilor clientului este îngrijorarea pentru banii lor.

Susan Etlyger: Cum să se ocupe de date mari?

Soluții mari bazate pe date: Sberbank, Beeline și alte companii

Bilain are o cantitate imensă de date de abonat pe care le folosesc nu numai pentru a lucra cu acestea, ci și pentru a crea produse analitice, cum ar fi consultanță externă sau analitică IPTV. Beeline segmentată de bază și clienții protejați de fraudă în numerar și viruși, folosind HDFS și Spark Apache și pentru prelucrarea datelor - RapidMiner și Python.

Vezi si:

Sau amintiți-vă Sberbank cu vechea caz numită SAFI. Acesta este un sistem care analizează fotografiile pentru a identifica clienții băncii și previne frauda. Sistemul a fost introdus înapoi în 2014, sistemul se bazează pe o comparație a fotografiilor de la bază, care vine de la webcam-uri pe rafturi datorate viziunii computerului. Baza sistemului este o platformă biometrică. Datorită acestui fapt, cazurile de fraudă au scăzut de 10 ori.

Date mari din lume

Până în 2020, potrivit prognozelor, omenirea va forma 40-44 zettabite de informații. Și până în 2025 vor crește de 10 ori, raportul de vârstă de 2025 de ani, care a fost pregătit de analiștii IDC. Raportul constată că întreprinderile în sine vor fi generate majoritatea datelor, și nu consumatorii obișnuiți.

Analiștii de cercetare cred că datele vor deveni un activ vital, iar securitatea este o bază critică în viață. De asemenea, autorii lucrării sunt încrezători că tehnologia va schimba peisajul economic, iar utilizatorul obișnuit va comunica cu dispozitive conectate de aproximativ 4800 de ori pe zi.

Piața mare de date în Rusia

În mod obișnuit, datele mari provin din trei surse:

  • Internet (rețele sociale, forumuri, bloguri, mass-media și alte site-uri);
  • Arhive corporative de documente;
  • Indicații de senzori, dispozitive și alte dispozitive.

Date mari în bănci

În plus față de sistemul descris mai sus, în Strategia Sberbank pentru perioada 2014-2018. Se spune despre importanța analizării supermazelor de date pentru servicii pentru clienți de calitate, gestionarea riscurilor și optimizarea costurilor. Acum, Banca utilizează date mari pentru a controla riscurile, combaterea costurilor de creditare a fraudei, a segmentării și a creditului, gestionarea personalului, prezicerea cozilor în birouri, calcularea bonusurilor pentru angajați și alte sarcini.

VTB24 se bucură de date mari pentru segmentarea și gestionarea ieșirii clienților, formarea situațiilor financiare, analiza feedback-ului în rețelele sociale și forumurile. Pentru a face acest lucru, el aplică Teradata, SAS vizuale Analytics și SAS Marketing Optimizor Solutions.

Datele mari (sau datele mari) sunt un set de metode de lucru cu volume uriașe de informații structurate sau nestructurate. Specialiștii care lucrează cu date mari sunt implicați în procesarea și analiza sa pentru a obține rezultate vizuale și percepute. Uită-te la mine a vorbit cu profesioniști și a aflat care este situația cu prelucrarea datelor mari în Rusia, unde și ceea ce este mai bine să înveți cu cei care doresc să lucreze în acest domeniu.

Alexey Rupin pe principalele direcții din domeniul datelor mari, comunicarea cu clienții și lumea numerelor

Am studiat la Institutul de Tehnologie Electronică din Moscova. Principalul lucru pe care l-am reușit să iau, sunt cunoașterea fundamentală a fizicii și matematicii. În același timp, am lucrat în Centrul de R & D, unde a fost angajat în dezvoltarea și implementarea algoritmilor nobili de codificare pentru mijloacele de transfer de date protejate. După încheierea studiului, am intrat în magistratul informaticii de afaceri ale Școlii de Economie Superioară. După aceea, am vrut să lucrez în IBS. Am avut noroc că la acel moment în legătură cu cantitate mare Proiectele au făcut un set suplimentar de stagiari, iar după mai multe interviuri am început să lucrez la IBS, una dintre cele mai mari companii ruse din acest domeniu. Timp de trei ani, am plecat de la tren înainte de arhitectul soluțiilor corporative. Acum sunt angajat în dezvoltarea de tehnologii de date mari pentru companiile clienți din sectorul financiar și de telecomunicații.

Există două specializări principale pentru persoanele care doresc să lucreze cu date mari: analiști și consultanți IT care creează tehnologii pentru a lucra cu date mari. În plus, puteți vorbi, de asemenea, despre profesia de mare analist de date, adică oameni care lucrează direct cu datele cu platforma IT de la client. Anterior, a fost analiștii obișnuiți de matematică care cunosc statistici și matematică și utilizând software-ul statistic pentru a rezolva sarcinile de analiză a datelor. Astăzi, în plus față de cunoașterea statisticilor și a matematicii, este necesară, de asemenea, o înțelegere a tehnologiei și a unui ciclu de viață a datelor. În acest sens, în opinia mea, este diferența dintre analistul modern de date de la acești analiști care au fost înainte.

Specializarea mea este consultanta, adică inventez și ofer clienți cum să rezolve sarcinile de afaceri cu tehnologiile IT. Oamenii vin la consultanță cu diferite experiențe, dar cele mai importante calități pentru această profesie sunt abilitatea de a înțelege nevoile clientului, dorința de a ajuta oamenii și organizațiile, bunele comunicări și abilități de echipă (deoarece lucrează întotdeauna cu clientul și Într-o echipă), bune abilități analitice. Motivația internă este foarte importantă: lucrăm într-un mediu concurențial, iar clientul așteaptă soluții neobișnuite și interes pentru muncă.

De cele mai multe ori trebuie să comunice cu clienții, formalizând nevoile lor de afaceri și asistența în dezvoltarea celei mai potrivite arhitecturi tehnologice. Criteriile de selecție au propriile caracteristici: În plus față de funcționalitate și OTS (costul total al proprietății - costul total al proprietății) sunt foarte importante, cerințele nefuncționale pentru sistem, cel mai adesea acesta este timpul de răspuns, procesarea informațiilor timp. Pentru a convinge clientul, folosim adesea dovada abordării conceptului - oferim gratuit tehnologia "de testare" pentru o anumită sarcină, pe un set de date îngust pentru a vă asigura că tehnologia funcționează. Decizia ar trebui să creeze un avantaj competitiv pentru Client în detrimentul beneficiilor suplimentare (de exemplu, pe X-Well, încrucișat) sau să rezolve o problemă de afaceri, să spună, să reducă nivelul ridicat de fraudă de împrumut.

Ar fi mult mai ușor dacă clienții au venit de la sarcina finalizată, Dar, atâta timp cât nu înțeleg că a apărut o tehnologie revoluționară, ceea ce poate schimba piața timp de câțiva ani.

Ce probleme trebuie să se confrunte? Piața nu este pregătită să utilizeze tehnologia "Big Data". Ar fi mult mai ușor dacă clienții au venit dintr-o sarcină gata făcută, dar până când înțeleg că o tehnologie revoluționară care ar putea schimba piața de câțiva ani. De aceea, lucrăm, de fapt, în modul de pornire - nu doar să vindeți tehnologie, dar de fiecare dată când convingem clienții că trebuie să investiți în aceste soluții. Aceasta este o astfel de poziție a vizionarilor - arătăm clienților cum vă puteți schimba afacerea cu atragerea datelor și a acesteia. Creăm acest lucru piață nouă - Piața consultării IT comerciale în zona de date mare.

Dacă o persoană dorește să se angajeze în analiza datelor sau să se consulte în sfera datelor mari, atunci primul lucru important este educația matematică sau tehnică cu pregătire matematică bună. De asemenea, este util să master tehnologii specifice, să spunem SAS, Hadoop, limba R sau soluția IBM. În plus, este necesar să se intereseze în mod activ de sarcinile de aplicare a datelor mari - de exemplu, deoarece pot fi utilizate pentru îmbunătățirea punctajului de credit într-o bancă sau gestionarea ciclului de viață al clientului. Aceste și alte cunoștințe pot fi obținute din surse disponibile: de exemplu, Cursuri și Universitatea de date Big. Există, de asemenea, o inițiativă de analiză a clienților în Universitatea Wharton din Pennsylvania, care a publicat o mulțime de materiale interesante.

O problemă serioasă pentru cei care doresc să lucreze în zona noastră este o lipsă explicită de informații despre date mari. Nu puteți merge la librărie sau în un anumit site și obțineți, de exemplu, o coloană exhaustivă de cazuri pentru toate aplicațiile tehnologiilor de date mari în bănci. Nu există astfel de cărți de referință. O parte din informație este în cărți, o altă parte este colectată la conferințe și la ceva ce trebuie să vă contactați.

O altă problemă este că analiștii se simt bine în lumea numerelor, dar nu sunt întotdeauna confortabile în afaceri. Astfel de oameni sunt adesea introvertiți, este dificil pentru ei să comunice și, prin urmare, este dificil pentru ei să transmită în mod convingător clienților informații despre rezultatele cercetării. Pentru dezvoltarea acestor abilități, aș recomanda astfel de cărți ca "principiul piramidei", "vorbiți în diagrame". Acestea contribuie la dezvoltarea abilităților de prezentare, în mod concis și clar gândurile lor.

Am fost foarte util să particip la diferite campionate de caz în timp ce studiez la HSE. Campionatele de caz sunt competiții inteligente pentru studenți, unde trebuie să studiați problemele de afaceri și să vă oferiți decizia. Acestea sunt două specii: consultanță Campionate de caz Campionate, cum ar fi McKinsey, BCG, accentuare, precum și campionate independente de tip ChangeLelenge. În timpul participării la acestea, am învățat să văd și să rezolv sarcinile complexe - de a identifica problema și structurarea acesteia la protecția recomandărilor pentru soluția sa.

Oleg Mikhalsky despre piața rusă și specificul creării unui nou produs în domeniul datelor mari

Înainte de a veni la Acronis, am fost deja angajat în lansarea de noi produse pe piață în alte companii. Este întotdeauna interesant și dificil în același timp, așa că am fost imediat interesat de posibilitatea de a lucra servicii cloud și soluții pentru stocarea datelor. În acest domeniu, toată experiența mea anterioară în industria IT a fost utilă, inclusiv propriul proiect de pornire I-Accelerator. Prezența educației în afaceri (MBA) a ajutat, de asemenea, în plus față de ingineria de bază.

În Rusia, companiile mari - bănci, operatori de telefonie mobilă etc. - este nevoie să analizăm date mari, astfel încât în \u200b\u200bțara noastră există perspective pentru cei care doresc să lucreze în acest domeniu. Adevărat, multe proiecte integrează acum, adică pe baza evoluțiilor străine sau a tehnologiilor open source. În astfel de proiecte, nu sunt create abordări și tehnologii fundamentale noi, dar sunt adaptate evoluțiile existente. În Acronis, am mers la un alt mod și, după analizarea alternativelor existente, am decis să investim în propria noastră dezvoltare, creând un sistem de depozitare fiabilă pentru date mari, care nu este inferior la cost, de exemplu, Amazon S3, dar funcționează fiabil și eficient pe o scară semnificativ mai mică. Dezvoltarea proprie pentru datele mari este, de asemenea, printre companiile importante de Internet, dar ele sunt mai degrabă concentrate asupra nevoilor interne decât satisfacția nevoilor clienților externi.

Este important să se înțeleagă tendințele și forțele economice care afectează zona de prelucrare a datelor mari. Pentru a face acest lucru, citiți foarte mult, ascultați performanțele specialiștilor autoritar în industria IT, vizitați conferințe tematice. Aproape fiecare conferință are o secțiune de date mare, dar toți vorbesc despre asta în diferite unghiuri: din punctul de vedere al tehnologiei, afacerilor sau marketingului. Puteți merge pentru lucrări de proiectare sau stagiu în companie, care desfășoară deja proiecte pe această temă. Dacă sunteți încrezători în abilitățile dvs., nu este prea târziu să organizați o pornire în sfera datelor mari.

Fără contact constant cu piața Noi riscuri de dezvoltare pentru a fi nerevendicate

Adevărat, când sunteți responsabil pentru un produs nou, mult timp merge la analitică a pieței și comunicând cu potențialii clienți, parteneri, analiști profesioniști care cunosc multe despre clienți și nevoile lor. Fără contact constant cu piața, noile riscuri de dezvoltare fiind nerevendicate. Există întotdeauna o mulțime de incertitudine: trebuie să înțelegeți cine va deveni primii utilizatori (adoptatori precoce) că aveți valoroși pentru ei și apoi atrageți o audiență în masă. Cea de-a doua sarcină cea mai importantă este să formeze și să transmită dezvoltatorilor o viziune clară și holistică a produsului final pentru a le motiva să lucreze în astfel de condiții atunci când unele cerințe se pot schimba și prioritățile depind de părerevenind de la primii clienți. Prin urmare, o sarcină importantă este gestionarea așteptărilor clienților pe o parte și dezvoltatori pe de altă parte. Astfel încât nici alții să-și piardă interesul și au adus proiectul înainte de finalizare. După primul proiect de succes, devine mai ușor, iar sarcina principală va găsi modelul de creștere adecvat pentru noua afacere.

La un moment dat, am auzit termenul "date mari" de la GREF german (șeful Sberbank). Ei spun că acum lucrează în mod activ la introducere, pentru că îi vor ajuta să reducă timpul de lucru cu fiecare client.

A doua oară am fugit în acest concept în magazinul online al clientului, pe care am lucrat și a mărit gama de la o pereche de mii la câteva zeci de mii de poziții de mărfuri.

Pentru a treia oară, când am văzut că este necesar un mare analist de date în Yandex. Apoi am decis să îndrăznesc să-mi dau seama în acest subiect și, în același timp, scrieți un articol care să spună ceea ce termenul este pentru termenul care excită mințile managerilor de top și spațiul de internet.

Vvv sau vvvvv.

De obicei, oricare dintre articolele dvs. încep cu explicația ca și pentru termenul de asistență. Acest articol nu va fi o excepție.

Cu toate acestea, acest lucru este cauzat în primul rând fără dorința de a arăta ceea ce sunt inteligent, dar faptul că subiectul este cu adevărat complex și necesită o explicație atentă.

De exemplu, puteți citi ce date mari sunt în Wikipedia, nu înțelegeți nimic și apoi reveniți la acest articol, astfel încât să înțelegeți în continuare definiția și aplicabilitatea pentru afaceri. Deci, să începem cu descrierea și apoi la exemplele de afaceri.

Datele mari sunt date mari. În mod surprinzător, da? Într-adevăr, este tradus din limba engleză ca "date mari". Dar această definiție se poate spune pentru manechine.

Important. Tehnologia Big Data este o abordare / metodă de procesare a unui număr mai mare de date pentru a obține informații noi greu de manevrat în moduri convenționale.

Datele pot fi prelucrate (structurate), cât și disparate (care sunt, nestructurate).

Termenul în sine a apărut relativ recent. În 2008, această abordare a fost prevăzută în Jurnalul științific ca fiind ceva necesar pentru a lucra cu o cantitate mare de informații, care crește în progresia geometrică.

De exemplu, informații anuale pe Internet, care trebuie stocate, bine, procesului, creșteți cu 40%. Din nou. + 40% În fiecare an apare pe internet de informații noi.

Dacă documentele tipărite sunt clare, iar metodele lor de procesare sunt, de asemenea, clare (transferați în format electronic, coaseți la un dosar, numerotate), ce să faceți cu informațiile prezentate în totalitate "Media" și alte volume:

  • documente pe Internet;
  • bloguri și rețele sociale;
  • surse audio / video;
  • dispozitive de măsurare;

Există caracteristici care vă permit să atribuiți informații și date la date mari.

Adică, nu toate datele pot fi potrivite pentru analiză. În aceste caracteristici, conceptul cheie de mare dată este stabilit. Toate se potrivesc în trei V.

  1. Volum (de la ing. Volum). Datele sunt măsurate în magnitudinea volumului fizic al "documentului" care urmează să fie analizat;
  2. Viteza (de la eng. Viteza). Datele nu costă în dezvoltarea lor, dar cresc constant, de aceea prelucrarea rapidă este necesară pentru a obține rezultate;
  3. Matur (din engleză. Varietate). Este posibil ca datele să nu fie un singur format. Aceasta este, ele pot fi disparate, structurate sau structurate parțial.

Cu toate acestea, se adaugă periodic la VVV și a patra V (veridicitatea - fiabilitatea / credibilitatea datelor) și chiar și cea de-a cincea V (în unele exemple de realizare este viabilitatea - viabilitatea, în altele este valoarea valorii).

Undeva am văzut 7V, care caracterizează datele referitoare la data mare. Dar, în opinia mea, acest lucru este din serie (unde P este adăugat periodic, deși este pentru înțelegerea inițială 4-X).

Suntem deja peste 29.000 de oameni.
introduce

Cine are nevoie de ea?

Este vorba de o întrebare logică, cum pot folosi informația (dacă aceasta, data mare este sute și mii de terabyte)? Nici măcar așa.

Iată informații. Deci, la ce a venit data mare? Care este utilizarea datelor mari în marketing și în afaceri?

  1. Bazele de date obișnuite nu pot fi stocate și prelucrarea (acum nu vorbesc nici măcar despre analiză, ci pur și simplu depozitarea și prelucrarea) unei cantități uriașe de informații.

    Data mare rezolvă această sarcină principală. Stochează cu succes și gestionează informațiile cu un volum mare;

  2. Structuri Informații provenite din diverse surse (video, imagini, documente audio și text), într-un aspect unic, ușor de înțeles și de răspuns;
  3. Formarea analiticii și crearea de previziuni exacte bazate pe informații structurate și prelucrate.

Este complicat. Pentru a vorbi pur și simplu, orice marketer care înțelege că, dacă explorați o cantitate mare de informații (despre dvs., compania dvs., concurenții dvs., industria dvs.), puteți obține rezultate foarte decente:

  • Înțelegerea completă a companiei dvs. și a afacerii dvs. din partea numerelor;
  • Explorați concurenții dvs. Și acest lucru, la rândul său, va da ocazia de a ieși din față din cauza prevalenței lor;
  • Aflați noi informații despre clienții dvs.

Și tocmai pentru că tehnologia de date mare oferă următoarele rezultate, totul este purtat cu el.

Încercarea de a fixa acest caz în compania dvs. pentru a obține o creștere a vânzărilor și pentru a reduce costurile. Și dacă este specific, atunci:

  1. Creșterea vânzărilor încrucișate și vânzările suplimentare datorită cunoașterii mai bune a preferințelor clienților;
  2. Găsirea produselor populare și motive pentru care sunt cumpărate (și dimpotrivă);
  3. Îmbunătățirea produsului sau a serviciului;
  4. Îmbunătățirea nivelului de serviciu;
  5. Loialitatea și atenția clienților;
  6. Avertizare fraudă (mai relevantă pentru sectorul bancar);
  7. Reducerea costurilor excesive.

Cel mai frecvent exemplu, care este dat în toate sursele - este, desigur, compania Applecare colectează date despre utilizatorii săi (telefon, ceas, calculator).

Se datorează prezenței sistemului ecologic pe care corporația știe atât de mult despre utilizatori și în continuare, utilizează acest lucru pentru a profita.

Aceste și alte exemple de utilizare puteți citi în orice alt articol, cu excepția acestuia.

Mergem la viitor

Îți voi spune despre un alt proiect. Mai degrabă despre o persoană care construiește viitorul folosind soluții mari de date.

Aceasta este Ilon Mask și compania lui Tesla. Visul său principal este de a face autoturisme autonome, adică în spatele volanului, porniți autopilotul de la Moscova la Vladivostok și ... adormi, pentru că absolut nu trebuie să conduci o mașină, pentru că el va face totul .

Ar părea fantezie? Dar nu! Doar Ilon a venit mult mai înțelept decât Google, care gestionează mașinile cu zeci de sateliți. Și a mers la un alt mod:

  1. În fiecare mașină vândută, este setat un computer, care colectează toate informațiile.

    Toate - aceasta înseamnă întregul întreg. Despre șofer, stilul conducerii sale, drumuri în jur, mișcarea altor mașini. Volumul acestor date atinge 20-30 GB pe oră;

  2. Apoi, această informație prin satelit este transmisă la computerul central, care este angajat în procesarea acestor date;
  3. Pe baza datelor mari de date care procesează acest calculator, Se construiește un model al unei mașini fără pilot.

Apropo, dacă Google Business merge destul de rău și mașinile lor tot timpul intră în accident, atunci masca, datorită faptului că munca cu date mari se întâmplă mult mai bine, deoarece modelele de testare arată rezultate foarte bune.

Dar ... totul este din economie. Ce suntem cu toții despre profituri, da despre profit? Mult, care poate decide data mare, este complet nerecunoscut cu câștigurile și banii.

Statisticile Google, doar fiind bazate pe date mari, arată un lucru interesant.

Înainte ca medicii să declare începutul epidemiei bolii în unele regiuni, numărul interogărilor de căutare privind tratamentul acestei boli este în creștere semnificativ.

Astfel, studiul corect al datelor și analiza acestora poate forma previziuni și prezice începerea epidemiei (și, în consecință, prevenirea acestuia) este mult mai rapidă decât încheierea organismelor oficiale și a acțiunilor lor.

Aplicație în Rusia

Cu toate acestea, Rusia, ca întotdeauna, ușor "încetinește". Deci, definiția datelor mari din Rusia a apărut acum mai mult de 5 ani (acum sunt acum despre companiile obișnuite).

Și, în ciuda faptului că aceasta este una dintre cele mai rapide piețe din lume (droguri și arme fumat nervos pe partea), deoarece anual piața de colectare și analiză a datelor mari va intra cu 32%.

Pentru a caracteriza piața mare de date din Rusia, îmi amintesc o glumă veche. Data mare este ca sexul până la 18 ani.

Toată lumea este spusă despre asta, există multe zgomote și câteva acțiuni reale în jurul ei și toată lumea este rușine să admită că nu sunt angajați în acest sens. Și adevărul este, în jurul acestei multe zgomote, dar mici acțiuni reale.

Deși cunoscutul companiei de cercetare Gartner a anunțat deja că data mare este o tendință din ce în ce mai mare (ca și prin intermediul inteligenței artificiale) și instrumente destul de independente pentru analizarea și dezvoltarea tehnologiilor avansate.

Nișele cele mai active, unde se aplică date mari din Rusia, acestea sunt bănci / asigurări (fără de mirare că am început un articol cu \u200b\u200bșeful Sberbank), sfera de telecomunicații, comerțul cu amănuntul, imobiliară și ... sectorul public.

De exemplu, vă voi spune mai multe despre o pereche de sectoare ale economiei, care utilizează algoritmi de date mari.

Bănci

Să începem cu băncile și informațiile pe care le colectează despre noi și acțiunile noastre. De exemplu, am luat primele 5 bănci rusești care investesc activ în date mari:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Alfa Bank;
  5. Tinkoff Bank.

Este deosebit de frumos să vedem printre liderii ruși ai Alpha Bank. Cel puțin, este plăcut să realizăm că banca, partenerul oficial al cărui sunteți, înțelege nevoia de a introduce noi instrumente de marketing în compania dvs.

Dar exemple de utilizare și implementare cu succes a datelor mari, vreau să arăt pe o bancă care îmi place pentru un aspect non-standard și o faptă a fondatorului său.

Vorbesc despre Banca Tinkoff. Sarcina lor principală a fost dezvoltarea unui sistem de analiză a datelor mari în timp real datorită creșterii bazei de clienți.

Rezultate: Timpul proceselor interne a scăzut de cel puțin 10 ori, și de mai mult de 100 de ori.

Ei bine, și o mică distragere. Știți de ce am vorbit despre studiile și acțiunile non-standard ale lui Oleg Tinkov?

Doar în opinia mea, l-au ajutat să se întoarcă dintr-un om de afaceri al mâinii de mijloc, Koi mii în Rusia, într-unul dintre cei mai cunoscuți și recunoscuți antreprenori. În confirmare, uitați-vă acest neobișnuit și video interesant:

Proprietatea

În imobiliare, totul este mult mai dificil. Și acesta este exact exemplul pe care vreau să-l aduc pentru a înțelege data mare pentru a înțelege afacerea obișnuită. Datele inițiale:

  1. Cantitate mare de documentație text;
  2. Surse deschise (sateliți privați care transmit date despre modificările Pământului);
  3. Cantitate imensă de informații necontrolate pe Internet;
  4. Modificări continue în surse și date.

Și, pe baza acestui fapt, este necesar să se pregătească și să evalueze valoarea terenului, de exemplu, sub satul Ural. Profesioniști va dura o săptămână.

Epraisorii societății rusești și Roseco, care este de fapt o analiză a datelor mari cu ajutorul software-ului, va pleca pentru acest lucru nu mai mult de 30 de minute de muncă pe ședere. Comparați, săptămână și 30 de minute. Diferența colosală.

Bine, pentru o gustare

Desigur, cantități uriașe de informații nu pot fi stocate și procesate pe hard disk-uri simple.

Și software-ul care structurează și analizează datele sunt în general proprietăți intelectuale și de fiecare dată de dezvoltarea autorului. Cu toate acestea, există instrumente bazate pe toate farmecul:

  • Hadoop & Mapreduce;
  • Nosql baze de date;
  • Instrumente de clasă Discovery Class.

Pentru a fi sincer, nu voi putea explica în mod clar ceea ce diferă unul de celălalt, deoarece învață să se familiarizeze și să lucreze cu aceste lucruri în instituțiile fizice și matematice.

De ce am vorbit despre asta dacă nu pot explica? Amintiți-vă în toate fragmentele de filme Introduceți orice bancă și vedeți un număr mare de tot felul de hardware conectat la fire?

Același lucru la o dată mare. De exemplu, aici este un model care este în prezent unul dintre cei mai mulți lideri de pe piață.

Instrument mare dată

Costul din configurația maximă vine până la 27 de milioane de ruble pe raft. Aceasta este, desigur, versiunea de lux. Sunt pentru a vă asigura că veți urma crearea de date mari în afacerea dvs.

Pe scurt despre principalul lucru

Puteți întreba de ce lucrări de afaceri mici și mijlocii cu o dată mare?

În acest sens, vă voi răspunde la o ofertă de o singură persoană: "În viitorul apropiat, clienții vor fi solicitați de companii care să înțeleagă mai bine comportamentul, obiceiurile și le pot potrivi cât mai mult posibil".

Dar să luăm un adevăr în ochi. Pentru a introduce o dată mare în afacerea mică, este necesar să se dețină nu numai bugete mari pentru dezvoltarea și implementarea software-ului, ci și asupra conținutului specialiștilor, cel puțin cum ar fi un mare analist de date și Sysadmin.

Și acum am tăcut că trebuie să ai astfel de date pentru procesare.

Bine. Pentru întreprinderile mici, subiectul este aproape nu se aplică. Dar acest lucru nu înseamnă că trebuie să uitați tot ce citiți mai sus.

Studiți doar datele dvs., ci rezultatele analizei datelor cunoscute ca companii străine și rusești.

De exemplu, rețeaua țintă de vânzare cu amănuntul care utilizează analiștii de date mari a aflat că femeile însărcinate în fața celui de-al doilea trimestru de sarcină (de la 1 până la a 12-a săptămână de sarcină) cumpără în mod activ mijloace non-aromatice.

Datorită acestor date, le trimit cupoane cu reduceri la mijloace nealimentare, cu o perioadă limitată.

Și dacă sunteți doar o cafenea foarte mică, de exemplu? Da, foarte simplu. Utilizați aplicația de loialitate.

Și după un timp, datorită informațiilor acumulate, nu puteți oferi numai clienților relevanți nevoilor lor, ci și pentru a vedea cele mai nesigure și cele mai marginale feluri de mâncare literalmente o pereche de clicuri de mouse.

Prin urmare, ieșirea. Introducerea datei mari a afacerilor mici este greu de meritat, ci de a folosi rezultatele și evoluțiile altor companii - asigurați-vă că sunteți sigur.



Ți-a plăcut articolul? Împărtășește-l