Analyse de grandes quantités d'informations et. L'utilisation de grandes données en médecine. Gros problèmes d'utilisation de grandes données

Il a été prédit que le volume global mondial de données créées et répliquées en 2011 peut représenter environ 1,8 satetta (1,8 milliard de gigaoctets) - environ 9 fois plus que ce qui a été créé en 2006.

Définition plus complexe

Néanmoins ` big Data`Invitez plus qu'une simple analyse d'énormes quantités d'informations. Le problème n'est pas que les organisations créent d'énormes quantités de données et que la plupart d'entre elles sont présentées dans un format, mal pertinentes pour le format de base de données structuré traditionnel - ce sont des journaux Web, des enregistrements vidéo, des documents texte, du code de machine ou , par exemple, des données géospatiales. Tout cela est stocké dans de nombreux référentiels divers, parfois même à l'extérieur de l'organisation. En conséquence, la Société peut avoir accès à l'énorme quantité de leurs données et non outils requisÉtablir des relations entre ces données et apporter des conclusions importantes basées sur elles. Ajoutez ici le fait que les données sont maintenant mises à jour de plus en plus et plus souvent, et vous obtiendrez une situation dans laquelle les méthodes traditionnelles d'analyse de l'information ne peuvent pas affecter les énormes quantités de données constamment mises à jour, qui finissent et ouvre les technologies routières grandes données.

Meilleure définition

En substance, le concept grandes données Cela implique de travailler avec les informations d'un volume énorme et une variété de composition, très souvent mise à jour et située dans différentes sources afin d'accroître l'efficacité du travail, de créer de nouveaux produits et de la compétitivité croissante. Consulting Société Forrester donne une brève formulation: ` Big Data Combinez des techniques et des technologies qui suppriment la signification des données sur la limite extrême de la praticité ».

Quelle est la taille de la différence entre les analyses d'affaires et les grandes données?

Craig Bati, directeur exécutif du marketing et directeur de Fujitsu Australia Technologies, a indiqué que l'analyse des entreprises est un processus descriptif pour analyser les résultats obtenus par l'entreprise à une certaine période, quant à la vitesse de traitement grandes données Vous permet de faire une analyse prédictive, capable d'offrir des recommandations d'affaires pour l'avenir. La technologie de données importante vous permet également d'analyser davantage de types de données par rapport aux outils d'analyse Business Analytics, ce qui permet de vous concentrer non seulement sur des installations de stockage structurées.

Matt Slocum de O "Reilly Radar croit si big Data Et les analystes métier ont le même objectif (rechercher des réponses à la question), ils diffèrent les uns des autres dans trois aspects.

Les grandes données sont conçues pour traiter des informations plus importantes d'informations que l'analyste des affaires, ce qui correspond bien sûr à la définition traditionnelle des grandes données.
Les grandes données sont destinées au traitement plus rapidement obtenu et à modifier des informations, ce qui signifie une recherche et une interactivité profondes. Dans certains cas, les résultats sont formés plus rapidement que la page Web est chargée.
Les grandes données sont destinées à traiter les données non structurées, dont nous ne commençons à étudier que pour établir leur collecte et leur stockage, et nous nécessitons des algorithmes et la possibilité de dialogue pour faciliter la recherche des tendances contenues dans ces tableaux.

Selon un livre blanc publié Oracle `Oracle Information Architecture: Guide de l'architecte pour les grandes données. (Oracle Information Architecture: un guide d'architecte des grandes données), lorsque vous travaillez avec de grandes données, nous abordons des informations autrement que lors de l'analyse des entreprises.

Travailler avec de grandes données ne ressemble pas au processus d'intelligence commerciale habituelle, où un simple ajout de valeurs connu apporte le résultat: par exemple, le résultat de l'ajout de comptes payés devient un volume de vente pour l'année. Lorsque vous travaillez avec de grandes données, le résultat est obtenu dans le processus de nettoyage de la modélisation successive: d'abord l'hypothèse est mise en avant, un modèle statistique, visuel ou sémantique est construit, la loyauté envers les hypothèses étendues sa base est vérifiée, puis le Le prochain est mis en avant. Ce processus nécessite un chercheur ou une interprétation de valeurs visuelles ou compilant des requêtes interactives basées sur des connaissances, ou le développement d'algorithmes adaptatifs `Formation à la machine, capable d'obtenir le résultat souhaité. Et la durée de vie d'un tel algorithme peut être assez courte.

Méthodes d'analyse de grandes données

Il existe de nombreuses méthodes diverses pour analyser les tableaux de données, qui sont basés sur des outils empruntés à partir de statistiques et d'informatique (par exemple, apprentissage automatique). La liste ne prétend pas être complète, mais elle reflète les approches les plus demandées dans diverses industries. Dans le même temps, il convient de comprendre que les chercheurs continuent de travailler à la création de nouvelles techniques et d'améliorer ceux existants. De plus, certaines de ces méthodes ne sont pas nécessairement appliquées exclusivement aux grandes données et peuvent être utilisées avec succès pour les répartitions plus petites (par exemple, des tests A / B, une analyse de régression). Bien entendu, le réseau plus volumétrique et diversifié est analysé, les données plus précises et pertinentes peuvent être obtenues à la sortie.

Test A / B. La technique dans laquelle l'échantillon de contrôle est alternativement comparé aux autres. Ainsi, il est possible d'identifier la combinaison optimale d'indicateurs à atteindre, par exemple, la meilleure réponse des consommateurs pour une offre de marketing. Big Data vous permettent de dépenser un grand nombre d'itérations et d'obtenir un résultat statistiquement fiable.

Apprentissage de la règle de l'association. Un ensemble de techniques pour identifier les relations, c'est-à-dire Règles associatives entre les variables dans de grandes matrices de données. Utilisé B. mining de données..

Classification. Un ensemble de techniques qui vous permet de prédire le comportement des consommateurs sur un segment de marché spécifique (prendre des décisions sur le volume d'achat, de sortie, de la consommation, etc.). Utilisé B. mining de données..

L'analyse par grappes.. La méthode statistique de classification des objets par groupes par détection de caractéristiques communes non connues. Utilisé B. mining de données..

Crowdsourcing.. Méthodologie de collecte de données de grand nombre Sources.

Fusion de données et intégration des données. Un ensemble de techniques qui vous permet d'analyser les commentaires des utilisateurs de réseaux sociaux et de comparer les résultats des ventes en temps réel.

Mining de données.. Un ensemble de techniques qui vous permet de déterminer le plus susceptible à la catégorie de produits ou de services progressable des consommateurs, identifiez les caractéristiques des employés les plus performants, prédisez un modèle de comportement des consommateurs.

Ensemble d'apprentissage. Dans cette méthode, de nombreux modèles de prédicatif sont impliqués aux dépenses de la qualité des prédictions effectuées.

Algorithmes génétiques.. Dans cette technique solutions possibles Ils représentent sous la forme `chromosome`, qui peut être combiné et mutuellement. Comme dans le processus d'évolution naturelle, la personne la plus adaptée survit.

Apprentissage automatique. Direction en informatique (historiquement, le nom de l'intelligence `artificielle) a été retranchée historiquement, ce qui poursuit l'objectif de créer des algorithmes d'auto-étude basés sur une analyse de données empiriques.

Traitement des langues naturelles (Nlp.). Ensemble d'emprunt à partir de techniques informatiques et de linguistique pour reconnaître la langue naturelle d'une personne.

Analyse de réseau. Un ensemble de méthodes d'analyse des liens entre les nœuds des réseaux. En ce qui concerne les réseaux sociaux vous permet d'analyser la relation entre les utilisateurs individuels, les entreprises, les communautés, etc.

Optimisation. Un ensemble de méthodes numériques pour la refonte des systèmes et des processus complexes pour améliorer un ou plusieurs indicateurs. Il est utile de prendre des décisions stratégiques, par exemple la composition de la gamme de produits lancée sur le marché, l'analyse des investissements, etc.

La reconnaissance de formes. Un ensemble de techniques avec des éléments d'auto-apprentissage pour prédire un modèle comportemental de consommation.

Modélisation prédictive. Un ensemble de techniques permettant de créer un modèle mathématique avant le scénario de développement d'événements probable spécifié. Par exemple, une analyse de la base de données CRM-signes pour des conditions possibles auxquelles les abonnés seront invités à modifier le fournisseur.

Régression. Un ensemble de méthodes statistiques pour identifier les modèles entre une modification de la variable dépendante et une ou plusieurs indépendants. Il est souvent utilisé pour la prévision et les prévisions. Utilisé dans les mines de données.

Analyse des sentiments. Les méthodes d'évaluation du sentiment des consommateurs sont basées sur les techniques de reconnaissance de la langue humaine. Ils vous permettent d'être sorti du général flux d'information Messages liés au sujet d'intérêt (par exemple, par le produit de consommation). Suivant pour estimer la polarité du jugement (positif ou négatif), le degré d'émotivité, etc.

Traitement de signal.. Emprunté à l'ingénierie de la radio Un ensemble de techniques qui poursuit la cible de reconnaissance cible contre l'arrière-plan du bruit et son analyse ultérieure.

Analyse spatiale. L'ensemble de méthodes de statistiques d'analyse partiellement empruntées pour analyser les données spatiales - Topologie du terrain, coordonnées géographiques, géométrie des objets. La source grandes données Dans ce cas, les systèmes d'information géographique fonctionnent souvent (SIG).

Statistiques. Science collective, organisation et interprétation des données, y compris le développement de questionnaires et la conduite des expériences. Les méthodes statistiques sont souvent utilisées pour des conjugations estimées sur les relations entre celles ou autres événements.

Enseignement supervisé. Méthodes d'usinage basées sur des techniques d'apprentissage de la machine qui vous permettent d'identifier des relations fonctionnelles dans les matrices de données analysées.

Simulation. La modélisation du comportement des systèmes complexes est souvent utilisée pour prédire, prévision et étude de divers scripts lors de la planification.

Analyse des séries chronologiques. Ensemble d'emprunts à partir de statistiques et traitement numérique Signaux d'analyse des méthodes répétées au fil du temps des séquences de données. Certaines des applications évidentes suivent le marché des valeurs mobilières ou l'incidence des patients.

Apprentissage non supervisé. Un ensemble de techniques d'apprentissage de la machine basées sur des techniques d'apprentissage de la machine qui vous permettent d'identifier les relations fonctionnelles cachées dans les matrices de données analysées. A des caractéristiques communes avec L'analyse par grappes..

Visualisation. Méthodes représentation graphique Les résultats de l'analyse des grandes données sous forme de diagrammes ou d'images animées pour simplifier l'interprétation de la compréhension des résultats obtenus.

Une représentation visuelle des résultats d'une vaste analyse de données revêt une importance fondamentale pour leur interprétation. Il n'est pas secret que la perception humaine est limitée et les scientifiques continuent de mener des recherches dans le domaine de l'amélioration des méthodes de présentation de données modernes sous forme d'images, de diagrammes ou d'animations.

Boîte à outils analytique

Pour 2011, certaines des approches énumérées dans la sous-section précédente ou leur combinaison définitive permettent de mettre en œuvre des moteurs analytiques pour travailler avec des données importantes dans la pratique. Parmi les systèmes d'analyse de données ouverts gratuits ou relativement peu coûteux, vous pouvez recommander:

Analyse de la révolution (basée sur le langage R pour mat. Serrasses).

Un intérêt particulier pour cette liste représente Apache Hadoop - par Open Source, qui a été testé au cours des cinq dernières années, l'analyseur des données par la plupart des trackers partage. Dès que Yahoo a ouvert le code Hadoop avec une communauté open source, une direction générale pour la création de produits basée sur Hadoop est apparue dans l'industrie informatique. Presque tous les moyens d'analyse modernes grandes données Fournir des outils d'intégration avec Hadoop. Leurs développeurs agissent comme des startups et des sociétés mondiales bien connues.

Marquez des solutions pour gérer les grandes données

Grandes plateformes de données (BDP, grande plate-forme de données) comme moyen de lutte contre les tâches numériques

Capacité d'analyser big Data, Dans la surprise appelée de grandes données, perçues comme une bonne et définitivement. Mais est-ce vraiment? Qu'est-ce que l'accumulation de données rampante peut-elle? Très susceptibles que les psychologues nationaux relativement à l'homme s'appellent le stockage pathologique, la silhloromicie ou le «syndrome de PLUSHKIN». En anglais, une passion vicieuse pour recueillir tout, dans une rangée s'appelle Hording (du trousse anglais - "stock"). Selon la classification des maladies mentales, le chorode est compté pour les troubles mentaux. La hautage numérique (saupoudrage numérique) est ajoutée à l'ère numérique, elle peut subir une identité individuelle et des entreprises entières et des organisations ().

Marché mondial et russe

Big Data Paysage - Principaux fournisseurs

Intérêt pour les outils de collecte, de traitement, de gestion et d'analyse grandes données Exposé toutes les principales entreprises informatiques, qui sont assez naturelles. Tout d'abord, ils font face directement à ce phénomène dans leur propre entreprise, deuxièmement, big Data Ouvrez d'excellentes opportunités pour le développement de nouvelles niches du marché et d'attirer de nouveaux clients.

Beaucoup de startups sont apparus sur le marché qui rend une entreprise sur le traitement d'énormes tableaux de données. Certains d'entre eux utilisent l'infrastructure cloud finie fournie par gros joueurs comme Amazon.

Théorie et pratique des grandes données dans les industries

Histoire du développement

2017

TMAXSOFT Forecast: les prochaines données "Wave" nécessiteront la mise à niveau du SGBD.

Les entreprises sont connues que, dans leurs énormes données, il existe des informations importantes sur leurs entreprises et leurs clients. Si la société peut appliquer ces informations avec succès, elle aura un avantage significatif que celui des concurrents, et il sera en mesure d'offrir le meilleur que ceux-ci, produits et services. Cependant, de nombreuses organisations ne peuvent toujours pas utiliser efficacement big Data En raison du fait que leur infrastructure informatique héritée est incapable de fournir la capacité nécessaire des systèmes de stockage, des processus d'échange de données, des services publics et des applications nécessaires à la transformation et à l'analyse de grandes matrices de données non structurées pour extraire des informations précieuses d'eux indiquées dans Tmaxsoft.

En outre, une augmentation de la capacité du processeur nécessaire à l'analyse des volumes de données en constante augmentation peut nécessiter des investissements importants dans l'infrastructure informatique obsolète de l'organisation, ainsi que des ressources supplémentaires pouvant être utilisées pour développer de nouvelles applications et services.

Le 5 février 2015, la Maison Blanche a publié un rapport dans lequel la question a été discutée comment big Data»Établir divers prix pour différents acheteurs - pratique appelée« discrimination de prix »ou« prix différencié »(prix personnalisé). Le rapport décrit l'avantage des "big Data" pour les vendeurs et les acheteurs, et ses auteurs sont à la conclusion que de nombreuses questions problématiques découlant de l'avènement des grandes données et des prix différenciés peuvent être résolus dans le cadre de la législation existante de lutte contre la discrimination et LOIS protégeant les droits des consommateurs.

Le rapport note que, à l'heure actuelle, il n'y a que des faits individuels indiquant comment les entreprises utilisent des données importantes dans le contexte de la commercialisation et des prix différenciés individualisés. Ces informations montrent que les vendeurs utilisent des méthodes de tarification pouvant être divisées en trois catégories:

Étude de la courbe de la demande;
Orientation (direction) et tarification différenciée basée sur des données démographiques; et
marketing comportemental cible (ciblage comportemental - ciblage comportemental) et prix individualisés.

Étudier la courbe de la demande: Afin de clarifier la demande et l'étude du comportement des consommateurs, les spécialistes du marketing mènent souvent des expériences dans ce domaine, au cours de laquelle une des deux catégories de prix possibles est nommée de manière aléatoire par les clients. "Techniquement, ces expériences sont la forme de tarification différenciée, car leur conséquence devient des prix différents pour les clients, même s'ils sont" non discriminatoires "en ce sens que tous les clients ont la probabilité de" obtenir "à un prix plus élevé de la même chose . "

PILOTAGE): C'est la pratique de présenter des produits aux consommateurs en fonction de leur appartenance à un groupe démographique spécifique. Alors, Site Web compagnie informatique peut offrir un seul et même ordinateur portable avec divers types d'acheteurs à des prix différents, réglé sur la base d'informations rapportées par eux (par exemple, selon que si cet utilisateur Représentant des organismes d'État, des institutions scientifiques ou commerciales, ou par une personne privée) ou de leur lieu géographique (par exemple, défini par l'adresse IP de l'ordinateur).

Marketing comportemental cible et prix individualisés: Dans ces cas, des données personnelles des acheteurs sont utilisées pour les prix de la publicité et des personnalisés ciblés pour certains produits. Par exemple, des annonceurs en ligne utilisent collectés par des réseaux publicitaires et des cookies de tiers donnent des données sur l'activité des utilisateurs sur Internet afin de viser à envoyer leur matériel promotionnel. Une telle approche, d'une part, permet aux consommateurs de recevoir de la publicité de biens et de services pour eux, elle peut toutefois causer les préoccupations de ces consommateurs qui ne veulent pas certains types de leurs données personnelles (telles que des informations sur Des sites de visite liés aux problèmes médicaux et financiers ont été collectés sans leur consentement.

Bien que le marketing comportemental ciblé soit répandu, il existe relativement peu de preuves de tarification individualisée dans l'environnement en ligne. Le rapport suggère que cela peut être dû au fait que les méthodes correspondantes sont toujours en cours d'élaboration, ou avec le fait que les entreprises ne sont pas pressées d'utiliser des prix individuels (ou préfèrent les éloges à ce sujet) - peut-être, craignant la réaction négative de consommateurs.

Les auteurs du rapport estiment que "pour un consommateur individuel, l'utilisation de données importantes est sans aucun doute dû à la fois au rendement potentiel et aux risques". Reconnaissant que lors de l'utilisation de données importantes, des problèmes de transparence et de discrimination apparaissent, le rapport affirme en même temps que les lois existantes antidiscrimination et les lois sur la protection des consommateurs sont suffisantes pour les résoudre. Toutefois, le rapport souligne également la nécessité de "contrôle continu" dans les cas où les entreprises utilisent des informations confidentielles par une manière opaque ou des méthodes non couvertes par un cadre réglementaire existant.

Ce rapport est une continuation des efforts de la Maison Blanche pour étudier l'utilisation de «de grandes données» et de la tarification discriminatoire sur Internet et des conséquences pertinentes pour les consommateurs américains. Plus tôt, il a déjà été signalé que le groupe de travail de la Maison Blanche pour de grandes données a publié son rapport sur cette question en mai 2014. La Commission fédérale pour le commerce (FTC) a également examiné ces questions lors du séminaire sur la discrimination en septembre 2014 en septembre 2014 en raison de l'utilisation de données importantes.

2014

Gartner dissipe les mythes sur "Big Data"

Dans la note analytique de l'automne 2014, Gartner a énuméré un certain nombre de mythes communs chez les gestionnaires informatiques concernant les grandes données et leur réfutation est donnée.

Tout le monde met en œuvre de gros systèmes de traitement de données plus rapidement que nous

L'intérêt pour les technologies de données plus grandes est enregistré: 73% des organisations interrogées par Gartner Analystes cette année investissent déjà dans des projets pertinents ou sont collectés. Mais la plupart de ces initiatives sont toujours aux premières étapes et seulement 13% des répondants ont déjà mis en œuvre de telles solutions. La chose la plus difficile est de déterminer comment extraire les revenus des données importantes, décider où commencer. Dans de nombreuses organisations sont bloquées dans la phase pilote, car elles ne peuvent pas lier nouvelle technologie à des processus opérationnels spécifiques.

Nous avons tellement de données qu'il n'est pas nécessaire de s'inquiéter des petites erreurs en eux

Certains gestionnaires informatiques estiment que de petits défauts dans les données n'affectent pas les résultats globaux de l'analyse d'énormes volumes. Lorsqu'il y a beaucoup de données, chaque erreur affecte que chaque erreur affecte moins le résultat, les analystes marquent, mais devient également plus. De plus, la plupart des données analysées sont une structure ou une origine externe, inconnue, de sorte que la probabilité d'erreurs augmente. Ainsi, dans le monde des grandes données, la qualité est en fait beaucoup plus importante.

La technologie de données importante annulera la nécessité d'intégrer les données

Big Data promet la possibilité de traiter les données dans un format d'origine avec la formation automatique du circuit tel qu'il est lu. On pense que cela permettra d'analyser les informations des mêmes sources à l'aide de plusieurs modèles de données. Beaucoup pensent que cela permettra également aux utilisateurs finaux d'interpréter tout ensemble de données à sa discrétion. En réalité, la plupart des utilisateurs ont souvent besoin d'une manière traditionnelle avec schéma finiLorsque les données sont formatées en conséquence, il existe des accords sur le niveau d'intégrité de l'information et la manière dont il devrait se rapporter au scénario d'utilisation.

L'entrepôt de données n'a pas de sens à utiliser pour des analyses complexes

De nombreux administrateurs de systèmes de gestion de l'information estiment qu'il n'a aucun sens de consacrer du temps à créer un entrepôt de données, en tenant compte de ce que les systèmes analytiques complexes utilisent de nouveaux types de données. En fait, dans de nombreux systèmes d'analyse complexe utilise des informations provenant du stockage de données. Dans d'autres cas, de nouveaux types de données doivent être en outre préparés pour analyser dans de grands systèmes de traitement de données; Il est nécessaire de prendre des décisions sur l'adéquation des données, les principes d'agrégation et le niveau de qualité nécessaire - cette préparation peut se produire en dehors du référentiel.

Les lacs de données viendront à modifier des installations de stockage de données

En réalité, les fournisseurs sont des clients trompeurs, positionnant les lacs de données (Data Lakes) en remplacement des installations de stockage ou comme des éléments critiques d'infrastructure analytique. Les technologies fondamentales des lacs des données manquent de la maturité et de la latitude de la fonctionnalité inhérente aux installations de stockage. Par conséquent, les dirigeants responsables de la gestion des données devraient attendre que les lacs atteignent le même niveau de développement, croyez à Gartner.

Accenture: 92% du système de mise en œuvre de grandes données sont satisfaits du résultat

Parmi les principaux avantages des grandes données, les répondants ont appelé:

"Recherche de nouvelles sources de revenus" (56%),
"Améliorer l'expérience client" (51%),
"Nouveaux produits et services" (50%) et
"L'afflux de nouveaux clients et la préservation de la fidélité plus ancienne" (47%).

Dans l'introduction de nouvelles technologies, de nombreuses entreprises sont confrontées à des problèmes traditionnels. Pour une trottoir de 51%, la sécurité était de 47% - un budget de 41% - l'absence de cadres nécessaires et une complexité de 35% lors de l'intégration d'un système existant. Presque toutes les entreprises interrogées (environ 91%) envisagent de résoudre le problème du manque de personnel et de recruter des spécialistes des grandes données.

Les entreprises optimistes évaluent les futures technologies des grandes données. 89% croient qu'ils changeront l'entreprise autant qu'Internet. 79% des répondants ont souligné que les entreprises qui ne jouissent pas de données importantes perdront un avantage concurrentiel.

Cependant, les répondants ont traité l'opinion qu'il valait la peine d'être grande. 65% des répondants estiment que celles-ci sont des "biges cartes de données", 60% sont convaincus qu'il s'agit de "analyses avancées et d'analyse", et 50% est que ce sont des "données des outils de visualisation".

Madrid dépense 14,7 millions d'euros sur la gestion des grandes données

En juillet 2014, il est devenu connu que Madrid utiliserait une technologie de données importante pour gérer les infrastructures urbaines. Le coût du projet est de 14,7 millions d'euros, la base des solutions mises en œuvre sera des technologies pour l'analyse et la gestion des grandes données. Avec leur aide, l'administration urbaine gérera le travail avec chaque fournisseur de services et de le payer en fonction du niveau des services.

Nous parlons des entrepreneurs de l'administration, qui sont suivis de l'état des rues, de l'éclairage, de l'irrigation, des plantations vertes, de réaliser le nettoyage du territoire et de l'exportation, ainsi que le traitement des ordures. Au cours du projet, 300 indicateurs clés de la performance des services urbains ont été élaborés pour des inspecteurs spécialement sélectionnés, sur la base de laquelle 1 5 000 contrôles et mesures différentes seront effectués quotidiennement. De plus, la ville commencera à utiliser une plate-forme technologique innovante appelée Madrid Inteligente (Mint) - Smart Madrid.

2013

Experts: Mode Peak sur Big Data

Tout le monde sans exception au fournisseur du marché de la gestion des données à l'heure actuelle, les technologies développent des technologies pour la gestion de la grande gestion des données. Cette nouvelle tendance technologique est également activement discutée par la communauté professionnelle, les développeurs et les analystes sectoriels et les consommateurs potentiels de ces solutions.

En janvier 2013, en janvier 2013 une vague de discussions autour de " grandes données"Dépassé toutes les tailles imaginables. Après avoir analysé le nombre de mentions de grandes données sur les réseaux sociaux, Datashift a été calculé qu'en 2012, ce terme a été utilisé à environ 2 milliards de fois dans des postes créés environ 1 million d'auteurs différents dans le monde. Cela équivaut à 260 messages par heure, avec le sommet des références s'élevant à 3070 références par heure.

Gartner: Chaque directeur informatique est prêt à dépenser de l'argent sur de grandes données

Après plusieurs années d'expériences avec de grandes technologies de données et de premières introductions en 2013, l'adaptation de telles solutions Cela augmentera de manière significative, prédit dans Gartner. Les chercheurs ont interrogé les dirigeants informatiques du monde entier et ont constaté que 42% des personnes interrogées ont déjà investi dans une technologie de données importante ou envisagent de faire de tels investissements au cours de la prochaine année (données pour mars 2013).

Les entreprises sont obligées de dépenser de l'argent sur la technologie de traitement. grandes donnéesÉtant donné que le paysage de l'information change rapidement, exigeant de nouvelles approches en matière de traitement de l'information. De nombreuses entreprises ont déjà réalisé que de grandes matrices de données sont essentielles et travaillent avec eux vous permettent d'obtenir des avantages non disponibles lors de l'utilisation de sources traditionnelles d'informations et de méthodes de traitement. En outre, le devoir permanent du sujet des «grandes données» dans les médias est l'intérêt de chauffage dans les technologies concernées.

Frank Buytendijk, vice-président Gartner, a même appelé la société à tempérer la poussière, comme certains craignent de retarder leurs concurrents dans le développement de grandes données.

"Il n'est pas nécessaire de s'inquiéter de la possibilité de mettre en œuvre des idées sur la base de technologies" de grandes données ", est en fait infini», a-t-il déclaré.

Selon Gartner, d'ici 2015, 20% des sociétés de liste mondiales 1000 adopteront une attention stratégique sur "l'infrastructure".

En prévision des nouvelles fonctionnalités qui leur apporteront avec elles la technologie du traitement de «grandes données», de nombreuses organisations organisent désormais le processus de collecte et de stockage de divers types d'informations.

Pour les organisations éducatives et gouvernementales, ainsi que des entreprises industrielles, le plus grand potentiel de transformation des entreprises est déposé en combinaison de données accumulées avec les données dites sombres (littéralement «Données sombres»), ce dernier incluent des messages. e-mail, Multimédia et autre contenu similaire. Selon Gartner, c'est ceux qui apprendront à gérer les données des informations d'information les plus différentes.

Enquête Cisco: les grandes données aideront à augmenter les budgets informatiques

Au cours de l'étude (printemps 2013), appelée Rapport sur la technologie mondiale connectée Cisco, menée dans 18 pays par une société d'analyse indépendante InsightExpress, 1 800 étudiants ont été interrogés et le même nombre de jeunes professionnels âgés de 18 à 30 ans. L'enquête a été menée pour déterminer le niveau de préparation des services informatiques à la mise en œuvre du projet Big Data. et avoir une idée des problèmes liés, des défauts technologiques et de la valeur stratégique de ces projets.

La plupart des entreprises collectent, écrit et analysent les données. Néanmoins, le rapport indique que de nombreuses entreprises liées à de grandes données sont confrontées à un certain nombre de problèmes complexes des entreprises et des technologies de l'information. Par exemple, 60% des répondants reconnaissent que les grandes solutions de données peuvent améliorer les processus décisionnels et accroître la compétitivité, mais seulement 28% déclaraient que les avantages stratégiques réels des informations cumulées sont déjà obtenus.

Plus de la moitié des gestionnaires informatiques Les répondants estiment que les grands projets de données contribueront à accroître les budgets informatiques de leurs organisations, car les technologies, le personnel et les compétences professionnelles seront accrues. Dans le même temps, plus de la moitié des répondants s'attendent à ce que de tels projets puissent accroître les budgets informatiques de leurs sociétés en 2012. 57% sont convaincus que les grandes données augmenteront leurs budgets au cours des trois prochaines années.

81% des répondants ont déclaré que tous (ou au moins certains) de grands projets de données nécessiteraient des demandes cloud computing. Ainsi, la distribution des technologies de cloud peut affecter la vitesse de la distribution de grandes solutions de données et sur les valeurs de ces solutions professionnelles.

Les entreprises collectent et utilisent les données les plus différents typescomme structuré et non structuré. Voici des sources que les données des participants à l'enquête reçoivent (Rapport sur la technologie mondiale connectée Cisco):

Près de la moitié (48%) des gestionnaires informatiques prédit le doublement de la charge sur leur réseau au cours des deux prochaines années. (Ceci est particulièrement caractéristique de la Chine, où 68% des répondants et de l'Allemagne sont respectés à un point de vue - 60%). 23% des répondants attendent le triplement de la charge de réseau au cours des deux prochaines années. Dans le même temps, seulement 40% des répondants ont déclaré que l'augmentation explosive du trafic des réseaux.

27% des répondants ont reconnu qu'ils ont besoin de meilleures politiques informatiques et de mesures de sécurité de l'information.

21% doit élargir la bande passante.

Les grandes données ouvrent de nouvelles opportunités avant que les services informatiques augmentent la valeur et forment une relation étroite avec les unités commerciales, permettant d'accroître le revenu et de renforcer la situation financière de la société. Les grands projets de données font des divisions avec un partenaire stratégique d'unités d'affaires.

Selon 73% des répondants, il s'agit du service informatique qui deviendra la principale locomotive de la mise en œuvre de la grande stratégie de données. Dans le même temps, ils envisagent des répondants, d'autres ministères se connecteront également à la mise en œuvre de cette stratégie. Tout d'abord, il s'agit des ministères de la finance (24% des répondants), de la recherche (20%), opérationnelle (20%), d'ingénierie (19%), ainsi que des départements marketing (15%) et des ventes (14%) .

Gartner: Pour gérer les grandes données, des millions de nouveaux emplois sont nécessaires.

Le monde des coûts informatiques a été atteint 3,7 milliards de dollars d'ici 2013, soit 3,8% de dépenses de technologie de l'information en 2012 (la prévision à la fin de l'année est de 3,6 milliards de dollars). Segment grandes données (Big Data) développera des taux beaucoup plus élevés, dit le rapport Gartner.

D'ici 2015, 4,4 millions d'emplois dans le domaine des technologies de l'information seront créés pour desservir des données importantes, dont 1,9 million d'emplois. De plus, chacun lieu de travail Il comportera la création de trois emplois supplémentaires en dehors du secteur informatique, de sorte que seulement aux États-Unis au cours des quatre années suivantes, 6 millions de personnes travaillent pour maintenir l'économie de l'information.

Selon les experts de Gartner, le principal problème est que dans l'industrie pour cela, pas suffisamment de talents: le système éducatif privé et l'État, par exemple, aux États-Unis ne sont pas en mesure de fournir à l'industrie un nombre suffisant de personnel qualifié. Donc, des nouveaux emplois mentionnés dans les cadres informatiques ne seront assurés que l'un des trois.

Les analystes estiment que le rôle de la peinture de personnel informatique qualifié devrait s'accompagner directement à la société, qui en ont besoin, car ces employés leur permettront de leur adopter une nouvelle économie de l'information de l'avenir.

2012

Le premier scepticisme pour "grandes données"

Les analystes des entreprises d'Ovou et de Gartner suggèrent que pour la mode en 2012 Thèmes grandes données peut venir le moment de la libération des illusions.

Le terme "grandes données", à ce moment-là, en règle générale, dénote le nombre croissant d'informations à venir mode opérationnel Des médias sociaux, des réseaux de capteurs et d'autres sources, ainsi qu'une gamme croissante d'outils utilisés pour le traitement des données et l'identification des tendances commerciales importantes basées sur elles.

"En raison du battage médiatique (ou malgré cela) concernant l'idée de données importantes, les fabricants en 2012 avec un grand espoir ont examiné cette tendance", a déclaré Tony Bayer, Analyste d'Ovum.

Bayer a déclaré que DataSift a effectué une analyse rétrospective de la mention de données importantes dans

Quoi Big Data. (au sens propre - big Data)? Tournons d'abord au dictionnaire Oxford:

Données - Valeurs, signes ou symboles qui exploite l'ordinateur et qui peuvent être stockés et transmis sous la forme de signaux électriques, enregistrés sur des supports magnétiques, optiques ou mécaniques.

Terme Big Data. Utilisé pour décrire une grande et croissante de façon exponentielle avec une heure de réglage de données. Pour traiter un tel nombre de données, ne vous faites pas.

Les avantages que les grandes données fournissent:

Collecte de données de différentes sources.
Améliorer les processus opérationnels grâce à des analyses en temps réel.
Stocker une énorme quantité de données.
Connaissances. Les grandes données sont plus perceptibles aux informations cachées à l'aide de données structurées et semi-structurées.
Les grandes données aident à réduire les risques et à faire des solutions intelligentes en raison d'une analyse de risque appropriée.

Exemples de Big Data.

New York Stock Exchange Daily génère 1 téraoctet Données sur les négociations sur la session précédente.

Des médias sociaux: Les statistiques indiquent que la base de données Facebook est chargée quotidiennement 500 téraoctets Les nouvelles données sont générées principalement en raison de téléchargements photo et de vidéos sur les serveurs de réseau social, la messagerie, les commentaires sous des posts, etc.

Moteur d'avion Génère 10 téraoctets Données toutes les 30 minutes en vol. Étant donné que des milliers de vols sont effectués quotidiennement, la quantité de données atteint les pétatabytes.

Classification Big Data.

Formes de données importantes:

Structuré
Non structuré
Semi-structuré

Forme structurée

Les données pouvant être stockées, être disponibles et transformées en forme avec un format fixe sont appelées structurées. Pendant longtemps, les sciences informatiques ont obtenu un grand succès pour améliorer le technicien pour travailler avec ce type de données (où le format est connu à l'avance) et appris à bénéficier. Cependant, il existe aujourd'hui des problèmes liés à la hausse des volumes à la taille mesurée dans la gamme de plusieurs zeettabites.

1 ZettaTabyte correspond à un milliard de téraoctet

En regardant ces chiffres, il est facile de vérifier la véracité du terme de grandes données et des difficultés de conjugué avec le traitement et le stockage de ces données.

Les données stockées dans la base relationnelle sont structurées et ont une forme, par exemple la table des employés de la société

Forme non structurée

Les données d'une structure inconnue sont classées comme non structurées. En plus des grandes tailles, une telle forme est caractérisée par un certain nombre de difficultés pour le traitement et la suppression d'informations utiles. Un exemple typique de données non structurées est une source hétérogène contenant une combinaison de fichiers texte simples, d'images et de vidéos. Aujourd'hui, les organisations ont accès au grand volume de données brutes ou non structurées, mais ne savent pas comment les bénéficier.

Forme semi-structurée

Cette catégorie contient les deux décrites ci-dessus, par conséquent, les données semi-structurées possèdent une forme de forme, mais en réalité ne sont pas définies à l'aide de tables dans des bases relationnelles. Un exemple de cette catégorie est les données personnelles présentées dans le fichier XML.

Prashant Rao.Homme.35 Seeema R.Femelle41 CrinièreHomme.29 Subrato Roy.Homme.26 Jeremiah J.Homme.35

Caractéristiques Big Data.

Croissance Big Data avec le temps:

Blue présentée des données structurées (données d'entreprise), qui sont stockées dans des bases relationnelles. D'autres couleurs sont des données non structurées de différentes sources (téléphonie IP, périphériques et capteurs, réseaux sociaux et applications Web).

Conformément à Gartner, de grandes données diffèrent en volume, taux de génération, variété et variabilité. Considérez ces caractéristiques plus en détail.

Le volume. En soi, le terme Big Data est associé à une grande taille. La taille des données est l'indicateur le plus important lors de la détermination de la valeur recouvrable possible. Quotidien 6 millions de personnes utilisent des supports numériques, dont les estimations préliminaires génèrent 2,5 octets de données de quintillion. Par conséquent, le volume est le premier à considérer la caractéristique.
La diversité - l'aspect suivant. Il fait référence aux sources hétérogènes et à la nature des données, qui peuvent être à la fois structurées et non structurées. Auparavant, les feuilles de calcul et les bases de données étaient les seules sources d'information considérées dans la plupart des applications. Aujourd'hui, les données sous forme d'emails, de photos, de vidéos, de fichiers PDF, audio sont également pris en compte dans des applications analytiques. Une telle variété de données non structurées conduit à des problèmes de stockage, d'exploitation minière et d'analyse: 27% des entreprises ne sont pas convaincues qu'ils fonctionnent avec des données appropriées.
Taux de génération. La rapidité avec laquelle les données sont accumulées et traitées pour répondre aux exigences, détermine le potentiel. La vitesse détermine la vitesse d'afflux d'informations à partir de sources - processus métier, journaux d'application, sites de réseautage social et média, capteurs, appareils mobiles. Le flux de données est énorme et continu dans le temps.
Variabilité Décrit l'inconstabilisation des données à certains moments qui complètent le traitement et la gestion. Par exemple, la plupart des données sont non structurées par la nature.

Big Data Analytics: quel est l'avantage des grandes données

Promotion de biens et services: L'accès aux données des moteurs de recherche et des sites, tels que Facebook et Twitter, permet aux entreprises de développer davantage de stratégies de marketing.

Amélioration du service des acheteurs: Les systèmes de rétroaction des acheteurs traditionnels sont remplacés par de nouvelles données dans lesquelles les grandes données et le traitement de la langue naturelle sont utilisés pour lire et évaluer l'examen du client.

Calcul du risqueassocié à la libération d'un nouveau produit ou service.

Efficacité opérationnelle: Les gros données sont structurées pour supprimer rapidement les informations nécessaires et donnent rapidement le résultat exact. Une telle combinaison de grandes technologies et de stockages de données aide les organisations à optimiser le travail avec des informations rarement utilisées.

Seul paresseux ne parle pas de gros données, mais ce que c'est et comment ça fonctionne - il est peu probable. Commençons par la terminologie la plus simple. En russe, les grandes données sont diverses outils, approches et méthodes de traitement des données structurées et non structurées afin de les utiliser pour des tâches et des objectifs spécifiques.

Les données non structurées sont des informations qui n'ont pas de structure prédéterminée ou ne sont pas organisées dans un certain ordre.

Le terme "Big Data" a introduit l'éditeur du magazine Nature Clifford Lynch en 2008 dans un numéro spécial dédié à la croissance explosive des volumes d'information mondiale. Bien entendu, de grandes données elles-mêmes existaient avant. Selon des experts, la grande catégorie de données comprend la plupart des flux de données supérieurs à 100 Go par jour.

Voir également:

Aujourd'hui, sous ce terme simple, seuls deux mots sont cachés - le stockage et le traitement des données.

Big Data - Mots simples

Dans le monde moderne, les grandes données sont un phénomène socio-économique, associé au fait que de nouvelles capacités technologiques semblaient analyser une énorme quantité de données.

Voir également:

Pour faciliter la compréhension, imaginez un supermarché dans lequel tous les biens ne sont pas dans l'ordre habituel. Pain à côté des fruits, pâte de tomates près de la pizza congelée, liquide pour l'allumage devant le rack avec des tampons, sur lesquels, entre autres, se trouve avocat, tofu ou champignons shiitake. Les grandes données définissent tout à sa place et vous aident à trouver du lait de noix, à déterminer la date des coûts et de l'expiration, ainsi qu'à qui, outre, achète un tel lait et comment il vaut mieux que le lait de vache.

Kenneth Cucier: Big Data - Meilleures données

Technologie Big Data.

D'énormes volumes de données sont traités de sorte qu'une personne puisse obtenir les résultats spécifiques et nécessaires pour leur utilisation efficace.

Voir également:

En fait, les grandes données sont une solution aux problèmes et à une alternative aux systèmes de gestion de données traditionnels.

Techniques et méthodes d'analyse applicables aux grandes données de McKinsey:

Crowdsourcing;

Mélange et intégration des données;

Apprentissage de la machine;

Réseaux de neurones artificiels;

La reconnaissance de formes;

Analyses de prévision;

Simulation;

Analyse spatiale;

Analyses statistiques;
Visualisation des données analytiques.

Évolutivité horizontale, qui fournit un traitement de données - le principe de base de traitement de grandes données. Les données sont distribuées aux nœuds informatiques et le traitement se produit sans dégradation de la productivité. McKinsey comprenait des systèmes de contrôle relationnels et de l'intelligence commerciale dans le contexte de l'applicabilité.

Les technologies:

Nosql;
Mapreduce;
Hadoop;
Solutions matérielles.

Voir également:

Pour de grandes données, des caractéristiques de définition traditionnelles produites par Meta Group toujours en 2001, appelées " Trois V.»:

LE VOLUME. - la magnitude du volume physique.
Rapidité. - Le taux de croissance et la nécessité d'un traitement rapide de données pour obtenir des résultats.
Variété. - la capacité de traiter simultanément divers types de données.

Big Data: Application et fonctionnalités

Les volumes d'informations numériques inhomogènes et rapides ne peuvent être traités avec des outils traditionnels. L'analyse des données lui-même vous permet de voir certains modèles et des modèles peu visibles qu'une personne ne peut pas voir. Cela vous permet d'optimiser toutes les sphères de notre vie - du gouvernement à la production et aux télécommunications.

Par exemple, certaines entreprises ont défendu leurs clients de fraudes il y a quelques années et que l'argent du client est préoccupé par leur propre argent.

Susan Etlyger: Comment gérer les grandes données?

Big Solutions basées sur les données: Sberbank, Beeline et d'autres sociétés

Bilain a une énorme quantité de données d'abonné qu'ils utilisent non seulement pour collaborer avec eux, mais également pour créer des produits analytiques, tels que des consultations externes ou des analyses IPTV. Beeline segmente la base et protégé les clients contre la fraude et les virus de trésorerie, en utilisant HDFS et Apache Spark, ainsi que pour le traitement des données - Rapidminer et Python.

Voir également:

Ou rappelez-vous que Sberbank avec son ancien cas appelé Safi. Il s'agit d'un système qui analyse les photos pour identifier les clients de la banque et empêche la fraude. Le système a été introduit en 2014, le système est basé sur une comparaison de photographies de la base, qui y viennent des webcams sur des racks en raison de la vision de l'ordinateur. La base du système est une plate-forme biométrique. Pour cela, les cas de fraude ont diminué 10 fois.

Big Data dans le monde

D'ici 2020, selon les prévisions, l'humanité formera 40 à 44 zettabites d'informations. Et d'ici 2025 augmentera 10 fois, le rapport de l'âge de Data 2025, préparé par les analystes IDC. Le rapport note que les entreprises elles-mêmes seront générées la plupart des données et non des consommateurs ordinaires.

Les analystes de la recherche estiment que les données deviendront un atout vital, et la sécurité est un fondement critique de la vie. De plus, les auteurs des travaux sont convaincus que la technologie changera le paysage économique et l'utilisateur habituel communiquera avec les périphériques connectés environ 4800 fois par jour.

Big Marché de données en Russie

Typiquement, les données importantes proviennent de trois sources:

Internet (réseaux sociaux, forums, blogs, médias et autres sites);
Archives d'entreprise des documents;
Indications de capteurs, périphériques et autres appareils.

Big Data dans les banques

Outre le système décrit ci-dessus, dans la stratégie Sberbank pour 2014-2018. Il est dit sur l'importance d'analyser les supermaudations de données pour un service à la clientèle de qualité, une gestion des risques et une optimisation des coûts. Maintenant, la Banque utilise de grandes données pour contrôler les risques, la lutte contre la fraude, la segmentation et les coûts de crédit de qualité de crédit, la gestion du personnel, la prévision des files d'attente dans des bureaux, le calcul des bonus pour les employés et les autres tâches.

VTB24 bénéficie de grandes données pour la segmentation et la gestion de la sortie des clients, la formation d'états financiers, l'analyse des commentaires dans les réseaux sociaux et les forums. Pour ce faire, il applique Teradata, SAS Visual Analytics et SAS Marketing Optimizer Solutions Optimizer.

Les grandes données (ou grosses données) sont un ensemble de méthodes de travail avec d'énormes volumes d'informations structurées ou non structurées. Les spécialistes en travaillant avec de grandes données sont engagés dans son traitement et son analyse pour obtenir des résultats visuels et perçus. Regardez-moi parlé de professionnels et a découvert quelle est la situation avec le traitement des grandes données en Russie, où et ce qui vaut mieux apprendre à ceux qui veulent travailler dans ce domaine.

Alexey Rupin sur les principales directions dans le domaine des grandes données, la communication avec les clients et le monde des chiffres

J'ai étudié à l'Institut de la technologie électronique de Moscou. La principale chose que j'ai réussi à sortir, sont une connaissance fondamentale de la physique et des mathématiques. Dans le même temps, j'ai travaillé dans le centre de R & D, où il était engagé dans le développement et la mise en œuvre d'algorithmes de codage noblestables pour les moyens de transfert de données protégé. Après la fin du premier cycle, je suis entré dans la magistrature de l'informatique des entreprises de l'École supérieure d'économie. Après cela, je voulais travailler dans IBS. J'ai eu la chance que à ce moment-là en rapport avec grande quantité Les projets se sont rendus supplémentaires de stagiaires et après plusieurs entretiens, j'ai commencé à travailler chez IBS, l'une des plus grandes entreprises russes de cette région. Pendant trois ans, je suis parti du train avant l'architecte des solutions d'entreprise. Maintenant, je suis engagé dans le développement de grandes technologies de données pour les entreprises clientes du secteur des finances et des télécommunications.

Il y a deux spécialisations principales pour les personnes qui souhaitent travailler avec de grandes données: des analystes et des consultants informatiques qui créent des technologies pour travailler avec de grandes données. De plus, vous pouvez également parler de la profession de Big Data Analyst, c'est-à-dire des personnes qui travaillent directement avec les données avec la plate-forme informatique du client. Auparavant, ce sont des analystes mathématiques ordinaires qui connaissaient des statistiques et des mathématiques et utilisant le logiciel statistique pour résoudre les tâches d'analyse des données. Aujourd'hui, en plus de la connaissance des statistiques et des mathématiques, une compréhension de la technologie et un cycle de vie des données est également nécessaire. À mon avis, à mon avis est la différence entre l'analyste de données moderne de ces analystes qui étaient auparavant.

Ma spécialisation est la consultation, c'est-à-dire que je vais inventer et offrir aux clients comment résoudre les tâches commerciales avec les technologies informatiques. Les gens viennent consulter diverses expériences, mais les qualités les plus importantes de cette profession sont la capacité de comprendre les besoins du client, le désir d'aider les personnes et les organisations, les bonnes compétences en communication et en équipe (puisqu'elle travaille toujours avec le client et Dans une équipe), de bonnes capacités analytiques. La motivation interne est très importante: nous travaillons dans un environnement concurrentiel et le client attend des solutions inhabituelles et des intérêts au travail.

La plupart du temps, je dois communiquer avec les clients, formaliser leurs besoins professionnels et leur assistance pour développer l'architecture technologique la plus appropriée. Les critères de sélection ici ont leurs propres caractéristiques: outre les fonctionnalités et le TSO (coût total de la propriété - le coût total de possession) sont des exigences très importantes et non fonctionnelles pour le système, le plus souvent, le délai de réponse, le traitement de l'information temps. Pour convaincre le client, nous utilisons souvent une preuve d'approche concept - nous offrons gratuitement la technologie "Test" pour une tâche, sur un ensemble de données étroites pour vous assurer que la technologie fonctionne. La décision devrait créer un avantage concurrentiel pour le client au détriment des avantages supplémentaires (par exemple, X-vente, la vente croisée) ou résoudre une sorte de problème commercial, par exemple, réduire le niveau élevé de fraude de prêt.

Il serait beaucoup plus facile si les clients venaient de la tâche terminée, Mais tant qu'ils ne comprennent pas qu'une technologie révolutionnaire est apparue, ce qui peut changer le marché pendant quelques années.

Quels problèmes doivent faire face? Le marché n'est pas prêt à utiliser la technologie «Big Data». Il serait beaucoup plus facile si les clients provenaient d'une tâche prête à l'emploi, mais jusqu'à ce qu'ils comprennent qu'une technologie révolutionnaire pouvant changer le marché pendant quelques années. C'est pourquoi, en fait, nous travaillons en mode de démarrage - ne vendons pas seulement la technologie, mais chaque fois que nous convainquons les clients que vous devez investir dans ces solutions. C'est une telle position de visionnaires - nous montrons aux clients comment vous pouvez modifier votre entreprise avec l'attraction des données et cela. Nous créons ceci nouveau marché - Commercial de consultation commerciale dans la région de la Big Data.

Si une personne veut engager une analyse de données ou une consultation informatique dans la sphère des grandes données, la première chose qui est importante est une éducation mathématique ou technique avec une bonne préparation mathématique. Il est également utile de maîtriser des technologies spécifiques, disons SAS, HADOOOOOD, LANGUE ou solution IBM. En outre, il est nécessaire de s'intéresser activement aux tâches d'application pour les grandes données - par exemple, comme elles peuvent être utilisées pour améliorer la notation de crédit dans une banque ou une gestion du cycle de vie du client. Celles-ci et d'autres connaissances peuvent être obtenues à partir de sources disponibles: par exemple, COURSERA et Big Data University. Il existe également une initiative d'analyse de la clientèle à l'Université de Wharton de Pennsylvanie, qui a publié de nombreux matériaux intéressants.

Un problème grave pour ceux qui veulent travailler dans notre région sont un manque explicite d'informations sur les grandes données. Vous ne pouvez pas aller à la librairie ou dans certains sites et obtenir, par exemple, une colonne exhaustive de cas pour toutes les applications des grandes technologies de données dans les banques. Il n'y a pas de tels livres de référence. Une partie de l'information est dans les livres, une autre partie est collectée lors de conférences et à quelque chose que vous devez vous contacter.

Un autre problème est que les analystes se sentent bien dans le monde des chiffres, mais ils ne sont pas toujours à l'aise dans les affaires. Ces personnes sont souvent introverties, il est difficile pour eux de communiquer et il leur est donc difficile de pouvoir convaincre des informations sur les clients des résultats de la recherche. Pour le développement de ces compétences, je recommanderais de tels livres comme "principe pyramide", "parle dans des diagrammes". Ils aident à développer des compétences de présentation, de manière concise et clairement énoncent leurs pensées.

J'étais très utile pour la participation à différents championnats de cas tout en étudiant à HSE. Les championnats de cas sont des compétitions intelligentes pour les étudiants, où vous devez étudier les problèmes commerciaux et offrir leur décision. Ce sont deux espèces: des championnats de l'entreprise de conseil en conseil, tels que McKinsey, BCG, ACCENTURE, ainsi que les championnats indépendants de type Changellenge. Pendant la participation à eux, j'ai appris à voir et à résoudre des tâches complexes - d'identifier le problème et de sa structuration à la protection des recommandations de sa solution.

Oleg Mikhalsky sur le marché russe et les spécificités de la création d'un nouveau produit dans le domaine des grandes données

Avant de venir à Acronis, j'étais déjà engagé dans le lancement de nouveaux produits sur le marché d'autres sociétés. Il est toujours intéressant et difficile en même temps, alors j'ai été immédiatement intéressé par la possibilité de travailler sur services de cloud et des solutions pour le stockage de données. Dans ce domaine, toute mon expérience antérieure dans l'industrie informatique était utile, y compris son propre projet de démarrage I-Accelerator. La présence d'une formation professionnelle (MBA) a également contribué à l'ingénierie de base.

En Russie, grandes entreprises - banques, opérateurs de téléphonie mobile, etc. - il est nécessaire d'analyser de grandes données, donc dans notre pays, il existe des perspectives pour ceux qui souhaitent travailler dans ce domaine. Certes, de nombreux projets s'intègrent maintenant, c'est-à-dire sur la base de développements étrangers ou de technologies open source. Dans de tels projets, des approches et des technologies fondamentalement nouvelles ne sont pas créées, mais les développements existants sont adaptés. Acronis, nous sommes allés à une autre manière et, après avoir analysé les alternatives existantes, nous avons décidé d'investir dans notre propre développement, créant ainsi un système de stockage fiable pour les grandes données, ce qui n'est pas inférieur au coût, par exemple, Amazon S3, mais ça marche de manière fiable et efficacement plus petite. Le développement propre pour les grandes données est également parmi les grandes entreprises Internet, mais elles sont plutôt axées sur les besoins internes que la satisfaction des besoins des clients externes.

Il est important de comprendre les tendances et les forces économiques qui affectent la zone de traitement des grandes données. Pour ce faire, lisez beaucoup, écoutez les performances des spécialistes faisant autorité dans l'industrie informatique, visitez les conférences thématiques. Maintenant, presque toutes les conférences ont une grande section de données, mais elles en parlent tous à des angles différents: du point de vue de la technologie, des entreprises ou du marketing. Vous pouvez aller pour des travaux de conception ou un stage de la société, qui mène déjà des projets sur ce sujet. Si vous êtes confiant dans vos capacités, il n'est pas trop tard pour organiser une startup dans la sphère des grandes données.

Sans contact constant avec le marché Nouveaux risques de développement pour être non réclamés

Vrai, lorsque vous êtes responsable d'un nouveau produit, beaucoup de temps passe à l'analyse du marché et communiquant avec des clients potentiels, des partenaires, des analystes professionnels qui en savent beaucoup sur les clients et leurs besoins. Sans contact constant avec le marché, les nouveaux risques de développement non réclamés. Il y a toujours beaucoup d'incertitude: vous devez comprendre qui deviendra les premiers utilisateurs (premiers adoptants) que vous avez précieux pour eux, puis attirer un public de masse. La deuxième tâche la plus importante est de former et de transmettre aux développeurs une vision claire et holistique du produit final à les motiver à travailler dans de telles conditions lorsque certaines exigences peuvent toujours changer et les priorités dépendent de rétroactionvenant des premiers clients. Par conséquent, une tâche importante est de gérer les attentes des clients sur un côté et des développeurs de l'autre. Afin que ni d'autres d'autres n'ont perdu de l'intérêt et ont apporté le projet avant l'achèvement. Après le premier projet réussi, il devient plus facile et la tâche principale trouvera le bon modèle de croissance pour la nouvelle entreprise.

À une époque, j'ai entendu le terme «grandes données» de Great Gref (tête de Sberbank). Ils disent, ils travaillent maintenant activement sur l'introduction, car cela les aidera à réduire le temps de travailler avec chaque client.

La deuxième fois que j'ai rencontré ce concept dans la boutique en ligne du client, sur lequel nous avons travaillé et accru la gamme d'une paire de milliers de dizaines de milliers de postes de produits de base.

Pour la troisième fois, lorsque j'ai vu que le Big Data Analyst est requis dans Yandex. Ensuite, j'ai décidé d'oser comprendre ce sujet dans ce sujet et, en même temps, écrivez un article qui indiquerait ce que le terme est pour le terme qui excite l'esprit des principaux gestionnaires et des espaces Internet.

Vvv ou vvvvv

Habituellement, aucun de votre article, je commence par l'explication comme pour le terme. Cet article ne sera pas une exception.

Cependant, cela est d'abord causé sans le désir de montrer ce que je suis intelligent, mais le fait que le sujet soit vraiment complexe et nécessite une explication minutieuse.

Par exemple, vous pouvez lire quelles grandes données sont dans Wikipedia, ne comprennent rien, puis retournez à cet article afin que vous compreniez toujours la définition et l'applicabilité des entreprises. Donc, commençons par la description, puis vers les exemples pour les entreprises.

Les grandes données sont de grandes données. Étonnamment, oui? Vraiment, il est traduit d'anglais comme "grandes données". Mais cette définition peut être dite pour les nuls.

Important. La technologie de données Big Data est une approche / une méthode de traitement d'un plus grand nombre de données pour obtenir de nouvelles informations difficiles à gérer de manière conventionnelle.

Les données peuvent être à la fois traitées (structurées) et disparates (c'est-à-dire non structurées).

Le terme lui-même est apparu relativement récemment. En 2008, cette approche a été prédite dans la revue scientifique comme une chose nécessaire pour travailler avec une grande quantité d'informations, ce qui augmente la progression géométrique.

Par exemple, des informations annuelles sur Internet, qui doivent être stockées, bien, à traiter, augmenter de 40%. De nouveau. + 40% chaque année apparaît sur Internet de nouvelles informations.

Si les documents imprimés sont clairs et que leurs méthodes de traitement sont également claires (transfert sur la forme électronique, Cousez un dossier, numéroté), que faire avec les informations présentées dans des autres "médias" complètement et autres volumes:

documents Internet;
blogs et réseaux sociaux;
sources audio / vidéo;
instruments de mesure;

Il existe des caractéristiques qui vous permettent d'attribuer des informations et des données aux grandes données.

C'est-à-dire que toutes les données ne peuvent pas être adaptées aux analyses. Dans ces caractéristiques, le concept clé de la grande date est définie. Tous correspondent à trois V.

Volume (de fra. Volume). Les données sont mesurées dans l'ampleur du volume physique du "document" à analyser;
Vitesse (de fra. Vitesse). Les données ne coûtent pas dans leur développement, mais grandissent constamment, c'est pourquoi leur traitement rapide est nécessaire pour obtenir des résultats;
Mature (de l'anglais. Variété). Les données peuvent ne pas être un format unique. C'est-à-dire qu'ils peuvent être disparates, structurés ou structurés partiellement.

Cependant, ajoutez périodiquement à VVV et à la quatrième V (Veracité - fiabilité / une indication de données) et même le cinquième v (dans certains modes de réalisation, la viabilité - viabilité, dans d'autres, la valeur de la valeur).

Quelque part, j'ai aussi vu 7V, ce qui caractérise les données liées à la grande date. Mais à mon avis, cela vient de la série (où P est ajouté périodiquement, bien qu'il soit pour comprendre les 4-x initiaux).

Nous sommes déjà plus de 29 000 personnes.
Entrer

Qui a besoin?

Il s'agit d'une question logique, comment puis-je utiliser des informations (si cela, la grande date est des centaines et des milliers de téraoctets)? Pas même aussi.

Voici des informations. Alors qu'est-ce que la grande date est arrivée à ce moment-là? Quelle est l'utilisation de grandes données dans le marketing et dans les entreprises?

Les bases de données ordinaires ne peuvent pas être stockées et le traitement (je ne parle pas maintenant pas d'analyse, mais simplement de stockage et de traitement) d'une quantité énorme d'informations.
La grande date résout cette tâche principale. Stocke et gère avec succès des informations avec un volume important;
Structures Informations provenant de diverses sources (vidéo, images, documents audio et texte), dans un aspect unique, compréhensible et répondant;
Formation d'analyses et création de prévisions précises basées sur des informations structurées et traitées.

C'est compliqué. Pour parler simplement, tout marketing qui comprend que si vous explorez une grande quantité d'informations (à propos de vous, de votre entreprise, de vos concurrents, de votre secteur), vous pouvez obtenir des résultats très décents:

Compréhension complète de votre entreprise et de votre entreprise de la part des chiffres;
Explorez vos concurrents. Et cela, à son tour, donnera à l'occasion de sortir de l'avance en raison de la prévalence d'eux;
Apprenez de nouvelles informations sur vos clients.

Et précisément parce que la technologie de données de grande taille donne les résultats suivants, tout est porté avec elle.

Essayer de fixer cette affaire dans votre entreprise pour obtenir une augmentation des ventes et réduire les coûts. Et si spécifiquement, alors:

Augmenter la croix des ventes et les ventes supplémentaires en raison d'une meilleure connaissance des préférences des clients;
Trouver des produits populaires et des raisons pour lesquelles ils sont achetés (et au contraire);
Améliorer le produit ou le service;
Améliorer le niveau de service;
Rejet de la fidélité et de la clientèle;
Avertissement de fraude (plus pertinent pour le secteur bancaire);
Réduction des coûts excédentaires.

L'exemple le plus courant, qui est donné dans toutes les sources - est bien sûr apple Companyqui recueille des données sur ses utilisateurs (téléphone, horloge, ordinateur).

Cela est dû à la présence de l'éco-système que la Société sait tellement sur ses utilisateurs et ci-après l'utilisation de cela pour profiter.

Ceux-ci et d'autres exemples d'utilisation, vous pouvez lire dans tout autre article, sauf cela.

Nous allons au futur

Je vais vous parler d'un autre projet. Au peu près une personne qui construit l'avenir à l'aide de grandes solutions de données.

C'est un masque ilon et sa société Tesla. Son rêve principal est de faire des voitures autonomes, c'est-à-dire que vous obtenez derrière le volant, allumez le pilote automatique de Moscou vers Vladivostok et ... s'endormir, car vous n'avez absolument pas besoin de conduire une voiture, car il fera tout son possible. .

Cela semblerait fantastique? Mais non! Il ne vient que Ilon est venu beaucoup plus sage que Google, qui gère des voitures avec des dizaines de satellites. Et est allé à un autre moyen:

Dans chaque voiture vendue, un ordinateur est défini, qui collecte toutes les informations.
Tout - cela signifie tout le tout. À propos du conducteur, le style de sa conduite, des routes autour du mouvement des autres voitures. Le volume de ces données atteint 20-30 gb par heure;
Ensuite, ces informations satellitaires sont transmises à l'ordinateur central, qui est engagée dans le traitement de ces données;
Basé sur de grandes données de données qui traitent cet ordinateur, Un modèle d'une voiture sans pilote est en construction.

Au fait, si l'entreprise Google va très mal et leurs voitures tout le temps tombent dans l'accident, le masque, en raison du fait que travailler avec de grandes données va bien mieux, car les modèles de test montrent de très bons résultats.

Mais ... tout ira de l'économie. Que sommes-nous tous des bénéfices, oui sur le profit? Beaucoup, qui peut décider de la grande date, n'est complètement méconnuée de gains et d'argent.

Statistiques de Google, simplement être basée sur de grandes données, montre une chose intéressante.

Avant que les médecins ne déclarent le début de l'épidémie de la maladie dans certaines régions, le nombre de requêtes de recherche sur le traitement de cette maladie augmente de manière significative.

Ainsi, l'étude correcte des données et leur analyse peut former des prévisions et prédire le début de l'épidémie (et, en conséquence, sa prévention) est beaucoup plus rapide que la conclusion des organes officiels et de leurs actions.

Application en Russie

Cependant, la Russie, comme toujours, légèrement "ralentit". Donc, la définition des grandes données en Russie n'est apparue pas plus de 5 ans (je suis maintenant sur les entreprises ordinaires maintenant).

Et malgré le fait que celui des marchés à la croissance la plus rapide dans le monde (drogue et armes fumant nerveusement sur le côté), car chaque année, le marché de la collecte et de l'analyse des grandes données sera gripera de 32%.

Afin de caractériser le grand marché de données en Russie, je me souviens d'une vieille blague. La grande date est comme le sexe jusqu'à 18 ans.

Tout le monde en est raconté, il y a beaucoup de bruit et peu d'actions réelles autour de lui, et tout le monde a honte d'admettre qu'ils ne sont pas engagés dans cela. Et la vérité est, autour de cela beaucoup de bruit, mais de petites actions réelles.

Bien que la célèduction de la société de recherche de Gartner ait déjà annoncé que la grande date est une tendance croissante (comme à la manière et l'intelligence artificielle) et des instruments assez indépendants pour analyser et développer des technologies de pointe.

Les niches les plus actives, où les grandes données en Russie sont appliquées, elles sont des banques / une assurance (sans émerveillement que je commence un article avec la tête de Sberbank), Sphère de télécommunications, commerce de détail, immobilier et ... secteur public.

Par exemple, je vous en dirai davantage sur une paire de secteurs de l'économie, qui utilisent de gros algorithmes de données.

Banques

Commençons par les banques et les informations qu'ils collectent sur nous et nos actions. Par exemple, j'ai pris les 5 meilleures banques russes qui investissent activement dans de grandes données:

Sberbank;
Gazprombank;
VTB 24;
Alfa Bank;
Banque Tinkoff.

Il est particulièrement agréable de voir parmi les dirigeants russes de Alpha Bank. Au minimum, il est agréable de comprendre que la banque, le partenaire officiel dont vous êtes, comprend la nécessité d'introduire de nouveaux outils de marketing dans votre entreprise.

Mais des exemples d'utilisation et de mise en œuvre avec succès de grandes données que je souhaite montrer sur une banque que j'aime pour un look non standard et une action de son fondateur.

Je parle de la banque Tinkoff. Leur tâche principale était de développer un système permettant d'analyser de grandes données en temps réel en raison de la clientèle croissante.

Résultats: L'heure des processus internes a diminué au moins 10 fois et pendant plus de 100 fois.

Bien, et une petite distraction. Savez-vous pourquoi j'ai parlé des essais non standard et des actions d'Oleg Tinkov?

Juste à mon avis, ils l'ont aidé à se tourner d'un homme d'affaires du milieu, Koi mille en Russie, dans l'un des entrepreneurs les plus célèbres et les plus reconnaissables. En confirmation, regardez cette inhabituelle et vidéo intéressante:

La propriété

Dans l'immobilier, tout est beaucoup plus difficile. Et c'est exactement l'exemple que je veux vous amener à comprendre la grande date de comprendre l'activité habituelle. Donnée initiale:

Grande quantité de texte de texte;
Sources ouvertes (satellites privées transmettant des données sur les changements de terre);
Énorme quantité d'informations non contrôlées sur Internet;
Modifications continues des sources et des données.

Et sur la base de cela, il est nécessaire de préparer et d'évaluer la valeur de l'intrigue terrestre, par exemple dans le village de l'Ural. Le professionnel prendra une semaine.

Les évaluateurs de la société russes et Roseco, qui est en fait une analyse des grandes données à l'aide de logiciels, ne laissera pas plus de 30 minutes de travail tranquille. Comparer, semaine et 30 minutes. La différence colossale.

Eh bien, pour une collation

Bien entendu, d'énormes quantités d'informations ne peuvent pas être stockées et traitées sur de simples disques durs.

Et le logiciel qui structure et analyse les données est généralement une propriété intellectuelle et chaque fois que le développement de l'auteur. Cependant, il existe des outils basés sur tout ce charme:

Hadoop & Mapreduce;
Bases de données NOSQL;
Outils de classe de découverte de données.

Pour être honnête, je ne serai pas en mesure d'expliquer clairement ce qu'ils diffèrent les uns des autres, car ils apprennent à se familiariser et à travailler avec ces choses dans des institutions physiques et mathématiques.

Pourquoi alors je l'ai parlé si je ne peux pas expliquer? N'oubliez-vous que dans tous les films, les voleurs entrent dans n'importe quelle banque et consultent un grand nombre de matériels connectés aux fils?

La même chose à la grande date. Par exemple, voici un modèle qui est actuellement l'un des plus dirigeants du marché.

Tool Big Date

Le coût de la configuration maximale apparaît jusqu'à 27 millions de roubles par rack. C'est bien sûr la version de luxe. Je suis pour vous assurer de suivre la création de grandes données dans votre entreprise.

Brièvement sur la chose principale

Vous pouvez vous demander pourquoi vous, petites et moyennes entreprises travaillent avec une grande date?

À ce sujet, je vais vous répondre une citation d'une personne: "Dans un proche avenir, les clients seront à la demande des entreprises qui mieux comprendre leur comportement, leur habitudes et leur correspondent autant que possible."

Mais prenons une vérité dans les yeux. Pour introduire la grande date de la petite entreprise, il est nécessaire de posséder non seulement des budgets importants pour le développement et la mise en œuvre de logiciels, mais également sur le contenu des spécialistes, du moins tels que les gros analystes de données et Sysadmin.

Et maintenant, je suis silencieux que vous devez avoir de telles données pour le traitement.

D'accord. Pour les petites entreprises, le sujet n'est presque pas applicable. Mais cela ne signifie pas que vous devez oublier tout ce que lire ci-dessus.

Juste étudier pas vos données, mais les résultats d'analyses des données appelées entreprises étrangères et russes.

Par exemple, le réseau de vente au détail ciblé utilisant les gros analystes de données a découvert que les femmes enceintes devant le deuxième trimestre de la grossesse (du 1er à la 12e semaine de grossesse) achètent activement des moyens non aromatiques.

Grâce à ces données, ils leur envoient des coupons avec des réductions sur des moyens unarifiés avec une période limitée.

Et si vous êtes juste un très petit café, par exemple? Oui, très simple. Utilisez l'application de fidélité.

Et après un certain temps, grâce aux informations cumulées, vous pouvez non seulement offrir aux clients de leurs besoins, mais également de voir les plats les plus peu fiables et les plus marginaux littéralement une paire de clics de souris.

D'où la sortie. L'introduction de la grande date des petites entreprises ne vaut guère la peine, mais d'utiliser les résultats et les développements d'autres sociétés - en vous assurant.