Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Apache Hive — Wikipédia
Apache Hive — Wikipédia 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.
Apache Hive
Description de l'image Apache Hive logo.svg.

Informations
Développé par Contributeurs
Première version 9 novembre 2011[1]Voir et modifier les données sur Wikidata
Dépôt git://git.apache.org/hive.git et svn.apache.org/repos/asf/hiveVoir et modifier les données sur Wikidata
État du projet Actif
Écrit en JavaVoir et modifier les données sur Wikidata
Système d'exploitation Multiplateforme (d)Voir et modifier les données sur Wikidata
Environnement Machine virtuelle JavaVoir et modifier les données sur Wikidata
Type Système de gestion de base de données relationnelle (en)Voir et modifier les données sur Wikidata
Licence Licence Apache 2.0Voir et modifier les données sur Wikidata
Site web hive.apache.orgVoir et modifier les données sur Wikidata

modifier - modifier le code - voir Wikidata (aide)

Apache Hive est une infrastructure d’entrepôt de données intégrée sur Hadoop permettant l'analyse, le requêtage via un langage proche syntaxiquement de SQL ainsi que la synthèse de données[2]. Bien que initialement développée par Facebook, Apache Hive est maintenant utilisée et développée par d'autres sociétés comme Netflix[3],[4]. Amazon maintient un fork d'Apache Hive qui inclut Amazon Elastic MapReduce dans Amazon Web Services[5].

Fonctionnalité

[modifier | modifier le code]

Apache Hive prend en charge l'analyse des grands ensembles de données stockées dans Hadoop HDFS ou des systèmes de fichiers compatibles tels que Amazon S3. Il fournit un langage similaire à SQL appelée HiveQL[6] avec le schéma lors de la lecture et de manière transparente convertit les requêtes en map/reduce, Apache Tez[7] et jobs Spark. Tous les trois moteurs d'exécution peuvent fonctionner sur Hadoop YARN. Pour accélérer les requêtes, il fournit des index, y compris bitmap indexes[8].

Par défaut, Hive stocke les métadonnées dans une base de données embarquée Apache Derby, et d'autres bases de données client / serveur comme MySQL peuvent éventuellement être utilisées[9].

Actuellement, il y a quatre formats de fichiers pris en charge par Hive: TEXTFILE[10], SEQUENCEFILE, ORC[11] et RCFile[12],[13],[14]. Les fichiers Apache Parquet peuvent être lus via des plugins dans les versions ultérieures à 0.10 et nativement à partir de 0.13[15],[16].

Autres caractéristiques de Hive :

  • Indexation pour fournir une accélération, type d'index dont le compactage et l'indice de Bitmap que de 0,10, plusieurs types d'index sont prévus ;
  • types de stockage différents tels que texte brut, RCFile, HBase, ORC et d'autres ;
  • stockage des métadonnées d'un SGBD relationnel, réduisant considérablement le temps d'effectuer certaines vérifications durant l'exécution de la requête ;
  • fonctionnement sur des données compressées stockées dans l'écosystème de Hadoop à l'aide d'algorithmes tels que DEFLATE, BWT, snappy, etc ;
  • fonctions intégrées définies par l'utilisateur (UDF) pour manipuler des dates, chaînes et autres outils d'exploration de données. Hive supporte l'extension d'UDF pour traiter des cas d'utilisation non soutenus par des fonctions intégrées ;
  • requêtes de type SQL (HiveQL) qui sont implicitement converties en séquence d'instructions MapReduce ou Tez, ou des jobs Spark.

Architecture

[modifier | modifier le code]

Hive est composé des éléments suivants :

  • metastore : est chargé du stockage des métadonnées pour chaque table c'est-à-dire qu'il enregistre par exemple les schémas ainsi que les localisations. Il inclut aussi des métadonnées de partitionnement afin d'aider le driver à suivre la distribution des bases de données au sein du cluster. En pratique, les données sont stockées à la manière d'un SGBD relationnel traditionnel ;
  • driver : joue le rôle du contrôleur de processus recevant les instances HiveQL. Il lance l'exécution des instructions par l'intermédiaire de la création de sessions et il contrôle la progression de l'exécution ainsi que le cycle de vie des processus. Il conserve les métadonnées nécessaires générées durant l'exécution des requêtes HiveQL. Le driver joue aussi le rôle de collecteur de données résultant des étapes Reduce ;
  • compiler : réalise la compilation des requêtes HiveQL ;
  • optimizer : réalise différentes transformations sur le plan d'exécution pour obtenir un DAG optimisé ;
  • executor : après les phases de compilation et de d'optimisation, il exécute les tâches fournies par le DAG ;
  • cLI, UI et Thrift Server : permettent à un utilisateur externe d’interagir avec Hive en soumettant des requêtes.

HiveQL

[modifier | modifier le code]

Bien que basé sur SQL, HiveQL ne suit pas à la lettre la norme SQL. HiveQL fournit des extensions hors SQL, par exemple des insertions multi-tables, et seulement une offre basique pour l'indexation. Aussi, HiveQL manque de support pour les transactions et les vues matérialisées, et seul soutien de sous-requête limitée[17],[18]. Le support pour insert, update et delete avec la fonctionnalité complète d'ACID a été mis à disposition avec la sortie de la version 0.14[19].

En interne, le compilateur traduit les instructions HiveQL en graphe orienté acyclique de MapReduce ou Tez, ou job Spark, qui sont ensuite soumis à Hadoop pour exécution[20].

Notes et références

[modifier | modifier le code]
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache Hive » (voir la liste des auteurs).
  1. ↑ « https://projects.apache.org/json/projects/hive.json » (consulté le 8 avril 2020)
  2. ↑ Venner, Jason (2009).
  3. ↑ Use Case Study of Hive/Hadoop.
  4. ↑ OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix" on YouTube.
  5. ↑ Amazon Elastic MapReduce Developer Guide.
  6. ↑ HiveQL Language Manual.
  7. ↑ Apache Tez.
  8. ↑ Working with Students to Improve Indexing in Apache Hive.
  9. ↑ Lam, Chuck (2010).
  10. ↑ Optimising Hadoop and Big Data with Text and HiveOptimising Hadoop and Big Data with Text and Hive.
  11. ↑ LanguageManual ORC.
  12. ↑ Faster Big Data on Hadoop with Hive and RCFile.
  13. ↑ Facebook's Petabyte Scale Data Warehouse using Hive and Hadoop.
  14. ↑ Yongqiang He, Rubao Lee, Yin Huai, Zheng Shao, Namit Jain, Xiaodong Zhang and Zhiwei Xu. "RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems" (PDF).
  15. ↑ "Parquet". 18 Dec 2014.
  16. ↑ Massie, Matt (21 August 2013).
  17. ↑ White, Tom (2010).
  18. ↑ Hive Language Manual.
  19. ↑ ACID and Transactions in Hive.
  20. ↑ Hive A Warehousing Solution Over a MapReduce Framework.

Annexes

[modifier | modifier le code]

Voir aussi

[modifier | modifier le code]
  • Pig (outil de programmation)
  • Apache Sqoop
  • Cloudera Impala
  • Apache Drill

Liens externes

[modifier | modifier le code]
  • Site officiel
  • The Free Hive Book (CC by-nc licensed)
  • Hive A Warehousing Solution Over a MapReduce Framework - Original paper presented by Facebook at VLDB 2009
  • Using Apache Hive With Amazon Elastic MapReduce (Part 1) and Part 2 on YouTube, presented by an AWS Engineer
  • Using hive + cassandra + shark. A hive cassandra cql storage handler.
  • Major Technical Advancements in Apache Hive, Yin Huai, Ashutosh Chauhan, Alan Gates, Gunther Hagleitner, Eric N. Hanson, Owen O’Malley, Jitendra Pandey, Yuan Yuan, Rubao Lee and Xiaodong Zhang, SIGMOD 2014
  • Apache Hive Wiki
v · m
Apache Software Foundation
Projets principaux
  • Accumulo
  • Ant
  • APR
  • Camel
  • Cassandra
  • Cocoon
  • Commons
  • Continuum
  • Cordova
  • Apache ZooKeeper
  • CouchDB
  • CXF
  • DB
  • Apache Drill
  • Flex
  • Flink
  • Geronimo
  • HBase
  • Hadoop
  • HTTP Server
  • JMeter
  • Karaf
  • Kafka
  • Logging
  • Lucene
  • Mahout
  • Maven
  • MyFaces
  • Nutch
  • OFBiz
  • OpenJPA
  • OpenOffice
  • mod_perl
  • POI
  • Portals
  • River
  • SpamAssassin
  • ServiceMix
  • Spark
  • Struts
  • Subversion
  • Tapestry
  • Thrift
  • Tika
  • Tomcat
  • Velocity
  • Web Services
  • Wicket
  • Xerces
  • Apache Beam
  • Apache Metron
  • Apache Fineract
  • Apache Ctakes
  • Apache RocketMQ
  • Apache Juneau
  • Apache Mesos
  • Apache Apex
  • Apache NiFi
  • Apache Pulsar
  • Apache Samza
  • Apache Sentry
  • Apache ORC
  • Apache Parquet
  • Apache Avro
  • Apache Airflow
ASF logo
Incubateur Apache
en cours d'incubation
  • Derby
  • Ivy
  • Apache Livy
  • Log4net
  • Solr
  • Apache Zeppelin
  • Apache Druid
  • Apache MXNet
  • Apache SINGA
  • Apache Superset
incubation finie
  • Wave
Autres projets
  • Axis
  • BCEL
Projets en fin de vie
  • Jakarta
  • iBATIS
  • Lenya
  • XAP
Personnalités
  • Brian Behlendorf
  • Roy Fielding
Divers
  • JServ
  • Licence Apache
  • mod_jk
  • .htaccess
v · m
Science des données
Concepts
  • MapReduce
  • Apprentissage profond
  • Extreme learning machine
  • Apprentissage automatique
  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Réseau de neurones artificiels
  • Visualisation de données
  • Exploration de données
  • Fouille de textes
  • Segmentation
  • Intelligence artificielle
  • Big data
  • Data lineage
Architecture
  • Hadoop
  • Cloudera
  • Hortonworks
  • Apache Hive
  • NoSQL
  • NewSQL
  • HBase
  • Cassandra
  • Apache Spark
Outils
  • Presto
  • Apache Impala
  • Pig
  • Tableau Software
  • Elasticsearch
  • MongoDB
  • Apache Mahout
  • Scikit-learn
  • TensorFlow
  • Theano (logiciel)
  • SPSS
  • JMP
  • Dataiku
  • Apache MXNet
  • ONNX
  • Apache SINGA
  • Keras
Programmation
  • R
  • Ggplot2
  • SAS
  • Python
  • Julia
  • SQL
  • Scala
Statistique
  • ACP
  • AFC
  • ACM
  • Méthode des moindres carrés
  • Analyse des données
  • Homoscédasticité
  • Knn
  • Cartes de Kohonen
  • Statistique multivariée
  • Théorème de Bayes
  • Analyse de la variance
  • Test du χ²
  • Distance de Cook
Articles liés
  • Watson
  • Teradata
  • Glossaire de l'exploration de données
  • Extract-transform-load
  • Traitement analytique en ligne
v · m
Écosystème Hadoop
Distributions Hadoop
  • Cloudera
  • Hortonworks
  • MapR
Base de données
  • HBase
Flux de données
  • Apache Sqoop
  • Apache Flume
  • Apache Kafka
  • Apache Storm
  • Apache Flink
Interrogation
  • Apache Hive
  • Spark SQL
  • Pig
Machine Learning
  • Apache Mahout
  • Apache Spark ML
SQL
  • Presto
  • Apache Hive
  • Apache Impala
  • Apache Drill
Gestionnaire de cluster
  • Hadoop YARN
  • Apache Mesos
  • Apache Spark
Format de fichier
  • RCFile
  • Apache Avro
  • Apache Parquet
  • Apache ORC
Vrac
  • Presto
  • Impala
  • Kudu
  • Pig
  • Apache ZooKeeper
  • icône décorative Portail d’Internet
  • icône décorative Portail des données
Ce document provient de « https://fr.teknopedia.teknokrat.ac.id/w/index.php?title=Apache_Hive&oldid=207166476 ».
Catégories :
  • Logiciel écrit en Java
  • Écosystème Hadoop
  • Apache Software Foundation
  • Cloud computing
  • Logiciel libre sous licence Apache
Catégories cachées :
  • Page utilisant P571
  • Page utilisant P1324
  • Page utilisant P277
  • Logiciel catégorisé automatiquement par langage d'écriture
  • Page utilisant P306
  • Page utilisant P400
  • Page utilisant P31
  • Page utilisant P275
  • Page utilisant P856
  • Article utilisant une Infobox
  • Portail:Internet/Articles liés
  • Portail:Médias/Articles liés
  • Portail:Société/Articles liés
  • Portail:Données/Articles liés
  • Portail:Informatique/Articles liés
  • Portail:Sciences/Articles liés

  • indonesia
  • Polski
  • الرية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصر
  • Nederlands
  • 本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українска
  • Tiếng Việt
  • Winaray
  • 中文
  • Русски
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id