際際滷

際際滷Share a Scribd company logo
Hive
亠 亟亠仆 仗仂亠 仗仂仂仄 亰舒 仗 仄亳仆 亟仂仍亠亠仆舒仂仍亳亶 亳从仍亳仆
丼仂 舒从仂亠 Hive
 弌亳亠仄舒 仗舒于仍亠仆亳 弍仂仍亳仄亳 仆舒弍仂舒仄亳 亟舒仆仆.
 仗仂仍亰亠 亟仍 仂亰亟舒仆亳 于弍仂仂从  仗仂仄仂 SQL-仗仂亟仂弍仆仂亞仂 磶从舒 (HQL)
  从舒亠于亠 亳仂仆亳从仂于 亟舒仆仆 仄仂亢仆仂 亳仗仂仍亰仂于舒 从亳仂于舒仆仆亠 亳 仆亠
从亳仂于舒仆仆亠 舒仆亳仍亳舒:
 SQL: MySQL, PostgreSQL (仂弍仆亶 从仂仆仆亠从仂, 仆亳亠亞仂 亳仆亠亠仆仂亞仂)
 NoSQL:
 HBase
弍仍舒 仗亠于仂亶, 仂仆舒 于亟仂仆仂于亳仍舒 仍ミ莞黍 仆舒 仂亰亟舒仆亳亠 Hive
 MongoDB
MongoDB 从仂仆仆亠从仂 亟仍 Hadoop 亠舒仍亳亰仂于舒仆 于 于亳亟亠 Hadoop 仂于仄亠亳仄仂亶 舒亶仍仂于仂亶 亳亠仄. 舒仆仆亠 亳亰 仂仆亞亳 仄仂亞
亳舒 亳 仂弍舒弍舒于舒 c 仗仂仄仂 Hadoop MapReduce.
 File Systems: HDFS, S3
Hive 仂 仆仂从于舒亰亳舒仆舒亰亳.
 弍舒从亳 仆舒亟 舒仆亳仍亳舒仄亳 亟舒仆仆
 丕仆亳亳亳ム舒 舒弍仂  亟舒仆仆仄亳
 仂 仆舒 舒仄仂仄 亟亠仍亠, 舒亟从亳 仂弍仍亠亞舒亠 舒弍仂  M/R. 亅仂 仂仆仂于仆仂亶 use-case
Apache Hive
CREATE EXTERNAL TABLE win_bids_log (
date_field string,
request_id string,
user_ssp_id string,
dsp_id string,
win_price int
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY 't'
LOCATION 'hdfs://categorizer-hadoop-1:
/analytical_engine/logs/';
HQL 亳仆舒从亳
select dsp_id, count(dsp_id), sum(win_price)
from win_bids_log group by dsp_id;
磻亳亠 从亳
Hive 仄亠亠 舒弍仂舒:
  亠从仂于仄亳 舒亶仍舒仄亳 (仄仂亢仆仂 亰舒亟舒 舒亰亞舒仆亳亳亠仍仆亶 亳仄于仂仍)
  亢舒仄亳 亠从仂于仄亳 舒亶仍舒仄亳 (Gzip, Bzip)
  仄舒亳于舒仄亳, 仍仂于舒礆亳, 仂弍亠亟亳仆亠仆亳礆亳 (union)
 亳仄亠亠 仂亞仂仄仆仂亠 从仂仍亳亠于仂 于仂亠仆仆 仆从亳亶 亟仍 舒弍仂 :
 从仂仍仍亠从亳礆亳, 亟舒舒仄亳, 仂从舒仄亳, JSON-仄亳
 仄舒亠仄舒亳亠从亳亠 仆从亳亳 (仂从亞仍亠仆亳亠, 仍仂亞舒亳仄 从仂仆亳, 亳亞仂仆仂仄亠亳)
 仆从亳亳 舒亞亞亠亞舒亳亳 (sum, min, max, avg...)
 仍亳 于亠亞仂 仗亠亠亳仍亠仆仆仂亞仂 于亠, 仆亠 于舒亳仍仂, 仂 仄仂亢仆仂 亳仗仂仍亰仂于舒 从舒仂仄仆亠
仆从亳亳 舒 舒从 亢亠 仄仗仗亠 亳 亠亟ム亠 (python, java)
仂 亳仗仂仍亰亠 亳 亞亟亠
 亠 从仂 仗仍仂仆仂 舒弍仂舒亠  Mapreduce 于 亠仍仂仄.
 亠 从仂 仗仍仂仆仂 舒弍仂舒亠  HBase
 亠 从仂 亳仗仂仍亰亠 Amazon EMR
 丐舒仄, 亞亟亠 仆亠 仂亠 仗亳舒 M/R 仆舒 Java
 亅仂 亟仂仍亞仂. (ミ出狐-亠, 弍仂从舒, 亟亠仗仍仂亶, 仗仂亟亟亠亢从舒 于亠仆亟仂仂亰舒于亳亳仄
亰舒于亳亳仄仂亠亶)

More Related Content

Apache Hive

  • 1. Hive 亠 亟亠仆 仗仂亠 仗仂仂仄 亰舒 仗 仄亳仆 亟仂仍亠亠仆舒仂仍亳亶 亳从仍亳仆
  • 2. 丼仂 舒从仂亠 Hive 弌亳亠仄舒 仗舒于仍亠仆亳 弍仂仍亳仄亳 仆舒弍仂舒仄亳 亟舒仆仆. 仗仂仍亰亠 亟仍 仂亰亟舒仆亳 于弍仂仂从 仗仂仄仂 SQL-仗仂亟仂弍仆仂亞仂 磶从舒 (HQL) 从舒亠于亠 亳仂仆亳从仂于 亟舒仆仆 仄仂亢仆仂 亳仗仂仍亰仂于舒 从亳仂于舒仆仆亠 亳 仆亠 从亳仂于舒仆仆亠 舒仆亳仍亳舒: SQL: MySQL, PostgreSQL (仂弍仆亶 从仂仆仆亠从仂, 仆亳亠亞仂 亳仆亠亠仆仂亞仂) NoSQL: HBase 弍仍舒 仗亠于仂亶, 仂仆舒 于亟仂仆仂于亳仍舒 仍ミ莞黍 仆舒 仂亰亟舒仆亳亠 Hive MongoDB MongoDB 从仂仆仆亠从仂 亟仍 Hadoop 亠舒仍亳亰仂于舒仆 于 于亳亟亠 Hadoop 仂于仄亠亳仄仂亶 舒亶仍仂于仂亶 亳亠仄. 舒仆仆亠 亳亰 仂仆亞亳 仄仂亞 亳舒 亳 仂弍舒弍舒于舒 c 仗仂仄仂 Hadoop MapReduce. File Systems: HDFS, S3
  • 3. Hive 仂 仆仂从于舒亰亳舒仆舒亰亳. 弍舒从亳 仆舒亟 舒仆亳仍亳舒仄亳 亟舒仆仆 丕仆亳亳亳ム舒 舒弍仂 亟舒仆仆仄亳 仂 仆舒 舒仄仂仄 亟亠仍亠, 舒亟从亳 仂弍仍亠亞舒亠 舒弍仂 M/R. 亅仂 仂仆仂于仆仂亶 use-case
  • 5. CREATE EXTERNAL TABLE win_bids_log ( date_field string, request_id string, user_ssp_id string, dsp_id string, win_price int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't' LOCATION 'hdfs://categorizer-hadoop-1: /analytical_engine/logs/'; HQL 亳仆舒从亳 select dsp_id, count(dsp_id), sum(win_price) from win_bids_log group by dsp_id;
  • 6. 磻亳亠 从亳 Hive 仄亠亠 舒弍仂舒: 亠从仂于仄亳 舒亶仍舒仄亳 (仄仂亢仆仂 亰舒亟舒 舒亰亞舒仆亳亳亠仍仆亶 亳仄于仂仍) 亢舒仄亳 亠从仂于仄亳 舒亶仍舒仄亳 (Gzip, Bzip) 仄舒亳于舒仄亳, 仍仂于舒礆亳, 仂弍亠亟亳仆亠仆亳礆亳 (union) 亳仄亠亠 仂亞仂仄仆仂亠 从仂仍亳亠于仂 于仂亠仆仆 仆从亳亶 亟仍 舒弍仂 : 从仂仍仍亠从亳礆亳, 亟舒舒仄亳, 仂从舒仄亳, JSON-仄亳 仄舒亠仄舒亳亠从亳亠 仆从亳亳 (仂从亞仍亠仆亳亠, 仍仂亞舒亳仄 从仂仆亳, 亳亞仂仆仂仄亠亳) 仆从亳亳 舒亞亞亠亞舒亳亳 (sum, min, max, avg...) 仍亳 于亠亞仂 仗亠亠亳仍亠仆仆仂亞仂 于亠, 仆亠 于舒亳仍仂, 仂 仄仂亢仆仂 亳仗仂仍亰仂于舒 从舒仂仄仆亠 仆从亳亳 舒 舒从 亢亠 仄仗仗亠 亳 亠亟ム亠 (python, java)
  • 7. 仂 亳仗仂仍亰亠 亳 亞亟亠 亠 从仂 仗仍仂仆仂 舒弍仂舒亠 Mapreduce 于 亠仍仂仄. 亠 从仂 仗仍仂仆仂 舒弍仂舒亠 HBase 亠 从仂 亳仗仂仍亰亠 Amazon EMR 丐舒仄, 亞亟亠 仆亠 仂亠 仗亳舒 M/R 仆舒 Java 亅仂 亟仂仍亞仂. (ミ出狐-亠, 弍仂从舒, 亟亠仗仍仂亶, 仗仂亟亟亠亢从舒 于亠仆亟仂仂亰舒于亳亳仄 亰舒于亳亳仄仂亠亶)