代码之家 › 专栏 › 技术社区 › karthikhr

如何反序列化配置单元中ProtoBuf序列化的HBase列?

protobuf-java hive-serde protocol-buffers hbase hive

karthikhr · 技术社区 · 7 年前

我已经使用ProtoBuf来序列化该类并将其存储在HBase列中。我想减少简单聚合的Map-reduce作业的数量,所以我需要类似SQL的工具来查询数据。如果使用Hive,是否可以扩展HBaseStorageHandler并为每个表编写我们自己的Serde? 或任何其他可用的好解决方案。

更新日期:

我将HBase表创建为

创建“配置单元:用户”,“我”

并从java api插入用户数据,

 public static final byte[] INFO_FAMILY = Bytes.toBytes("i");
 private static final byte[] USER_COL = Bytes.toBytes(0);
 public Put mkPut(User u)
    {
        Put p = new Put(Bytes.toBytes(u.userid));
        p.addColumn(INFO_FAMILY, USER_COL, UserConverter.fromDomainToProto(u).toByteArray());
        return p;
    }

我的扫描结果如下:

hbase(main):016:0> scan 'hive:users'
ROW                                COLUMN+CELL
 kim123                            column=i:\x00, timestamp=1521409843085, value=\x0A\x06kim123\x12\x06kimkim\x1A\x10kim123@gmail.com
1 row(s) in 0.0340 seconds

在配置单元中查询表时,我没有看到任何记录。这是我用来创建表的命令。

create external table users(userid binary, userobj binary) 
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
with serdeproperties("hbase.columns.mapping" = ":key, i:0", "hbase.table.default.storage.type" = "binary") 
tblproperties("hbase.table.name" = "hive:users");

查询配置单元表时,我没有看到从hbase插入的记录。

你能告诉我这里怎么了吗?

1 回复 | 直到 7 年前

botchniaque 7 年前

您可以尝试编写一个UDF,它将采用二进制protobuf并将其转换为某种可读结构(逗号分隔或json)。您必须确保将值映射为二进制数据。

推荐文章

MattRgx · 配置单元中的Regexp将一列拆分为3列

2 年前

mishalhaneef · 如何更新蜂箱颤振数据

3 年前

Bhanuchander Udhayakumar · 为什么spark sql的cpu利用率高于hive?

6 年前

sectechguy · Radoop出现拒绝访问问题。将RapidMiner与Cloudera Quickstart虚拟机连接

6 年前

Nabil · 配置单元查询数组作为字段

6 年前

Pat Doyle · HiveQL-连接在Select语句上创建的列

6 年前

Parth Shiras · 在HQL中,如何基于百分位数筛选表,然后再根据随机样本筛选表?

6 年前

aiman · Hive-2.3.2 metastore with MySQL无法启动

6 年前

user · 失败:SemanticException组织。阿帕奇。hadoop。蜂箱ql.metadata。HiveException:java。lang.RuntimeExcept

6 年前

N_M · 主键和外键约束在配置单元中如何工作?

6 年前