Hadoop中的NLineInputFormat

http://blog.csdn.net/lzm1340458776/article/details/42747443 一:背景 NLineInputFormat也是FileInputFormat的子类,它是根据行数来划分InputSplit的,而不是像TextInputFormat那样依赖分片大小和行的长度。也就是说,TextInputFormat当一行很长或分片很小时,获取的分片很可能只包含很少的K-V对,这样一个MapTask处理的K-V对就很少,这是不太理想的。因此我们可以使用NLineInputFormat来控制一个MapTask处理的K-V对,这是通过分割InputSplit时按行数分割的方法来实现的,关键是通过mapreduce.input.lineinputformat.linespermap来设置这个行数。 二:技术实现 代码如下:   /** ... Read More | Share it now!

hive的数据导入与数据导出:(本地,云hdfs,hbase),列分隔符的设置

hive表的数据源有四种: hbase hdfs 本地 其他hive表   而hive表本身有两种: 内部表和外部表。 而hbase的数据在hive中,可以建立对应的外部表(参看hive和hbase整合)   内部表和外部表 区别:删除时,内部表删除hadoop上的数据;而外部表不删,其数据在外部存储,hive表只是查看数据的形式,看时从外部读入数据: 内部表:CREATETABLE... Read More | Share it now!