spark写orc格式文件

  1. 在hive中建表格式存储格式为orc

    创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站设计、做网站、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的舞钢网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!

      create table user(id int,name string) stored as orc;  

  2. spark写文件        

    val jsons = "hdfs://localhost:9000/test/artist_orc.json"
    val people = sc.textFile(jsons)
    val schemaString = "id name"
    val schema = StructType(schemaString.split(" ").map(fieldName => {if(fieldName == "name")
      StructField(fieldName, StringType, true) else StructField(fieldName, IntegerType, true)}))

    val rowRDD = people.map(line=>{
      JSONObject.fromObject(line)
    }).map(p => Row(new Integer(p.get("id").toString), p.get("name")))

    val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
    val peopleSchemaRDD = hiveContext.createDataFrame(rowRDD, schema)
    peopleSchemaRDD.write.format("orc").save("hdfs://localhost:9000/user/xb/warehouse/artist_orc/adf")

网页名称:spark写orc格式文件
地址分享:http://www.hxwzsj.com/article/pdcspo.html

其他资讯

Copyright © 2025 青羊区翔捷宏鑫字牌设计制作工作室(个体工商户) All Rights Reserved 蜀ICP备2025123194号-14
友情链接: 成都商城网站制作 成都营销网站制作 成都网站制作 定制网站制作 高端网站设计 成都响应式网站建设 成都网站制作 品牌网站建设 梓潼网站设计 高端网站设计 成都网站建设 专业网站设计 成都网站建设公司 攀枝花网站设计 企业手机网站建设 网站建设 成都网站建设 温江网站设计 四川成都网站制作 重庆网站设计 手机网站制作设计 重庆外贸网站建设