上一篇 | 这是最后一篇日志下一篇
Python/Django 订阅所有Python/Django的日志

pyspark读取mongodb需要的配置及注意事项

 MongodDB中的数据量太多了,打算将数据从Mongodb中被分到HDFS中,按平常的处理方法,至少是可以通过pymongo读取mongodb中的数据,然后把这些数据转成pandas dataframe 或者 spark dataframe,然后再写入HDFS的,但今天尝试了下直接通过spark连接MongoDB的处理方式。这里需要mongo-spark-connect,这是第三方插件提供的,所以需要经过如下配置才可以实现。

1. 下载相关jar包, 下面是我自己用到的两个jar包, 自己可以搜索maven坐标

mongo-spark-connector_2.11-2.4.1.jar, mongo-java-driver-3.11.0-rc0.jar

下载下来之后,将这两个jar包拷贝到 spark的安装目录的jar包目录下:

下面编写 python spark的测试代码:

if __name__ == '__main__':

    #update_single_ass_config("20200101","CAL_ALL_ASS_RULES")   

    myconf = SparkConf()   

    myconf.set("spark.jars.packages","org.mongodb.spark:mongo-spark-connector_2.11:2.4.1")

    

    sc = pyspark.SparkContext()

    sc.setLogLevel('WARN')

    spark = SparkSession.builder.config(conf=myconf).getOrCreate()

    

    df = spark.read.format("com.mongodb.spark.sql") \

        .option("uri", "mongodb://127.0.0.1:27017/bigdata") \

        .option("collection", "testColl") \

        .load()

    

    df.show()

     

    df_daily = df.filter(df.dateu == "2019-10-18")

    df_daily.show()

    sys.exit(0)

 

关键是在conf中加载相关的 jar 包

 



除非申明,文章均为一号门原创,转载请注明本文地址,谢谢!
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: pyspark mongodb
相关日志:
评论: 0 | 引用: 0 | 查看次数: -
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.