pyspark读取mongodb需要的配置及注意事项

 MongodDB中的数据量太多了,打算将数据从Mongodb中被分到HDFS中,按平常的处理方法,至少是可以通过pymongo读取mongodb中的数据,然后把这些数据转成pandas dataframe 或者 spark dataframe,然后再写入HDFS的,但今天尝试了下直接通过spark连接MongoDB的处理方式。这里需要mongo-spark-connect,这是第三方插件提供的,所以需要经过如下配置才可以实现。

1. 下载相关jar包, 下面是我自己用到的两个jar包, 自己可以搜索maven坐标

mongo-spark-connector_2.11-2.4.1.jar, mongo-java-driver-3.11.0-rc0.jar

下载下来之后,将这两个jar包拷贝到 spark的安装目录的jar包目录下:

下面编写 python spark的测试代码:

if __name__ == '__main__':

    #update_single_ass_config("20200101","CAL_ALL_ASS_RULES")   

    myconf = SparkConf()   

    myconf.set("spark.jars.packages","org.mongodb.spark:mongo-spark-connector_2.11:2.4.1")

    

    sc = pyspark.SparkContext()

    sc.setLogLevel('WARN')

    spark = SparkSession.builder.config(conf=myconf).getOrCreate()

    

    df = spark.read.format("com.mongodb.spark.sql") \

        .option("uri", "mongodb://127.0.0.1:27017/bigdata") \

        .option("collection", "testColl") \

        .load()

    

    df.show()

     

    df_daily = df.filter(df.dateu == "2019-10-18")

    df_daily.show()

    sys.exit(0)

 

关键是在conf中加载相关的 jar 包

 



除非申明,文章均为一号门原创,转载请注明本文地址,谢谢!
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: pyspark mongodb
相关日志:
评论: 1 | 引用: 0 | 查看次数: -
回复回复inzestporno.info[2020-01-29 06:25 PM | del]
I'm curious to find out what blog platform you have been using?
I'm experiencing some minor security problems with my latest blog and I'd like to find something more secure.
Do you have any recommendations?
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.