亚洲综合原千岁中文字幕_国产精品99久久久久久久vr_无码人妻aⅴ一区二区三区浪潮_成人h动漫精品一区二区三

主頁 > 知識庫 > windowns使用PySpark環境配置和基本操作

windowns使用PySpark環境配置和基本操作

熱門標簽:公司電話機器人 唐山智能外呼系統一般多少錢 海南400電話如何申請 廣告地圖標注app 白銀外呼系統 騰訊外呼線路 陜西金融外呼系統 哈爾濱ai外呼系統定制 激戰2地圖標注

下載依賴

首先需要下載hadoop和spark,解壓,然后設置環境變量。
hadoop清華源下載
spark清華源下載

HADOOP_HOME => /path/hadoop
SPARK_HOME => /path/spark

安裝pyspark。

pip install pyspark

基本使用

可以在shell終端,輸入pyspark,有如下回顯:

輸入以下指令進行測試,并創建SparkContext,SparkContext是任何spark功能的入口點。

>>> from pyspark import SparkContext
>>> sc = SparkContext("local", "First App")

如果以上不會報錯,恭喜可以開始使用pyspark編寫代碼了。
不過,我這里使用IDE來編寫代碼,首先我們先在終端執行以下代碼關閉SparkContext。

>>> sc.stop()

下面使用pycharm編寫代碼,如果修改了環境變量需要先重啟pycharm。
在pycharm運行如下程序,程序會起本地模式的spark計算引擎,通過spark統計abc.txt文件中a和b出現行的數量,文件路徑需要自己指定。

from pyspark import SparkContext

sc = SparkContext("local", "First App")
logFile = "abc.txt"
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Line with a:%i,line with b:%i" % (numAs, numBs))

運行結果如下:

20/03/11 16:15:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
20/03/11 16:15:58 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
Line with a:3,line with b:1

這里說一下,同樣的工作使用python可以做,spark也可以做,使用spark主要是為了高效的進行分布式計算。
戳pyspark教程
戳spark教程

RDD

RDD代表Resilient Distributed Dataset,它們是在多個節點上運行和操作以在集群上進行并行處理的元素,RDD是spark計算的操作對象。
一般,我們先使用數據創建RDD,然后對RDD進行操作。
對RDD操作有兩種方法:
Transformation(轉換) - 這些操作應用于RDD以創建新的RDD。例如filter,groupBy和map。
Action(操作) - 這些是應用于RDD的操作,它指示Spark執行計算并將結果發送回驅動程序,例如count,collect等。

創建RDD

parallelize是從列表創建RDD,先看一個例子:

from pyspark import SparkContext


sc = SparkContext("local", "count app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
print(words)

結果中我們得到一個對象,就是我們列表數據的RDD對象,spark之后可以對他進行操作。

ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195

Count

count方法返回RDD中的元素個數。

from pyspark import SparkContext


sc = SparkContext("local", "count app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
print(words)

counts = words.count()
print("Number of elements in RDD -> %i" % counts)

返回結果:

Number of elements in RDD -> 8

Collect

collect返回RDD中的所有元素。

from pyspark import SparkContext


sc = SparkContext("local", "collect app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"
     ])
coll = words.collect()
print("Elements in RDD -> %s" % coll)

返回結果:

Elements in RDD -> ['scala', 'java', 'hadoop', 'spark', 'akka', 'spark vs hadoop', 'pyspark', 'pyspark and spark']

foreach

每個元素會使用foreach內的函數進行處理,但是不會返回任何對象。
下面的程序中,我們定義的一個累加器accumulator,用于儲存在foreach執行過程中的值。

from pyspark import SparkContext
sc = SparkContext("local", "ForEach app")

accum = sc.accumulator(0)
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)


def increment_counter(x):
    print(x)
    accum.add(x)
 return 0

s = rdd.foreach(increment_counter)
print(s)  # None
print("Counter value: ", accum)

返回結果:

None
Counter value:  15

filter

返回一個包含元素的新RDD,滿足過濾器的條件。

from pyspark import SparkContext
sc = SparkContext("local", "Filter app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"]
)
words_filter = words.filter(lambda x: 'spark' in x)
filtered = words_filter.collect()
print("Fitered RDD -> %s" % (filtered))

 

Fitered RDD -> ['spark', 'spark vs hadoop', 'pyspark', 'pyspark and spark']

也可以改寫成這樣:

from pyspark import SparkContext
sc = SparkContext("local", "Filter app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"]
)


def g(x):
    for i in x:
        if "spark" in x:
            return i

words_filter = words.filter(g)
filtered = words_filter.collect()
print("Fitered RDD -> %s" % (filtered))

map

將函數應用于RDD中的每個元素并返回新的RDD。

from pyspark import SparkContext
sc = SparkContext("local", "Map app")
words = sc.parallelize(
    ["scala",
     "java",
     "hadoop",
     "spark",
     "akka",
     "spark vs hadoop",
     "pyspark",
     "pyspark and spark"]
)
words_map = words.map(lambda x: (x, 1, "_{}".format(x)))
mapping = words_map.collect()
print("Key value pair -> %s" % (mapping))

返回結果:

Key value pair -> [('scala', 1, '_scala'), ('java', 1, '_java'), ('hadoop', 1, '_hadoop'), ('spark', 1, '_spark'), ('akka', 1, '_akka'), ('spark vs hadoop', 1, '_spark vs hadoop'), ('pyspark', 1, '_pyspark'), ('pyspark and spark', 1, '_pyspark and spark')]

Reduce

執行指定的可交換和關聯二元操作后,然后返回RDD中的元素。

from pyspark import SparkContext
from operator import add


sc = SparkContext("local", "Reduce app")
nums = sc.parallelize([1, 2, 3, 4, 5])
adding = nums.reduce(add)
print("Adding all the elements -> %i" % (adding))

 這里的add是python內置的函數,可以使用ide查看:

def add(a, b):
    "Same as a + b."
    return a + b

reduce會依次對元素相加,相加后的結果加上其他元素,最后返回結果(RDD中的元素)。

Adding all the elements -> 15

Join

返回RDD,包含兩者同時匹配的鍵,鍵包含對應的所有元素。

from pyspark import SparkContext


sc = SparkContext("local", "Join app")
x = sc.parallelize([("spark", 1), ("hadoop", 4), ("python", 4)])
y = sc.parallelize([("spark", 2), ("hadoop", 5)])
print("x =>", x.collect())
print("y =>", y.collect())
joined = x.join(y)
final = joined.collect()
print( "Join RDD -> %s" % (final))

返回結果:

x => [('spark', 1), ('hadoop', 4), ('python', 4)]
y => [('spark', 2), ('hadoop', 5)]
Join RDD -> [('hadoop', (4, 5)), ('spark', (1, 2))]

到此這篇關于windowns使用PySpark環境配置和基本操作的文章就介紹到這了,更多相關PySpark環境配置 內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • PyCharm搭建Spark開發環境實現第一個pyspark程序
  • PyCharm+PySpark遠程調試的環境配置的方法

標簽:惠州 鷹潭 上海 黔西 常德 四川 黑龍江 益陽

巨人網絡通訊聲明:本文標題《windowns使用PySpark環境配置和基本操作》,本文關鍵詞  windowns,使用,PySpark,環境,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《windowns使用PySpark環境配置和基本操作》相關的同類信息!
  • 本頁收集關于windowns使用PySpark環境配置和基本操作的相關信息資訊供網民參考!
  • 推薦文章
    欧美日本免费| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 日本特黄特黄aaaaa大片| 久久精品免视看国产成人2021| 国产伦精品一区二区三区在线观看| 九九干| 欧美a免费| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产麻豆精品hdvideoss| 国产精品自拍在线观看| 成人免费观看视频| 成人a大片高清在线观看| 韩国毛片免费| 色综合久久天天综合| 久久福利影视| 久草免费在线色站| 欧美一级视频免费| 日本在线不卡视频| 国产一区二区精品久久91| 久久精品大片| 日韩中文字幕在线亚洲一区| 国产一区二区精品尤物| 欧美大片a一级毛片视频| 日韩一级黄色| 欧美爱色| 国产亚洲精品aaa大片| 精品视频在线观看一区二区| 亚州视频一区二区| 欧美激情一区二区三区在线播放| 国产一区二区高清视频| 精品国产一区二区三区精东影业| 在线观看成人网 | 欧美另类videosbestsex高清| 国产不卡精品一区二区三区| 国产视频在线免费观看| 欧美一级视| 国产a免费观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 日韩在线观看视频黄| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 亚洲精品久久久中文字| 黄色福利片| 日韩中文字幕在线观看视频| 国产国语在线播放视频| 深夜做爰性大片中文| 亚洲精品影院一区二区| 午夜在线亚洲男人午在线| 台湾美女古装一级毛片| 国产亚洲免费观看| 精品国产亚洲人成在线| 免费一级片网站| 成人免费观看视频| 97视频免费在线| 韩国毛片 免费| 四虎论坛| 国产精品自拍亚洲| 99热热久久| 亚洲不卡一区二区三区在线 | 日韩avdvd| 久久精品人人做人人爽97| 国产伦久视频免费观看视频| 午夜在线观看视频免费 成人| 沈樵在线观看福利| 日本在线www| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 国产不卡在线播放| 国产一区二区精品| 亚飞与亚基在线观看| 欧美一区二区三区在线观看| 日韩免费在线视频| 在线观看导航| 尤物视频网站在线观看| 毛片高清| 欧美激情一区二区三区在线| 成人免费一级纶理片| 沈樵在线观看福利| 日韩av片免费播放| 免费的黄视频| 精品国产香蕉在线播出| 精品国产一区二区三区久久久狼| 国产伦理精品| 成人高清护士在线播放| 91麻豆国产福利精品| 亚洲天堂在线播放| 二级片在线观看| 99久久精品国产片| 一级片片| 午夜激情视频在线观看| 一级女性全黄久久生活片| 青青久热| 日韩专区第一页| 毛片高清| 久草免费资源| 精品国产三级a∨在线观看| 久久精品欧美一区二区| 九九九国产| 九九精品久久久久久久久| 黄色免费网站在线| 亚洲第一页乱| 成人a大片高清在线观看| 日韩专区亚洲综合久久| 日本特黄一级| 91麻豆国产福利精品| 天堂网中文字幕| 精品视频一区二区三区免费| 国产91精品一区二区| 欧美爱色| 免费国产在线观看| 日本在线www| 国产一区二区精品久| 日本特黄特黄aaaaa大片| 国产网站免费在线观看| 国产a免费观看| 欧美18性精品| 人人干人人草| 久久国产精品自线拍免费| 一级片片| 国产高清视频免费观看| 九九干| 国产成a人片在线观看视频| 午夜在线影院| 免费国产在线视频| 毛片成人永久免费视频| 欧美激情一区二区三区在线播放| 欧美激情一区二区三区视频 | 黄色短视频网站| 日日夜人人澡人人澡人人看免| 国产伦精品一区二区三区无广告| 免费一级片在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产成人啪精品| 九九精品久久| 麻豆网站在线看| 一级女性全黄久久生活片| 久久国产影视免费精品| 四虎精品在线观看| 日韩专区亚洲综合久久| 国产麻豆精品hdvideoss| 美女免费毛片| 国产不卡精品一区二区三区| 日韩中文字幕一区| 在线观看导航| 欧美a级大片| 日韩在线观看免费| 九九精品影院| 久久99青青久久99久久| 黄视频网站在线看| 青青久久精品国产免费看| 91麻豆国产级在线| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 一a一级片| 精品国产香蕉伊思人在线又爽又黄| 亚洲第一色在线| 欧美另类videosbestsex视频| 国产一区国产二区国产三区| 久久精品欧美一区二区| 欧美大片a一级毛片视频| 四虎影视精品永久免费网站| 欧美电影免费| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 青青青草影院| 999精品在线| 色综合久久天天综线观看| 毛片成人永久免费视频| 国产视频久久久久| 成人高清免费| 91麻豆精品国产综合久久久| 久久精品免视看国产明星| 国产亚洲精品aaa大片| 久久福利影视| 国产一区二区精品| 国产一区二区精品在线观看| 一级女性大黄生活片免费| 超级乱淫黄漫画免费| 国产一区二区精品| 精品在线视频播放| 亚洲 激情| 日韩一级黄色| 一本伊大人香蕉高清在线观看| 欧美激情中文字幕一区二区| 国产麻豆精品| 亚久久伊人精品青青草原2020| 精品在线免费播放| 999久久66久6只有精品| 久久福利影视| 国产极品精频在线观看| 国产一区精品| 亚欧成人毛片一区二区三区四区| 国产网站免费| 成人影院久久久久久影院| 日韩专区亚洲综合久久| 日韩在线观看视频免费| 久久精品大片| 亚洲精品久久玖玖玖玖| 成人高清视频在线观看| 色综合久久久久综合体桃花网| 精品视频一区二区三区免费| 久久精品店| 日本伦理网站| 国产福利免费观看|