PySpark RDD

URI: https://gptkb.org/entity/PySpark_RDD

GPTKB entity

Predicate	Object
gptkbp:instanceOf	gptkb:PySpark_API_component gptkb:distributed_data_structure
gptkbp:action	gptkb:Count take collect foreach saveAsTextFile
gptkbp:API	distributed computing big data processing parallel computation
gptkbp:canBeCached	true
gptkbp:canBePersisted	true
gptkbp:documentation	https://spark.apache.org/docs/latest/rdd-programming-guide.html
gptkbp:introducedIn	gptkb:Apache_Spark_1.0
gptkbp:isFaultTolerant	true
gptkbp:isImmutable	true
gptkbp:isLazilyEvaluated	true
gptkbp:isPartitioned	true
gptkbp:isTyped	false
gptkbp:language	gptkb:Python
gptkbp:operator	gptkb:topographic_map gptkb:Count gptkb:checkpoint gptkb:Union gptkb:filter distinct sample join reduce take flatMap cache collect groupByKey reduceByKey saveAsTextFile persist
gptkbp:partOf	gptkb:Apache_Spark gptkb:PySpark
gptkbp:replacedBy	gptkb:Dataset DataFrame
gptkbp:standsFor	gptkb:Resilient_Distributed_Dataset
gptkbp:transformsInto	gptkb:topographic_map gptkb:filter flatMap groupByKey reduceByKey
gptkbp:usedIn	gptkb:Apache_Spark
gptkbp:bfsParent	gptkb:Dask_Bag
gptkbp:bfsLayer	7
http://www.w3.org/2000/01/rdf-schema#label	PySpark RDD