您现在的位置是:主页 > news > 怎么知道网站的域名/搜索引擎名词解释

怎么知道网站的域名/搜索引擎名词解释

admin2025/4/21 6:35:10news

简介怎么知道网站的域名,搜索引擎名词解释,做园林景观的网站,做淘宝客的网站怎么备案一,Mllib的数据格式 1,本地向量 本地向量是存储在本地节点上的,其基本数据类型是Vector,其有两个子集,分别是密集的与稀疏的,我们一般使用Vectors工厂类来实现。如: Vectors.dese(1.0,2.0,3.…

怎么知道网站的域名,搜索引擎名词解释,做园林景观的网站,做淘宝客的网站怎么备案一,Mllib的数据格式 1,本地向量 本地向量是存储在本地节点上的,其基本数据类型是Vector,其有两个子集,分别是密集的与稀疏的,我们一般使用Vectors工厂类来实现。如: Vectors.dese(1.0,2.0,3.…

一,Mllib的数据格式

1,本地向量 

本地向量是存储在本地节点上的,其基本数据类型是Vector,其有两个子集,分别是密集的与稀疏的,我们一般使用Vectors工厂类来实现。如:

    Vectors.dese(1.0,2.0,3.0)

   Vectors.sparse(3,(0,1),(1,2),(2,3))

2, 标签数据

val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

 

3,本地矩阵

本地矩阵是存储与单台机器上的,有整类型的row,列索引,double类型的值。Mllib支持密集矩阵,其输入值按照列column-major顺序存储在单个double数组中。稀疏矩阵是其非零值按照column-major顺序以压缩稀疏列(CSC)格式存储。

如下面的密集矩阵

?wx_fmt=png

密集矩阵的存储方式下,表现为:[1.0, 3.0, 5.0, 2.0, 4.0, 6.0],矩阵大小为(3, 2)

本地矩阵的基类是Matrix,有两个实现:DenseMatrix和SparseMatrix。用工厂方法来创建本地矩阵。请记住,Mllib中的本地矩阵按照column-major的顺序存储。

import org.apache.spark.mllib.linalg.{Matrix, Matrices}

// Create a dense matrix ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))

val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))

// Create a sparse matrix ((9.0, 0.0), (0.0, 8.0), (0.0, 6.0))

val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8))

 

4,分布式矩阵

一个矩阵分成多个RDD存储

一个分布式矩阵有一个long型的行,列索引,double类型的值,以一个或者多个RDD的形式分布式存储。存储巨大和分布式的矩阵需要选择一个正确的存储格式。将一个分布式矩阵转换为一个不同的格式可能需要一个全局的shuffle,代价是非常高的。目前为止,总共有四种类型的分布式矩已经被实现了。

一个RowMatrix矩阵是一个面向行的矩阵,行索引是没有意义的,比如,一个特征向量。RDD的每个行都是一个本地行向量。这里面RowMatrix假设的是列数不多,所以一个本地向量可以本传到driver端,可以轻松的被一个节点处理和存储。

一个IndexedRowMatrix跟RowMatrix很相似,但是它有一个行索引,该索引可以用于识别行并且执行joins。

CoordinateMatrix是一个以coordinate list (COO)格式存储的分布式矩阵。(row, column, value)

BlockMatrix是一个分布式矩阵,格式是(Int,Int,Matrix)。

注意

分布式矩阵的底层RDD必须是确定性的,因为我们缓存矩阵大小。一般来说,使用非确定性的RDD可能会导致错误。

 

5,分布式数据集

RDD DataSet Dataframe