您现在的位置是：主页 > news > 怎么知道网站的域名/搜索引擎名词解释

怎么知道网站的域名/搜索引擎名词解释

admin2025/4/21 6:35:10【news】

简介怎么知道网站的域名,搜索引擎名词解释,做园林景观的网站,做淘宝客的网站怎么备案一，Mllib的数据格式 1，本地向量本地向量是存储在本地节点上的，其基本数据类型是Vector，其有两个子集，分别是密集的与稀疏的，我们一般使用Vectors工厂类来实现。如： Vectors.dese(1.0,2.0,3.…

怎么知道网站的域名,搜索引擎名词解释,做园林景观的网站,做淘宝客的网站怎么备案一，Mllib的数据格式 1，本地向量本地向量是存储在本地节点上的，其基本数据类型是Vector，其有两个子集，分别是密集的与稀疏的，我们一般使用Vectors工厂类来实现。如： Vectors.dese(1.0,2.0,3.…

一，Mllib的数据格式

1，本地向量

本地向量是存储在本地节点上的，其基本数据类型是Vector，其有两个子集，分别是密集的与稀疏的，我们一般使用Vectors工厂类来实现。如：

Vectors.dese(1.0,2.0,3.0)

Vectors.sparse(3,(0,1),(1,2),(2,3))

2, 标签数据

val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

3，本地矩阵

本地矩阵是存储与单台机器上的，有整类型的row，列索引，double类型的值。Mllib支持密集矩阵，其输入值按照列column-major顺序存储在单个double数组中。稀疏矩阵是其非零值按照column-major顺序以压缩稀疏列（CSC）格式存储。

如下面的密集矩阵

?wx_fmt=png

密集矩阵的存储方式下，表现为：[1.0, 3.0, 5.0, 2.0, 4.0, 6.0]，矩阵大小为(3, 2)

本地矩阵的基类是Matrix，有两个实现：DenseMatrix和SparseMatrix。用工厂方法来创建本地矩阵。请记住，Mllib中的本地矩阵按照column-major的顺序存储。

import org.apache.spark.mllib.linalg.{Matrix, Matrices}

// Create a dense matrix ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))

val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))

// Create a sparse matrix ((9.0, 0.0), (0.0, 8.0), (0.0, 6.0))

val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8))

4，分布式矩阵

一个矩阵分成多个RDD存储

一个分布式矩阵有一个long型的行，列索引，double类型的值，以一个或者多个RDD的形式分布式存储。存储巨大和分布式的矩阵需要选择一个正确的存储格式。将一个分布式矩阵转换为一个不同的格式可能需要一个全局的shuffle，代价是非常高的。目前为止，总共有四种类型的分布式矩已经被实现了。

一个RowMatrix矩阵是一个面向行的矩阵，行索引是没有意义的，比如，一个特征向量。RDD的每个行都是一个本地行向量。这里面RowMatrix假设的是列数不多，所以一个本地向量可以本传到driver端，可以轻松的被一个节点处理和存储。

一个IndexedRowMatrix跟RowMatrix很相似，但是它有一个行索引，该索引可以用于识别行并且执行joins。

CoordinateMatrix是一个以coordinate list (COO)格式存储的分布式矩阵。(row, column, value)

BlockMatrix是一个分布式矩阵，格式是(Int,Int,Matrix)。

注意

分布式矩阵的底层RDD必须是确定性的，因为我们缓存矩阵大小。一般来说，使用非确定性的RDD可能会导致错误。

5，分布式数据集

RDD DataSet Dataframe

相关文章

最新文章