您现在的位置是:主页 > news > 廊坊市做网站/seo关键词排名优化软件

廊坊市做网站/seo关键词排名优化软件

admin2025/4/30 1:26:23news

简介廊坊市做网站,seo关键词排名优化软件,商城网站怎么做seo,网站开发费用属于哪种无形资产文章目录1 Overview2 Setups2.1 Prerequisite2.2 Run3 SummaryReference1 Overview 近期组内掌管的资源利用效率不够高,我们正在想办法在混部集群(游戏离线任务),多跑一些离线任务。平台之前提供过一些大规模机器学习的模块给算法…

廊坊市做网站,seo关键词排名优化软件,商城网站怎么做seo,网站开发费用属于哪种无形资产文章目录1 Overview2 Setups2.1 Prerequisite2.2 Run3 SummaryReference1 Overview 近期组内掌管的资源利用效率不够高,我们正在想办法在混部集群(游戏离线任务),多跑一些离线任务。平台之前提供过一些大规模机器学习的模块给算法…

文章目录

  • 1 Overview
  • 2 Setups
    • 2.1 Prerequisite
    • 2.2 Run
  • 3 Summary
  • Reference

1 Overview

近期组内掌管的资源利用效率不够高,我们正在想办法在混部集群(游戏+离线任务),多跑一些离线任务。平台之前提供过一些大规模机器学习的模块给算法同学使用,效果不错,但是因为交互以及和 K8S 的集成问题,还有就是人力问题,没有做的很好,最近调研了一些 tf-operator,准备底层进行整合,给用户提供更好的机器学习训练的体验。

关于 tf-operator,可以参考官网和 Github 仓库,简单理解,tf-operator 就是让用户在 K8S 集群上部署训练任务更加方便和简单。

2 Setups

因为 Kubeflow 安利:在 Kubernetes 上进行机器学习 内容已经比较老了,Kubeflow 有了一些模块的调整,而且官网的部署介绍是基于整个所有 component 的,但是我只想跑一个 tf-operator 的测试程序,所以从官网提供的部署方法里,抠一些脚本出来,单独部署一个 tf-opertor。

2.1 Prerequisite

  1. Kubernetes 集群,Mac 用户可以是 Docker for Mac,或者 Minikube
  2. 安装好 Ksonnet,略懂 Ksonnet 和 Jsonnet
  3. 有过使用 Tensorflow 的经验

2.2 Run

# 指定工作目录
APP_NAME=my-kubeflow
ks init ${APP_NAME}
cd ${APP_NAME}# 指定 ks registry,方便安装 pkg
ks registry add kubeflow github.com/kubeflow/kubeflow/tree/master/kubeflow# 安装需要的 pkg,官方提供的脚本 kfctl.sh 会安装所有 pkg,这里我们只装需要的
ks pkg install kubeflow/common
ks pkg install kubeflow/tf-training# all 已经可以替代所安装的 pkg 了
ks generate all
ks apply all

按照?的程序,就可以部署好 tf-operator 了。

# 默认在 default namespace 下
# kubectl get pods
➜  my-kubeflow git:(master) ✗ kubectl get all
NAME                                    READY   STATUS      RESTARTS   AGE
pod/tf-job-operator-665c879f79-6p7pj    1/1     Running     0          137mNAME                                       TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)    AGE
service/kubernetes                         ClusterIP   10.96.0.1       <none>        443/TCP    4h23m
service/tf-job-operator                    ClusterIP   10.99.30.170    <none>        8443/TCP   137mNAME                               READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/tf-job-operator    1/1     1            1           137mNAME                                          DESIRED   CURRENT   READY   AGE
replicaset.apps/tf-job-operator-665c879f79    1         1         1       137m

然后再安装 example,跑一个分布式的 mnist 训练任务。

cd ./examples/v1/dist-mnist
docker build -f Dockerfile -t kubeflow/tf-dist-mnist-test:1.0 .
kubectl create -f ./tf_job_mnist.yaml

任务启动成功,可以见到?。

# kubectl get pods
NAME                                READY   STATUS              RESTARTS   AGE
dist-mnist-for-e2e-test-ps-0        0/1     ContainerCreating   0          6s
dist-mnist-for-e2e-test-ps-1        0/1     ContainerCreating   0          6s
dist-mnist-for-e2e-test-worker-0    0/1     ContainerCreating   0          5s
dist-mnist-for-e2e-test-worker-1    0/1     ContainerCreating   0          5s
dist-mnist-for-e2e-test-worker-2    0/1     ContainerCreating   0          5s
dist-mnist-for-e2e-test-worker-3    0/1     ContainerCreating   0          5s
tf-job-dashboard-7b99dcff48-wq5cw   1/1     Running             0          139m
tf-job-operator-665c879f79-6p7pj    1/1     Running             0          139m

可以通过 get 来查看 status

# kubectl get tfjobs.kubeflow.org dist-mnist-for-e2e-test -o yaml
apiVersion: kubeflow.org/v1
kind: TFJob
metadata:creationTimestamp: "2019-07-29T06:41:53Z"generation: 1name: dist-mnist-for-e2e-testnamespace: defaultresourceVersion: "11825"selfLink: /apis/kubeflow.org/v1/namespaces/default/tfjobs/dist-mnist-for-e2e-testuid: f3c0a2c6-b1cb-11e9-9279-0800274cd279
spec:tfReplicaSpecs:PS:replicas: 2restartPolicy: Nevertemplate:spec:containers:- image: kubeflow/tf-dist-mnist-test:1.0name: tensorflowWorker:replicas: 4restartPolicy: Nevertemplate:spec:containers:- image: kubeflow/tf-dist-mnist-test:1.0name: tensorflow
status:completionTime: "2019-07-29T09:09:15Z"conditions:- lastTransitionTime: "2019-07-29T08:51:17Z"lastUpdateTime: "2019-07-29T08:51:17Z"message: TFJob dist-mnist-for-e2e-test is created.reason: TFJobCreatedstatus: "True"type: Created- lastTransitionTime: "2019-07-29T09:02:50Z"lastUpdateTime: "2019-07-29T09:09:14Z"message: TFJob dist-mnist-for-e2e-test is running.reason: TFJobRunningstatus: "False"type: Running- lastTransitionTime: "2019-07-29T09:09:15Z"lastUpdateTime: "2019-07-29T09:09:15Z"message: TFJob dist-mnist-for-e2e-test successfully completed.reason: TFJobSucceededstatus: "True"type: SucceededreplicaStatuses:PS:succeeded: 2Worker:succeeded: 4startTime: "2019-07-29T08:51:17Z"

3 Summary

上面的例子,讲解了如何在 K8S 集群运行 tf-operator 并且提交分布式的训练任务。

Reference

  1. Kubeflow 安利:在 Kubernetes 上进行机器学习
  2. kubeflow/tf-operator
  3. kubeflow/kubeflow
  4. Distributed Tesorflow
  5. KubeFlow CPU/GPU Demo