服务化部署框架Paddle Serving
概述
常见的深度学习模型开发流程需要经过问题定义、数据准备、特征提取、建模、训练过程,以及最后一个环——将训练出来的模型部署应用到实际业务中。如图1所示,当前用户在训练出一个可用的模型后,可以选择如下四种部署应用方式:
图1 部署的四种方式
本文介绍的Paddle Serving就是第二种部署方式,这种方式与其它方式相比,对于使用者来说,最大的特点就是“独乐乐不如众乐乐”。也就是说,在模型部署成功后,不同用户都可以通过客户端,以发送网络请求的方式获得推理服务。如图2所示,通过建模、训练获得的模型在部署到云端后形成云服务,例如百度云,百度云会和负载均衡的模块连接,其中负载均衡模块的作用是防止访问流量过大。用户可以通过手机、电脑等设备访问云上的推理服务。
图2 在线推理服务工作流程
此外在实际应用中,部署的场景可能会非常复杂。如图3所示,在某些用户的业务中,需要将多个模型分阶段、联合使用,例如某些个性化推荐场景,其中就需要部署召回、排序、融合等多种模型,且模型间会形成上下游关系,相互配合实现业务相关推理功能。如何能将模型成功部署到硬件环境上已成为用户普遍关注的问题,这个如同长跑的冲刺阶段,模型是否能被应用到实际业务中就在此一举。而Paddle Serving作为飞桨(PaddlePaddle)开源的在线服务框架,长期目标就是围绕着人工智能落地的最后一公里提供越来越专业、可靠、易用的服务。
图3 多模型应用示意图
Paddle Serving具有三大优势:
简单易用:为了让使用Paddle的用户能够以极低的成本部署模型,PaddleServing设计了一套与Paddle训练框架无缝打通的预测部署API,普通模型可以使用一行命令进行服务部署。完全采用Python语音的开发接口,适合广大开发者学习和调用。
工业级实践:为了达到工业级深度学习模型在线部署的要求, Paddle Serving提供很多大规模场景需要的部署功能。
多模型串联流水线部署
异构部署,支持ARM,XPU等设备
多语言多平台支持
二次开发:方便Web应用的开发者在不用写代码的情况下快速调用推理服务。此外Paddle Serving支持多语言的的客户端,未来也会面向不同类型的客户新增多种语言的客户端,方便使用不同语言系统的开发者通过客户端调用服务。 【占位,放一张异构部署的图片】
环境安装
在使用Paddle Serving之前,用户需要完成如下任务:
操作步骤
wget https://paddle-serving.bj.bcebos.com/aistudio/cuda-9.0-aistudio-env.tar.gz
tar xf cuda-9.0-aistudio-env.tar.gz
export LD_LIBRARY_PATH=/home/aistudio/env/cuda-9.0/lib64:$LD_LIBRARY_PATH
!wget https://paddle-serving.bj.bcebos.com/aistudio/cuda-9.0-aistudio-env.tar.gz
!tar xf cuda-9.0-aistudio-env.tar.gz
!export LD_LIBRARY_PATH=/home/aistudio/env/cuda-9.0/lib64:$LD_LIBRARY_PATH
--2021-01-30 12:43:57-- https://paddle-serving.bj.bcebos.com/aistudio/cuda-9.0-aistudio-env.tar.gz
Resolving paddle-serving.bj.bcebos.com (paddle-serving.bj.bcebos.com)… 182.61.200.195, 182.61.200.229, 2409:8c00:6c21:10ad:0:ff:b00e:67d
Connecting to paddle-serving.bj.bcebos.com (paddle-serving.bj.bcebos.com)|182.61.200.195|:443… connected.
HTTP request sent, awaiting response… 200 OK
Length: 2329036800 (2.2G) [application/x-gzip]
Saving to: ‘cuda-9.0-aistudio-env.tar.gz’
cuda-9.0-aistudio-e 100%[===================>] 2.17G 89.7MB/s in 27s
2021-01-30 12:44:24 (82.8 MB/s) - ‘cuda-9.0-aistudio-env.tar.gz’ saved [2329036800/2329036800]
Docker安装方式
注:本文有关Docker的操作需要在支持Docker的服务器上操作,本AIStudio笔记本上的操作请忽略Docker相关的介绍
启动 CPU Docker
1.获取镜像
可以通过如下两种方式获取镜像:
docker pull hub.baidubce.com/paddlepaddle/serving:0.4.1-devel
docker build -t
hub.baidubce.com/paddlepaddle/serving:0.4.1-devel .
2. 创建容器并进入
docker run -p 9292:9292 --name
test -dit hub.baidubce.com/paddlepaddle/serving:0.4.1-devel
docker exec -it test bash
其中-p选项是为了将容器的9292端口映射到宿主机的9292端口。
3. 安装PaddleServing
为了减小镜像的体积,镜像中没有安装Serving包,要执行下面命令进行安装。
pip
install paddle-serving-server
如果下载速度缓慢,您可以使用国内镜像源(例如清华源)来提高下载速度。
pip install paddle-serving-server -i https://pypi.tuna.tsinghua.edu.cn/simple
启动 GPU Docker
GPU版本与CPU版本基本一致,只有部分接口命名的差别(GPU版本需要在GPU机器上安装nvidia-docker)。
1. 获取镜像
可以通过两种方式获取镜像。
nvidia-docker
pull hub.baidubce.com/paddlepaddle/serving:${TAG}
nvidia-docker
build -t hub.baidubce.com/paddlepaddle/serving:${TAG}
${TAG}根据上面给的表格,确定好自己的环境平台替换上来即可。
2. 创建容器并进入
nvidia-docker
run -p 9292:9292 --name test -dit hub.baidubce.com/paddlepaddle/serving:${TAG}
nvidia-docker
exec -it test bash
-p选项是为了将容器的9292端口映射到宿主机的9292端口。
3. 安装PaddleServing
为了减小镜像的体积,镜像中没有安装Serving包,要执行下面命令进行安装。
pip
install paddle-serving-server-gpu
如果下载速度缓慢,可以使用国内镜像源(例如清华源)来提高下载速度。
pip install paddle-serving-server-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple
PIP安装方式
根据硬件环境与角色选择如下pip命令安装Paddle
Serving。
安装客户端:pip install paddle-serving-client
安装服务器端:
安装CPU服务端:pip install
paddle-serving-server
安装GPU服务端:pip install
paddle-serving-server-gpu
安装工具组件:pip install paddle-serving-app
本例中推荐使用GPU环境作为服务端,因此请执行如下命令安装Paddle
Serving。
操作步骤:
pip install
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_client-0.0.0-cp37-none-any.whl
pip install
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_app-0.0.0-py3-none-any.whl
pip install https://paddle-serving.bj.bcebos.com/whl/paddle_serving_server_gpu-0.0.0.post9-py3-none-any.whl
pip install -r python/requirements.txt
git clone
https://hub.fastgit.org/PaddlePaddle/Serving -b v0.4.1
!pip
install https://paddle-serving.bj.bcebos.com/whl/paddle_serving_client-0.0.0-cp37-none-any.whl
!pip
install https://paddle-serving.bj.bcebos.com/whl/paddle_serving_app-0.0.0-py3-none-any.whl
!pip
install https://paddle-serving.bj.bcebos.com/whl/paddle_serving_server_gpu-0.0.0.post9-py3-none-any.whl
!pip
install -r python/requirements.txt
!git clone
https://hub.fastgit.org/PaddlePaddle/Serving -b v0.4.1
Looking
in indexes: https://mirror.baidu.com/pypi/simple/
Collecting
paddle-serving-client==0.0.0 from
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_client-0.0.0-cp37-none-any.whl
Downloading
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_client-0.0.0-cp37-none-any.whl
(48.1MB)
|████████████████████████████████| 48.1MB
3.7MB/s eta 0:00:01
Requirement
already satisfied: protobuf>=3.11.0 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages
(from paddle-serving-client==0.0.0) (3.12.2)
Collecting
grpcio-tools<=1.33.2 (from paddle-serving-client==0.0.0)
Downloading
https://mirror.baidu.com/pypi/packages/48/2d/af56365408476ddcbc9a10a6b1aa2556060ef3081b7ee676423ddc4f98cf/grpcio_tools-1.33.2-cp37-cp37m-manylinux2010_x86_64.whl
(2.5MB)
|████████████████████████████████| 2.5MB
11.4MB/s eta 0:00:01
Requirement
already satisfied: grpcio<=1.33.2 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-client==0.0.0) (1.26.0)
Requirement
already satisfied: numpy>=1.12 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-client==0.0.0) (1.16.4)
Requirement
already satisfied: six>=1.10.0 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-client==0.0.0) (1.15.0)
Requirement
already satisfied: setuptools in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages
(from protobuf>=3.11.0->paddle-serving-client==0.0.0) (41.4.0)
ERROR:
grpcio-tools 1.33.2 has requirement grpcio>=1.33.2, but you'll have grpcio
1.26.0 which is incompatible.
Installing
collected packages: grpcio-tools, paddle-serving-client
Successfully
installed grpcio-tools-1.33.2 paddle-serving-client-0.0.0
Looking
in indexes: https://mirror.baidu.com/pypi/simple/
Collecting
paddle-serving-app==0.0.0 from
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_app-0.0.0-py3-none-any.whl
Downloading
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_app-0.0.0-py3-none-any.whl
(49kB)
|████████████████████████████████| 51kB
2.5MB/s eta 0:00:01
Requirement
already satisfied: opencv-python in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages
(from paddle-serving-app==0.0.0) (4.1.1.26)
Requirement
already satisfied: pillow in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-app==0.0.0) (7.1.2)
Requirement
already satisfied: sentencepiece in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-app==0.0.0) (0.1.85)
Requirement
already satisfied: six>=1.10.0 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-app==0.0.0) (1.15.0)
Collecting
pyclipper (from paddle-serving-app==0.0.0)
Downloading
https://mirror.baidu.com/pypi/packages/69/5b/92df65d3e1e5c5623e67feeac92a18d28b0bf11bdd44d200245611b0fbb8/pyclipper-1.2.1-cp37-cp37m-manylinux1_x86_64.whl
(126kB)
|████████████████████████████████| 133kB
17.6MB/s eta 0:00:01
Requirement
already satisfied: numpy>=1.14.5 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
opencv-python->paddle-serving-app==0.0.0) (1.16.4)
Installing
collected packages: pyclipper, paddle-serving-app
Successfully
installed paddle-serving-app-0.0.0 pyclipper-1.2.1
Looking
in indexes: https://mirror.baidu.com/pypi/simple/
Collecting
paddle-serving-server-gpu==0.0.0.post9 from https://paddle-serving.bj.bcebos.com/whl/paddle_serving_server_gpu-0.0.0.post9-py3-none-any.whl
Downloading
https://paddle-serving.bj.bcebos.com/whl/paddle_serving_server_gpu-0.0.0.post9-py3-none-any.whl
(8.2MB)
|████████████████████████████████| 8.2MB
4.3MB/s eta 0:00:01
Collecting
func-timeout (from paddle-serving-server-gpu==0.0.0.post9)
Downloading
https://mirror.baidu.com/pypi/packages/b3/0d/bf0567477f7281d9a3926c582bfef21bff7498fc0ffd3e9de21811896a0b/func_timeout-4.3.5.tar.gz
(44kB)
|████████████████████████████████| 51kB
16.7MB/s eta 0:00:01
Requirement
already satisfied: pyyaml in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-server-gpu==0.0.0.post9) (5.1.2)
Requirement
already satisfied: protobuf>=3.11.0 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-server-gpu==0.0.0.post9) (3.12.2)
Requirement
already satisfied: flask>=1.1.1 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-server-gpu==0.0.0.post9) (1.1.1)
Requirement
already satisfied: grpcio<=1.33.2 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-server-gpu==0.0.0.post9) (1.26.0)
Requirement
already satisfied: grpcio-tools<=1.33.2 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-server-gpu==0.0.0.post9) (1.33.2)
Requirement
already satisfied: six>=1.10.0 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
paddle-serving-server-gpu==0.0.0.post9) (1.15.0)
Requirement
already satisfied: setuptools in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
protobuf>=3.11.0->paddle-serving-server-gpu==0.0.0.post9) (41.4.0)
Requirement
already satisfied: Jinja2>=2.10.1 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
flask>=1.1.1->paddle-serving-server-gpu==0.0.0.post9) (2.10.1)
Requirement
already satisfied: click>=5.1 in /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages
(from flask>=1.1.1->paddle-serving-server-gpu==0.0.0.post9) (7.0)
Requirement
already satisfied: itsdangerous>=0.24 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
flask>=1.1.1->paddle-serving-server-gpu==0.0.0.post9) (1.1.0)
Requirement
already satisfied: Werkzeug>=0.15 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
flask>=1.1.1->paddle-serving-server-gpu==0.0.0.post9) (0.16.0)
Requirement
already satisfied: MarkupSafe>=0.23 in
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages (from
Jinja2>=2.10.1->flask>=1.1.1->paddle-serving-server-gpu==0.0.0.post9)
(1.1.1)
Building
wheels for collected packages: func-timeout
Building wheel for func-timeout (setup.py)
… done
Created wheel for func-timeout:
filename=func_timeout-4.3.5-cp37-none-any.whl size=15078
sha256=149e91a6b64aba8d61b0f24e390247c7f54d107bc9f75cfe5b4fbaef55aaeebe
Stored in directory:
/home/aistudio/.cache/pip/wheels/b6/02/ef/ed29b2e7ce11e342849cf84b8a551bc3ad028b4c2e5d2172db
Successfully
built func-timeout
Installing
collected packages: func-timeout, paddle-serving-server-gpu
Successfully
installed func-timeout-4.3.5 paddle-serving-server-gpu-0.0.0.post9
ERROR:
Could not open requirements file: [Errno 2] No such file or directory:
'python/requirements.txt'
fatal:
destination path 'Serving' already exists and is not an empty directory.
如果下载速度缓慢,可以使用国内镜像源(例如清华源,可以在pip命令中添加-i https://pypi.tuna.tsinghua.edu.cn/simple)来加速下载。 客户端安装包支持Centos 7和Ubuntu 18,或者可以使用HTTP服务,这种情况下不需要安装客户端。
快速体验部署在线推理服务
使用Paddle Serving部署在线推理服务的过程非常简单,主要分为3个步骤,获取可用于部署在线服务的模型、启动服务端和使用客户端访问服务端进行推理,也就是说最多3步就可以完成部署,是不是像把大象关到冰箱里一样简单?具体怎么操作,咱们以常用的波士顿房价预测模型为例,快速体验一下如何将这个模型部署到服务器上。
为了方便用户操作,本文已经把房价预测相关的模型文件,保存在fit_a_line文件夹内的uci_housing_client和uci_housing_model文件夹中,用户可以直接跳过第一步,直接使用如下命令启动在线服务。
当出现如下类型的显示信息时,并且命令一直处于运行状态,则代表服务端已经启动成功。之所以一直处于运行状态,因为服务器会一直处于监听客户端请求信息的状态。
---
Running analysis [ir_graph_build_pass]
---
Running analysis [ir_graph_clean_pass]
---
Running analysis [ir_analysis_pass]
---
Running analysis [ir_params_sync_among_devices_pass]
---
Running analysis [adjust_cudnn_workspace_size_pass]
---
Running analysis [inference_op_replace_pass]
---
Running analysis [ir_graph_to_program_pass]
启动成功后,用户可以通过命令中name参数指定的URL名称,访问服务端使用推理服务。请在终端-1执行如下命令体验推理服务。其中"x": [0.0137, -0.1136, 0.2553, -0.0692, 0.0582,
-0.0727, -0.1583, -0.0584, 0.6283, 0.4919, 0.1856, 0.0795, -0.0332]是房价预测的13个特征值。需要推理的值是"price"。
curl -H "Content-Type:application/json" -X POST -d
'{"feed":[{"x": [0.0137, -0.1136, 0.2553, -0.0692, 0.0582, -0.0727, -0.1583, -0.0584, 0.6283, 0.4919, 0.1856, 0.0795, -0.0332]}],
"fetch":["price"]}' http://127.0.0.1:9393/uci/prediction
预期结果
{"result":{"price":[[18.901151657104492]]}}
说明:在执行下面的命令之前,先中断前面的启动服务端程序。
部署在线推理服务进阶流程
所谓进阶流程,其实还是那三个步骤,获取可用于部署的在线服务的模型、启动服务端和使用客户端访问服务端进行推理。只是每个步骤将会详细介绍一下,有的地方还要编写少量的代码。将逐一介绍具体过程及原理,此外为了保证读者理解上的连贯性,把启动服务端和使用客户端访问服务端,进行推理两个步骤合成一个步骤进行介绍。
1. 获取可用于部署在线服务的模型
首先来看获取可用于部署在线服务的模型。有的同学可能会说:“已经有了训练好的模型了,是不是可以直接看第二步了呢?”回答是:“留步,训练好的模型未必可以直接用Paddle Serving进行部署。”通常训练过程是使用的save_inference_mode接口保存模型的,但是这样保存的模型文件中缺少Paddle
Serving部署所需要的配置文件。当前Paddle Serving提供了一个save_model的API接口,用于帮助用户在训练过程中保存模型,即将Paddle Serving在部署阶段需要用到的参数与配置文件统一保存打包。相关API接口的应用示例代码如下所示,只要参考下面两行代码将训练程序中的save_inference_mode替换为save_model,就可以训练出供Paddle Serving使用的模型文件了。示例中,{“words”: data}和{“prediction”: prediction}分别指定了模型的输入和输出,"words"和"prediction"输入和输出变量的别名,设计别名的目的是为了便于开发者能够记忆自己训练模型的输入输出对应的字段。
静态图
import paddle_serving_client.io as
serving_io
serving_io.save_model("serving_model", "client_conf",
{"words": data}, {"prediction": prediction},
fluid.default_main_program())
动态图
import paddle_serving_client.io as serving_io
serving_io.save_dygraph_model("serving_model", "client_conf", model)
此时可能有的用户会比较不爽,因为按照上面的方法来操作的话,就要重新训练模型。因为众所周知,训练一个模型一般都要花费比较长的时间,这相当于前功尽弃啊!别着急,这种情况也在的考虑范围之内,准备关闭手下留情,且往下看。
如果用户已使用paddlejit.save(动态图) 或者 save_inference_model接口(静态图)保存出可用于推理的模型,Paddle Serving为大家提供了paddle_serving_client.convert接口,该接口可以把已保存的模型转换成可用于Paddle Serving使用的模型文件。相关API接口的应用示例代码如下所示,
python -m paddle_serving_client.convert --dirname $MODEL_DIR --model_filename $MODEL_FILENAME
--params_filename PARAMS_FILENAME --serving_server $SERVING_SERVER_DIR
--serving_client $SERVING_CLIENT_DIR
其中各个参数解释如下所示:
上面介绍了两种获取可用于部署在线服务的模型的方法,根据上面的两个例子,新模型保存成功后,飞桨都会按照用户指定的"serving_model和"client_conf""生成两个目录,如下所示:
.
├── client_conf
│ ├── serving_client_conf.prototxt
│ └── serving_client_conf.stream.prototxt
└── serving_model
├── __params__
├── __model__
├── serving_server_conf.prototxt
└── serving_server_conf.stream.prototxt
其中,"serving_client_conf.prototxt"和"serving_server_conf.prototxt"是Paddle
Serving的客户端和服务端需要加载的配置,"serving_client_conf.stream.prototxt"和"serving_server_conf.stream.prototxt"是配置文件的二进制形式。"serving_model"下保存的其它内容和原先的save_inference_mode接口保存的模型文件是一致的。未来会考虑在Paddle框架中直接保存可服务的配置,实现配置保存对用户无感,提升用户体验。
获取模型的方法讲完了,可以实际操作一下。进阶部署流程将以部署IMDB评论情感分析在线服务为例进行讲解。IMDB评论情感分析任务是对电影评论的内容进行推理,是一种二分类问题,即判断该评论是属于正面评论还是负面评论。IMDB评论情感分析任务相关的文件保存在imdb文件夹中,训练数据与测试数据分别保存在train_data和test_data文件夹里。以下面这条训练数据为例。这是一条英文评论样本,样本中使用|作为分隔符,分隔符之前为评论的内容,分隔符之后是样本的标签,0代表负样本,即负面评论,1代表正样本,即正面评论。
saw a
trailer for this on another video, and decided to rent when it came out. boy,
was i disappointed! the story is extremely boring, the acting (aside from
christopher walken) is bad, and i couldn’t care less about the characters,
aside from really wanting to see nora’s husband get thrashed. christopher
walken’s role is such a throw-away, what a tease! | 0
imdb文件夹中的各个脚本的作用如下:
257 142
52 898 7 0 12899 1083 824 122 89527 134 6 65 47 48 904 89527 13 0 87 170 8 248
9 15 4 25 1365 4360 89527 702 89527 1 89527 240 3 28 89527 19 7 0 216 219 614
89527 0 84 89527 225 3 0 15 67 2356 89527 0 498 117 2 314 282 7 38 1097 89527 1
0 174 181 38 11 71 198 44 1 3110 89527 454 89527 34 37 89527 0 15 5912 80 2
9856 7748 89527 8 421 80 9 15 14 55 2218 12 4 45 6 58 25 89527 154 119 224 41 0
151 89527 871 89527 505 89527 501 89527 29 2 773 211 89527 54 307 90 0 893
89527 9 407 4 25 2 614 15 46 89527 89527 71 8 1356 35 89527 12 0 89527 89527 89
527 577 374 3 39091 22950 1 3771 48900 95 371 156 313 89527 37 154 296 4 25 2
217 169 3 2759 7 0 15 89527 0 714 580 11 2094 559 34 0 84 539 89527 1 0 330 355
3 0 15 15607 935 80 0 5369 3 0 622 89527 2 15 36 9 2291 2 7599 6968 2449 89527
1 454 37 256 2 211 113 0 480 218 1152 700 4 1684 1253 352 10 2449 89527 39 4 1819
129 1 316 462 29 0 12957 3 6 28 89527 13 0 457 8952 7 225 89527 8 2389 0 1514
89527 0
#引入Paddle Serving保存模型相关的依赖
import paddle_serving_client.io as
serving_io
for i in range(epochs):
exe.train_from_dataset(
program=fluid.default_main_program(), dataset=dataset, debug=False)
logger.info("TRAIN
--> pass: {}".format(i))
if i == 64:
#在训练结束时使用Paddle Serving中的模型保存接口保存出Serving所需的模型和配置文件
serving_io.save_model("{}_model".format(model_name),
"{}_client_conf".format(model_name),
{"words": data}, {"prediction": prediction},
fluid.default_main_program())
local_train.py脚本会调用其它脚本完成模型训练过程。用户可以执行如下命令使用local_train.py脚本体验训练并生成可用于部署的模型的过程。可用于部署的模型文件和配置文件将保存在imdb/imdb_lstm_model和imdb/imdb_lstm_client_conf文件夹中。
说明:此训练过程仅用于演示,并未训练达到最好的效果。
%cd imdb
!python
local_train.py
2. 启动推理服务
如图4所示,Paddle Serving框架从大的方向上分为两种模式,并且为了适配工业界的实际需求衍生出了更加便携的部署方式。
如果用户需要一个纯模型预测服务,通过输入Tensor和输出Tensor与服务进行交互,可以使用RPC模式。通常这种模式用于验证模型的有效性。实际的场景往往具备较为复杂的前后处理,自然语言或者图像数据直接发送到服务端之后,需要一定的前处理转换成Tensor之后做预测
如图4所示,Paddle Serving框架支持两种推理服务方式,分别是RPC服务和Web服务,用户可以任选其一:
图4 部署流程图
下面将分别介绍两种操作方式。
部署RPC推理服务
(1)启动服务端
请执行如下命令启动RPC推理服务。命令中参数–model 指定在之前保存的server端的模型和配置文件目录,–port指定推理服务的端口,当使用GPU版本部署GPU推理服务时可以使用–gpu_ids指定使用的GPU。命令执行完成后,即代表已成功部署了IMDB情感分析任务。
如果用户使用的是CPU环境,则可以使用如下命令。
cd Serving/python/examples/imdb
sh get_data.sh
python -m paddle_serving_server.serve --model
imdb_lstm_model/ --port 9292
启动服务的命令还支持一些其它参数,如下所示:
一行命令启动RPC方式的推理服务的原理是什么呢?如下图所示,该图为RPC推理服务的流程图。Paddle Serving使用了百度开源的PRC通信库,该通信库使用可兼容多种语言的Protobuf格式的报文来封装请求或响应字段。在推理过程中,Client端把用户的输入数据,例如一条或多条电影评论,打包到Protobuf报文中并发送给服务端。服务端内部有多个算子,通过这些算子服务端在收到Protobuf报文后,可以从Protobuf报文中解析出飞桨推理库可以读取的输入数据格式,然后由推理库做推理,推理结果将被重新封装为Protobuf格式返回给客户端。显而易见,通过使用Paddle Serving,用户将不需要去了解飞桨的推理库的输入输出格式,整个从读取输入数据到返回推理结果都将由Paddle Serving服务端内部的算子完成。Paddle Serving通过paddle_serving_server_gpu.serve(paddle_serving_server.serve)这个服务模块将这些算子串联到一起,完成整个在线推理的服务流程。因此用户仅需要一条命令调用这个服务模块,并设定好推理使用的模型以及服务端口等信息,即可完成在线推理服务启动工作。
图2 Paddle
Serving核心执行引擎流程图
(2)配置客户端
下面来看看如何编写RPC服务的客户端的脚本。整体上可以分为四步:
(1)声明Client类实例。
client = Client()
(2)加载配置,即加载client配置目录下的serving_client_conf.prototxt。
client.load_client_config(str)
(3)连接服务端。
client.connect(list[str])
(4)发送请求。发送请求主要使用client.predict接口,该接口有feed和fetch两个参数,其中fetch是用来指定远程预估后要获取的变量名,feed用来指定需要推理的数据。 feed支持如下三种取值形式:
单条数据输入,示例如下所示。其中"words"和"prediction"为上一步骤保存模型中的别名。示例如下所示:
client.predict(feed={'words':data}, fetch=['prediction'],
batch=False)
支持利用词典数组实现批量预估。示例如下所示:
client.predict(feed=[{"words":data},
{"words":data}], batch=False)
支持使用numpy array定义输入数据。示例如下所示:
import numpy as np
client.predict(feed={'words':np.array(data)}, batch=False)
需要强调的是 predict函数当中的batch选项,表示feed字典中的tensor是否为一个batch client的具体的代码示例如下所示。值得注意的是对于像IMDB评论情感分析这类任务,输入数据是需要经过预处理的,对于RPC服务可以把预处理功能相关代码写到客户端代码中,由客户端完成相关操作。
from paddle_serving_client import Client
from paddle_serving_app.reader import IMDBDataset
import sys
client =
Client()
client.load_client_config(sys.argv[1])
client.connect(["127.0.0.1:9292"])
# you can
define any english sentence or dataset here
# This
example reuses imdb reader in training, you
# can
define your own data preprocessing easily.
imdb_dataset
= IMDBDataset()
imdb_dataset.load_resource(sys.argv[2])
for line in
sys.stdin:
word_ids, label =
imdb_dataset.get_words_and_label(line)
feed
= {"words": word_ids}
fetch = ["acc", "cost", "prediction"]
fetch_map = client.predict(feed=feed, fetch=fetch, batch=False)
print("{} {}".format(fetch_map["prediction"][0], label[0]))
用户可以参考上述代码编写自己的客户脚本。上述代码已经保存在test_client.py脚本文件中,用户可以使用如下命令在终端-1中调用脚本启动客户端,体验在线推理服务。该命令将使用test_data/part-0文件中的前10个样本进行测试。
head
test_data/part-0 | python test_client.py imdb_lstm_client_conf/serving_client_conf.prototxt
imdb.vocab
预期结果
[0.5003979 0.49960202] 0
[0.50072354 0.49927655] 1
[0.50051194 0.49948803] 0
[0.50039905 0.4996009 ] 1
[0.50062656 0.49937338] 0
[0.5006046 0.49939534] 1
[0.50049865 0.49950135] 0
[0.5000268 0.49997315] 1
[0.50083774 0.49916226] 0
[0.5001417 0.49985838] 0
部署Pipeline服务
(1)启动服务端
RRC的服务非常简单易用,但是在具体的生产环境中会有如下的问题
为此Pipeline做了如下操作。
Pipeline设计文档参见 Paddle Serving Pipeline设计文档
使用方式如下所示
from paddle_serving_server.web_service import WebService, Op
import logging
import numpy as np
import sys
class UciOp(Op):
def init_op(self):
self.separator = ","
def preprocess(self, input_dicts, data_id, log_id):
(_, input_dict), = input_dicts.items()
_LOGGER.error("UciOp::preprocess >>>
log_id:{}, input:{}".format(
log_id, input_dict))
x_value = input_dict["x"]
proc_dict = {}
if isinstance(x_value,
str):
input_dict["x"] = np.array(
[float(x.strip())
for x in
x_value.split(self.separator)]).reshape(1, 13)
return input_dict, False, None, ""
def postprocess(self, input_dicts, fetch_dict, log_id):
fetch_dict["price"] = str(fetch_dict["price"][0][0])
return fetch_dict, None, ""
class UciService(WebService):
def get_pipeline_response(self, read_op):
uci_op = UciOp(name="uci", input_ops=[read_op])
return uci_op
uci_service
= UciService(name="uci")
uci_service.prepare_pipeline_config("config.yml")
uci_service.run_service()
在上述python代码中给出了房价预测的Pipeline版本,接下来是yaml配置文件
#worker_num,
最大并发数。当build_dag_each_worker=True时, 框架会创建worker_num个进程,每个进程内构建grpcSever和DAG
##当build_dag_each_worker=False时,框架会设置主线程grpc线程池的max_workers=worker_num
worker_num: 1
#http端口, rpc_port和http_port不允许同时为空。当rpc_port可用且http_port为空时,不自动生成http_port
rpc_port: 9998
http_port: 18082
dag:
#op资源类型, True, 为线程模型;False,为进程模型
is_thread_op: False
op:
uci:
#当op配置没有server_endpoints时,从local_service_conf读取本地服务配置
local_service_conf:
#并发数,is_thread_op=True时,为线程并发;否则为进程并发
concurrency: 2
#uci模型路径
model_config: uci_housing_model
#计算硬件ID,当devices为""或不写时为CPU预测;当devices为"0", "0,1,2"时为GPU预测,表示使用的GPU卡
devices: "" # "0,1"
#client类型,包括brpc, grpc和local_predictor.local_predictor不启动Serving服务,进程内预测
client_type: local_predictor
#Fetch结果列表,以client_config中fetch_var的alias_name为准
fetch_list: ["price"]
在 Serving工程的 python/examples/pipeline/simple_web_service下,
python web_service.py &
客户端访问
curl -X
POST -k http://localhost:18082/uci/prediction -d '{"key":
["x"], "value": ["0.0137, -0.1136,
0.2553, -0.0692, 0.0582, -0.0727, -0.1583, -0.0584,
0.6283, 0.4919, 0.1856, 0.0795, -0.0332"]}'
可以看到通过18082端口暴露了http服务。 预期结果
curl -X
POST -k http://localhost:18082/uci/prediction -d '{"key":
["x"], "value": ["0.0137, -0.1136,
0.2553, -0.0692, 0.0582, -0.0727, -0.1583, -0.0584,
0.6283, 0.4919, 0.1856, 0.0795, -0.0332"]}'
与此同时,RPC服务的端口在9998端口被暴露 客户端访问
python web_rpc_client.py
预期结果
{"err_no":0,"err_msg":"","key":["price"],"value":["18.901152"]}
其它应用实例
使用Paddle Serving部署图像检测服务
本示例将使用使用图像领域中经典的COCO数据集,为方便用户使用,该数据集已经封装在了paddle_serving_app模块当中。那么什么是paddle_serving_app模块呢?在常用的推理任务中,很多模型的输入数据是需要经过预处理的,例如文本需要切词、转换为词向量,图像需要归一化,即统一大小和分辨率等,使图片形成统一的规格。如果用户没有掌握一定的领域知识,很难完成相关的预处理工作,因此Paddle Serving为用户提供了内置预处理模块paddle_serving_app,paddle_serving_app包含了各类经典任务的预处理模块,并且通过对灵活性和易用性的折中设计使其在简便易用的同时,保持了较好的性能。该预处理模块可以广泛用于NLP、CV等场景中。
内置预处理模块可以通过使用如下命令安装:
1. 启动服务端
请执行如下命令启动服务端。
cd python/examples/faster_rcnn
wget
--no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/faster_rcnn_model.tar.gz
wget
--no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/infer_cfg.yml
tar xf
faster_rcnn_model.tar.gz
mv
faster_rcnn_model/pddet* .
GLOG_v=2 python -m
paddle_serving_server_gpu.serve --model pddet_serving_model --port 9494 --gpu_ids
0 &
2. 启动客户端
在终端中启动
python test_client.py $IMAGE_NAME
为大家准备了beach.jpg和skateboard.jpg。他们会生成结果文件,一张带后处理框图的图片和json格式的文件在output文件夹下。
import sys
import numpy as np
from paddle_serving_client import Client
from paddle_serving_app.reader import *
# 图像预处理
preprocess
= Sequential([
File2Image(), BGR2RGB(), Div(255.0),
Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225], False),
Resize(640, 640),
Transpose((2, 0, 1))
])
# 后处理初始化
postprocess
= RCNNPostprocess("label_list.txt", "output")
client =
Client()
# 客户端加载配置
client.load_client_config(
"pddet_client_conf/serving_client_conf.prototxt")
client.connect(['127.0.0.1:9393'])
im =
preprocess(sys.argv[1])
# 客户端在线预测
fetch_map
= client.predict(
feed={
"image": im,
"im_info": np.array(list(im.shape[1:]) + [1.0]),
"im_shape": np.array(list(im.shape[1:]) + [1.0])
},
fetch=["multiclass_nms"], batch=False) # im是三维的(C,H,W),因此batch=False(补足最高维 N,C,H,W)
fetch_map["image"] = sys.argv[1]
# 图像后处理
postprocess(fetch_map)
可以看到在预处理当中做了以下事情,支持PyTorch的Image处理方式。
可以看到客户端在读入模型配置之后,先后做了读取文件,调整大小的操作。
所有的序列操作作为预处理callable object preprocess
接下来调用客户端的预测函数 client.predict(feed, fetch)。这个函数的就是同刚才启动的Paddle Serving Server进行交互。
在feed字典中写入模型需要的输入,在fetch列表中填入需要的输出,具体的定义在pddet_client_conf/serving_client_conf.prototxt中给出
feed_var {
name: "image"
alias_name: "image"
is_lod_tensor: false
feed_type: 1
shape: 3
shape: 640
shape: 640
}
feed_var {
name: "im_shape"
alias_name: "im_shape"
is_lod_tensor: false
feed_type: 1
shape: 3
}
feed_var {
name: "im_info"
alias_name: "im_info"
is_lod_tensor: false
feed_type: 1
shape: 3
}
fetch_var {
name: "multiclass_nms_0.tmp_0"
alias_name: "multiclass_nms"
is_lod_tensor: true
fetch_type: 1
shape: 6
}
课余看到feed_var的输入名为 image、im_shape、im_info, fetch_var的输入名为multiclass_nms_0.tmp_0。
输出结果是一个size为N*6的矩阵,给出了每个框图左上角和右下角坐标点以及分类编号和对应这个编号的分数。后处理会结合给出的label_list.txt,在原图上绘制框图以及识别到的类别名。具体参见下图
3. 结果分析
python test_client.py beach.jpg
python test_client.py skateboard.jpg
可以看到图像检测算法在图片上标注了识别到的物体及其分类名和分数
使用Paddle Serving部署OCR Pipeline在线服务
上述例子的目的是带着大家体验Paddle Serving在CV模型上的易用性,服务端是单模型RPC服务。接下来介绍一个pipeline方式的CV模型OCR。
1. 启动服务端
请执行如下命令启动服务端。
python -m paddle_serving_app.package --get_model ocr_rec
tar -xzvf ocr_rec.tar.gz
python -m paddle_serving_app.package --get_model ocr_det
python web_service.py &>log.txt &
2. 启动客户端
在终端-1中使用如下命令启动客户端。这里直接把图片的读取放在python脚本里。
python pipeline_http_client.py
服务端是这样串联OCR的检测
class DetOp(Op):
def init_op(self): # 这是自定义的函数,可以把只执行一次(例如初始化)的操作放在这里
self.det_preprocess = Sequential([
ResizeByFactor(32, 960), Div(255),
Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]), Transpose(
(2, 0, 1))
]) # 这部分与FasterRCNN的例子相同,
self.filter_func = FilterBoxes(10, 10)
self.post_func = DBPostProcess({
"thresh": 0.3,
"box_thresh": 0.5,
"max_candidates": 1000,
"unclip_ratio": 1.5,
"min_size": 3
})
def preprocess(self, input_dicts, data_id, log_id):
(_, input_dict), = input_dicts.items()
data = base64.b64decode(input_dict["image"].encode('utf8')) #第一个Op读取字典的“image”,客户端也需要给出”image“,参见客户端代码
data = np.fromstring(data, np.uint8)
# Note: class variables(self.var) can only be
used in process op mode
self.im = cv2.imdecode(data,
cv2.IMREAD_COLOR)
self.ori_h, self.ori_w, _ =
self.im.shape
det_img = self.det_preprocess(self.im)
_, self.new_h, self.new_w =
det_img.shape
return {"image": det_img[np.newaxis, :].copy()}, False, None, "" #分别为 feed字典,是否为batch的数据,后面可忽略,具体参见pipeline设计文档
def postprocess(self, input_dicts, fetch_dict, log_id):
det_out = fetch_dict["concat_1.tmp_0"]
ratio_list = [
float(self.new_h) / self.ori_h, float(self.new_w)
/ self.ori_w
]
dt_boxes_list = self.post_func(det_out,
[ratio_list])
dt_boxes = self.filter_func(dt_boxes_list[0],
[self.ori_h, self.ori_w])
out_dict = {"dt_boxes": dt_boxes, "image": self.im} #组装response字典,内含 dt_boxes和image,会被下个Op前处理使用
print("out dict", out_dict)
return out_dict, None, ""
class RecOp(Op):
def init_op(self):
self.ocr_reader = OCRReader()
self.get_rotate_crop_image =
GetRotateCropImage()
self.sorted_boxes = SortedBoxes()
def preprocess(self, input_dicts, data_id, log_id):
(_, input_dict), = input_dicts.items()
im = input_dict["image"] # 取image,源自DetOp
dt_boxes = input_dict["dt_boxes"] #取dt_boxes,源自DetOp
dt_boxes = self.sorted_boxes(dt_boxes)
feed_list = []
img_list = []
max_wh_ratio = 0
for i, dtbox in enumerate(dt_boxes):
boximg =
self.get_rotate_crop_image(im, dt_boxes[i])
img_list.append(boximg)
h, w = boximg.shape[0:2]
wh_ratio = w * 1.0 / h
max_wh_ratio = max(max_wh_ratio,
wh_ratio)
_, w, h = self.ocr_reader.resize_norm_img(img_list[0],
max_wh_ratio).shape
imgs = np.zeros((len(img_list), 3, w,
h)).astype('float32')
for id, img in enumerate(img_list):
norm_img = self.ocr_reader.resize_norm_img(img,
max_wh_ratio)
imgs[id] = norm_img
feed = {"image": imgs.copy()}
return feed, False, None, ""
def postprocess(self, input_dicts, fetch_dict, log_id):
rec_res =
self.ocr_reader.postprocess(fetch_dict, with_score=True)
res_lst = []
for res in rec_res:
res_lst.append(res[0])
res = {"res": str(res_lst)}
return res, None, ""
class OcrService(WebService):
def get_pipeline_response(self, read_op):
det_op = DetOp(name="det", input_ops=[read_op])
rec_op = RecOp(name="rec", input_ops=[det_op])
return rec_op
uci_service
= OcrService(name="ocr")
uci_service.prepare_pipeline_config("config.yml")
uci_service.run_service()
然后在客户端中,
from paddle_serving_server_gpu.pipeline import PipelineClient
import numpy as np
import requests
import json
import cv2
import base64
import os
client =
PipelineClient()
client.connect(['127.0.0.1:18090'])
def cv2_to_base64(image):
return base64.b64encode(image).decode('utf8') #用base64读取图片
test_img_dir
= "imgs/"
for img_file in
os.listdir(test_img_dir):
with open(os.path.join(test_img_dir, img_file), 'rb') as file:
image_data = file.read()
image = cv2_to_base64(image_data)
for i in range(1):
ret = client.predict(feed_dict={"image": image}, fetch=["res"]) # 给出image,被DetOp使用
print(ret)
Pipeline 客户端和 RPC客户端的异同
通过这个样例,可以感受到Pipeline的以下优势
手机扫一扫
移动阅读更方便
你可能感兴趣的文章