Beta设计和计划 —— NameNotFound
阅读原文时间:2022年04月07日阅读:1

1. 用户群体

经过用户(大多数是同学)的反馈,我们发现大家其实并不是十分明确我们要做的到底是什么、具体要怎么用。而实际上我们的典型用户也并不是学生群体,因此出现这些偏差也是很正常的,毕竟学生群体没有这方面的需求。所以我们准备更偏向于学生群体,尝试将这一功能向学生开放,比如说:实现一个表格数据生成pdf的功能。

2. 新功能的需求

与zx老师开会讨论后,我们对于新功能进行了需求分析:

用户在使用表单软件时,可能并不想自己费力的标注,而是希望直接上传使用,从这一个角度,我们决定,在Beta阶段,释放用户,由软件来替用户做决定,猜测用户需要的数据字段,自动训练,方便用户直接使用。

3. alpha阶段的反馈中提到了服务器慢的问题。

  • 这个是因为我们采用的服务器是在美国的,针对这一问题,我们已经配置了CDN加速,现在提供了两个网站入口地址,方便用于选择适合自己的。
  • 目前整个软件前后端要实现数据同步,所以在标注的阶段,会反应很慢,这一点很影响用户体验,我们会尝试进行优化。

4. 有同学反馈我们只针对英文。

这个确实如此,因为Fott的ocr就是针对英文的,而我们的目的就是基于此ocr开发工具,而不是去开发ocr,而且我们的项目一定程度上基于微软原项目开发(虽然现在思路已经跑偏了,但是前端架构是没有很大的改变的)。因此一定程度上,这个软件就无法满足同学们的需求,我们会在这一阶段考虑是否使用其他的OCR识别来扩展语言,但这一点不是主要的需求。

整体上来说,在beta阶段,我们将:

  • 完善alpha阶段出现的一些问题,并将alpha阶段所得到的成果进一步应用在FOTT项目中去,实现生成即训练的目标
  • 增加项目描述和使用的介绍,让同学们能够了解我们在做什么
  • 此外,我们将扩展一部分功能,支持用户能够无需手动标注,轻松得出结果。
  • 对于软件处理结果,我们会将其一一提取出来,生成一个Excel文件,能够更清晰地观察到各个字段的数据分布,同时在data页面支持数据的分析可视化,表单识别的结果直观又清晰。
  • 完善项目管理:代码管理、文档管理、测试等

功能

详细描述

introduction页面

增加项目描述和使用方法

train页面

支持对生成好的页面进行一键训练
支持将训练得到的结果进行处理,生成Excel文件

data页面

支持数据可视化查看

tag页面

支持错误画出的框的删除

model页面

支持历史模型的显示

new project

支持用户选择项目类型(空白训练;五张训练;根据Excel信息批量生成表单等)

  • 代码规范:

    • 开发语言仍为TypeScript和python,因此延续alpha阶段的代码规范
    • 加强对于代码复审的管理,严格commit和issue之间的联系
    • 加强文档管理——GitHub wiki
  • 新的技术:

    • NLP处理实体识别,预测用户需要的数据字段

      • Azure 认知服务——文本分析,实体识别
    • Itext处理PDF文件,实现丰富的操作

    • 进程调度——redis,分布式锁

前端

  • 项目功能的切换:空白表单、已填好表单、表格转pdf——zyc主要负责
  • 完善前端并且修bug——zyc,lzh主要负责
  • OCR训练模块的添加——lzh主要负责

后端

  • pdf文件操作(文字删除,替换等)——dxy主要负责
  • alpha阶段数据生成模块的扩展——dxy主要负责
  • 后端服务器维护和完善(分布式锁,新需求)——ly主要负责

新功能开发

  • 实体识别的调研和实现——ly,llj主要负责
  • 对OCR模型预测输出结果进行表格整理可视化——wyk主要负责
  • 表格文件批量转pdf文件——wyk主要负责

细粒度划分:

任务

分工

截止时间

前端:重构strings

zyc

5.15

前端:优化tag页面上传时提示

zyc

5.15

前端:new project页面

zyc

5.14

前端:完善tag页面

zyc

5.14

前端:与new project的配合

zyc

5.17

前端:新增model页面

lzh

5.19

前端:新增data页面

lzh

5.19

前成员:熟悉项目

lzh

5.15

前端:new project时短暂报错

zyc

5.16

后端:PDF文字擦除

dxy

5.15

后端:响应前端

ly

5.27

后端:Excel可视化处理

wyk

5.22

后端:Json数据整合

ly,llj

5.22

后端:实体识别

llj,dxy

5.20

后端:Json文件分析

dxy,ly

5.20

后端:学习nlp,azure认知服务

ly,dxy,llj

5.20

新功能:实体识别调研

ly,llj,dxy

5.17

前端需要增量开发的任务不是很多,后续会有前端人员参与后端的新技术开发!

GitHub

首先欢迎新成员lzh的加入!

经过了解,lzh有OCR项目的相关经验,也使用过TypeScript语言,所以他的加入正好补上了我们原有成员tzj(前端成员)工作的空缺。

培训

我们在昨日的每周例会上大概讲述了Alpha阶段的工作和技术流,为lzh介绍了先前工作,又得益于之前的文档和视频(疯狂捞自己),他现在处于熟悉项目阶段,相信很快就能够融入到团队中来!

团队成员之间也会及时沟通,解决问题。

新的分工

  • PM进行更换。Ly担任NameNotFound的新PM,Wyk变为开发组,实现新需求和新功能!

  • 经过反思,我们发现,alpha阶段有部分的工作是无法体现在项目需求中的,因此,我们进行了取舍,将相关同学转移到后端组,进行新功能的开发。

  • Beta阶段的新功能遇到一定的技术难题,暂时由后端成员调研和解决,后续可能会有前端成员转到这一问题上!

对已有工作文档的维护:

我们发现之前的文档管理对于查看查询很不方便,在新成员的建议下准备将已有的文档都迁移到GitHub项目的wiki部分

  • 技术文档说明文档都迁移到GitHub的wiki (正在做)

  • 技术博客同步发布在wiki

代码管理

之前的代码管理还是有不到位的地方,经过alpha阶段的评审,我们决定严格这一部分,

  • 前后端分别创建dev分支进行日常开发和测试,以及代码复审
  • 每周选择固定时间来进行整体代码复审和merge
  • 将bug和commit关联起来;至少也要在issue页面说明修改的部分

测试和Bug修复

原项目的遗留Bug很多,所以我们还需要进行更多测试来完善前端页面。

基于alpha阶段的测试,优化前端的体验!

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器

你可能感兴趣的文章