又是很长一段时间没有更新,说一下最近的工作进展,以及长期招实习生和全职员工。

文字检测

今年检测取得了非常好的效果,4月底在ICDAR15上刷到了第一,领先第二不到2个点,没多久被超过去了,三星、百度、腾讯都领先了一点点,看着不是很爽,在腾讯提交当天又刷了一个分,超过腾讯1个点,且看他们怎么办。放一个4月份时候的效果

文字识别

最近生成文字方面取得比较好的进展,利用传统方法和深度学习方法都得到了较好的结果,现在已经成功用于生成生辟字图片,在真实测试集上表现良好,将进一步扩大字符集以及扩大应用范围。

其他

在其他方面我们也有一定的进展,由于还未发表,暂时无法公开,希望做出一个奠基性的工作。

招聘

招聘需求一直有,欢迎引荐。招两方面的人,深度学习玩得6的,和C++代码写得飞起的,实习全职不限。

又有几个月没有更新,最近都比较忙,从纯粹的研发转到面向产品的研发,独立带队做项目,压力比较大,最重要的问题就是缺人,所以发这个帖子,希望看到的同僚可以推荐实习生来敝人这里帮忙。

做什么

我们组做文字识别,包括各类证件识别、车牌识别、场景文字识别等。
两类型工作都可以选择,一种是面向产品的研发,基于已有基础算法进行训练和上层逻辑开发,一类是底层算法研究,主要是文字检测和文字识别,成绩好可以参加ICDAR比赛和发paper,非常鼓励。

能得到什么

公司有良好的科研环境,提供充足的计算资源和训练平台,周围都是学术界和工业界的大牛,我不一一介绍,我司在最近刚结束的CVPR投了十几篇paper,可见一斑。可以从我组直接接触到最前沿的文字检测、识别算法,无需从底层自己实现。
其他福利性的包括一日三餐、不定期团建、水果时间、生日party等,高于同类公司的薪资。

有什么要求

首先是积极性,一定要对自己的工作有热情。
其次是学习能力,有强烈的学习意愿和动手能力,通过查阅资料找到所需。
最后是代码能力和深度学习基础,不需要很强的算法,但需要有一门熟练的编程语言,最好是C++。

有文字检测识别、通用物体检测经验的加分。

最后,说一句,我司叫商汤科技,base在北京海淀区清华科技园。有意者请发邮件联系,感谢!

偶然发现U盘量产可以对U盘分区,就像做一个移动的操作系统。给U盘划一个虚拟光驱放ubuntu的安装盘,剩下的地方放一个windows,可以用wintoUSB来装。先借立威的U盘试了一下,结果32G的新U盘瞬间就被我玩坏了。

他的U盘是Kinston的,主控芯片是群联PS2251-07,闪存是东芝的TLC,首先下载了群联官方的MPALL,出现ID lssue 0002,网上说是IDBLK_TIMING.dll版本问题,下载了最新版果然可以了,但是会报错0x1042,这个问题后来换了很多版本也没解决。后来尝试用UPTOOL工具,据说是给黑片用的,也就是山寨U盘,这个倒是有个进度条可以懂了,但是会到最后报错,前前后后出了各种错误,先是0078,然后是0082,然后是0099,最后一直是6091。最后这个错误在网上找不到,我也是无语了。

后来我自己的U盘到了,64G,主控芯片是银灿IS903,闪存是镁光的MLC,用最新的MPTOOL一次性就搞定了,就是量产后写入速度从100兆掉到了58兆,略郁闷。先凑合用吧,至少有一个移动windows救急了。

最近看到了一个自称是中文魔灯官方网站,做了汉化版magic lantern,本来ML是开源的,仅仅是汉化后就要收费128,而且版本也不更新,挺气愤的,就想自己汉化一下,然而失败了。。真的很难。

首先遇到的困难是编译ML,需要用arm的交叉编译,按官方的contrib/toolchain/里的脚本来是不好使的,要安装gcc4.6.2,就困难重重,后来偶然看到这个帖子,简单下载现成的编译器就可以,果然,很快搞定。

之后遇到的问题是没法显示汉字,发现是字体的问题,没有汉字字体,我下载了tecdee网站提供的包,提取出rbf中文字体(rbf字体是嵌入式设备专用的字体),然而一载入字体机器就挂了。经过论坛上询问,版主建议用QEMU调试。QEMU倒也好配置,就是中间少了一步make clean,一直没出来图像。有了QEMU以后调试方便了很多,后来发现汉化是一件很难的事,有以下几个问题:

  • 中文字体太大,占用内存
  • rbf字体不支持中文的codepage
  • 代码里用的都是char来描述字符,只能表示256个字符,中文需要改成wchar

具体可见帖子,最终放弃。

7月离开学校,住进了租的房子,闲来无事恰好看到一个网站叫酷家乐,可以在线制作房子的户型图和装修设计,仔细量了一下屋子的尺寸,简单画了一下家里物品的摆设,做出来效果还可以。

户型图
装修图

在家慢慢学着做饭,比想像容易一些,做出来居然还挺好吃的。

毕业

首先要欢呼下,沉寂几个月以后,我毕业啦!献上答辩讲义供大家拍砖

你肿么可以没有pdf阅读器呢,只好点 这里了呢。

到毕业的时候才发现自己做的工作实在太糟糕了。。

语音识别

最近一个月开始用torch做语音识别,基本上是复现之前用Caffe在文字识别上的工作,现在做得差不多了,接下来做一些优化和测试,开始在较大数据集上试试。

文字识别

这个告一段落,之前刷ICDAR13刷到第2,结果不理想,不爽,就没挂出去。

又有一个月没有更新博客了,首先要说的是上次的重要进展被跳票了,其实还是有一些结果的,只是不如预期,以及重点还是要放在中文文字识别上,英文的东西后来没仔细管。

最近很忙,实验室有两个项目,一个是数据堂的采集,在实时生成视频时遇到了性能瓶颈,还在想办法解决。另一个是要做多gopro的控制,用python写了一个脚本,有GUI,可以读入json生成不同的UI,感觉还不错。

multi gro

Read More

参加组会做的报告是关于ToF的,早就不做这个了。这篇是ICCV15上微软的工作,离实际比较远,概念意义更多一些,论文工作对实验环境做了太多约束。
你肿么可以没有pdf阅读器呢,只好点 这里了呢。

目前已经得到了初步结果,完爆state of art。这周会继续训练若干模型,期待让文字识别的正确率和人脸识别比肩。在此先挖个坑,希望这周工作顺利。