这个话题开始得先从OCR说起,打字员大家都不陌生的行业,按照纸上的文字手工输入到电脑里面,而OCR就是为了解决这种难题,可以将纸上或图片上的文本、图像转换成为电脑可编辑的文本。当然他并不是百分百准确的,所以这也是需要人工审核,当然相比手工输入快上几十倍。

我们得说说另一个话题:反spam,即反垃圾。

反垃圾最常见的做法是输入验证码,比如:QQ空间添加一篇文章需要输入验证码、开心网把密码输入错误时也会需要输入验证网等等,这都是有效反垃圾做法。验证码做法也相对于简单按照提供图片上的字符原样输入就算是验证通过拉。好吧,聪明的你如果懂得上下文的关系,你会想我想干坏事,我是不是可以利用OCR这种将图片转换成文本,这样我就可以穷举尝试登录某个用户,直到准确匹配到该用户的密码。好吧,也许我介绍了一个笨拙办法来非法干坏事,但他确实有效。

其实简单的说就是你所产生的这张图片计算机很容易通过OCR来识别,当然前提是也要被人类识别,要不然你怎么能输入呢?

而杜绝被破解的最简单、最直接的办法就是:让计算机看不懂、人类看得懂,不就行拉。

CAPTCHA项目是Completely Automated Public Turing Test to Tell Computers and Humans Apart (全自动区分计算机和人类的图灵测试)的简称,CAPTCHA的目的是区分计算机和人类的一种程序算法,这种程序必须能生成并评价人类能很容易通过但计算机却通不过的测试。这个要求本身就是悖论,因为这意味着一个CAPTCHA必须能生成一个它自己不能通过的测试。

reCAPTCHA就是CAPTCHA技术的最新应用,借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。这样也我所说的那个:最简单、最直接的办法。

由于许多人气极高的网站,如Facebook、Twitter和StumbleUpon等,都采用了reCAPTCHA现在每天都可以处理大约一百万个单词。

recaptcha样子

以此记录阅读笔记。

参考资料: