江溪中文 > 重生之AI教父 > 第189章 191. 驗證碼在剝削什么

      第189章 191. 驗證碼在剝削什么

          “現(xiàn)在谷歌的驗證碼是怎么做的?”

          孟繁岐有點好奇,他此前一直對這方面的事情有所懷疑,不過卻沒有仔細(xì)研究過,尤其是比較早期的時候。

          “現(xiàn)在的所謂驗證碼系統(tǒng),說得專業(yè)一點,叫【區(qū)分人機(jī)的全自動圖靈測試系統(tǒng)】(CAPTCHA),前些年是一家叫做reCAPTCHA的公司做的,不過這家公司已經(jīng)被谷歌收購了。”

          阿里克斯在這方面關(guān)注過一段時間:“現(xiàn)在世界上用得最多的驗證碼系統(tǒng),就是這家公司的產(chǎn)品。”

          “當(dāng)時是卡耐基梅隆大學(xué)的一個教授想到的,可以說這個系統(tǒng)從推出之初,就是打著白嫖勞動力的主意。”

          計算機(jī)在1980到1990年左右開始逐漸進(jìn)入個人家庭,在二十一世紀(jì)初,人類開始初步進(jìn)入數(shù)字化生活,并且越來越依賴這種數(shù)字化。

          這種數(shù)字化突如其來,帶來了一個很大的難題:那就是這幾千年來,所有的知識和典籍,基本上都是通過紙質(zhì)書籍來記載的。

          這些東西很多都是人類的瑰寶,在新的計算機(jī)時代,怎么把這些流傳下來的知識數(shù)字化,是一個很大的難題。

          最簡單的辦法,就是手打錄入,但這個就比較要命了。

          手工錄入需要的人數(shù)可不是三四位數(shù)那么簡單,沒有幾萬上十萬人,這項工程是不大可能做出點名頭的。

          市值萬億的蘋果公司,人數(shù)才十來萬,想搞十萬人來錄入,代價顯然太大了一些。

          人力的問題說白了還是錢的問題,這個工程雖然意義重大,什么都好,但就是沒有什么油水,它不賺錢。

          退一步說,即便你有錢也有人,人類做這種長時間的機(jī)械勞動,就是很容易輸錯。

          別的不說,網(wǎng)文作者一天幾千字,就到處都是錯別字,這還是自己想出來的內(nèi)容。

          若是讓他們錄入別人的文本,還很可能是看不明白的內(nèi)容,那還得了?輸錯字輸串行都是再正常不過的事情了。

          另一種策略,那就是先掃描,然后結(jié)合文字識別技術(shù),自動錄入。

          聽起來非常不錯,但大家都知道,直到2023年,這種圖像直接識別文字的功能,都仍舊有很多的缺陷和不便之處。

          就別提二十一世紀(jì)初了,而且很多早期的文字典籍,人看都費勁,掃描出來一團(tuán)漿糊,識別出來更是一團(tuán)亂碼。