คิดว่าหลายคนที่ใช้อินเทอร์เนตเป็นประจำ จะต้องมีต้องเจอหลายเว็บไซต์ ที่จะต้องให้เราพิมพ์ตัวอักษรหรือตัวเลข ซึ่งทำเป็นรูปภาพที่บิดเับี้ยว ภาพตัวอักษรเหล่านั้นคือ captcha เป็นการทดสอบเพื่อตรวจดูว่าผู้ใช้เป็นมนุษย์หรือโปรแกรม captcha ย่อมาจาก completely automated public turing test to tell computers and humans apart ซึ่งกำเนิดขึ้นมาในปี 2000 โดย luis von ahn, manuel blum, nicholas j. hopper และ john langford

captcha ถูกนำมาใช้ครั้งแรกโดย yahoo และต่อมาก็กลายเป็นหนึ่งในมาตรการที่ใช้ป้องกัน spam ที่ไม่ใช่มนุึษย์ เนื่องจากโปรแกรมคอมพิวเตอร์สแปมส่วนใหญ่ จะไม่สามารถอ่านภาพตัวอักษร หรือตัวเลขที่บิดเบี้ยว จึงไม่สามารถ ส่งคำตอบที่ถูกต้องออกมาได้ ซึ่งปัจจุบันก็เป็นที่ใช้กันอย่างแพร่หลาย โดยในหนึ่งวันมีการใช้ captcha มากกว่า 60 ล้านครั้ง

ตัว wordpress เองก็มี captcha plug-in ให้ใช้ แต่ผมก็ไม่ได้สนใจเท่าไหร่ เพราะไม่เห็นว่ามีประโยชน์อะไรสักเท่าไหร่ แม้ว่าจะมี spam เข้ามาวันนึงเป็นร้อย แต่ก็ยังอยู่ในระดับที่จัดการได้ด้วย akismet การใช้ captcha จึงเป็นสิ่งที่ดูเหมือน จะสร้างความรำคาญให้กับคนที่จะเขียนคอมเมนต์ ซะมากกว่า

จนได้มาเห็นโครงการที่ชื่อ recaptcha ของ school of computer science แห่ง carnegie mellon university ซึ่งมี luis von ahn เป็น executive producer ตามด้วยผู้ร่วมงานอย่าง ben maurer, mike crawford, ryan staake, และ manuel blum

โครงการนี้มีจุดมุ่งหมายคือ ใช้พลังงานคนเพื่อตรวจอักษร ของหนังสือที่ผ่านการ scan จาก internet archive อย่างที่เราทราบกันดีอยู่ว่า เครื่อง scanner ในปัจจุบันจะมีโปรแกรม ocr (optical character recognition) ให้มาด้วย โปรแกรมนี้สามารถแปลง รูปแบบภาพของตัวอักษร ให้กลายเป็นข้อมูลดิจิตอลตัวอักษร อย่าง ascii หรือ unicode ซึ่งก็ช่วยให้เราสะดวกสบายขึ้น ไม่ต้องมานั่งพิมพ์เอง และยังช่วยประหยัดพื้นที่ในการจัดเก็บข้อมูล ได้อย่างมหาศาล เพราะข้อมูลดิจิตอล ที่เป็นรหัสตัวอักษรใช้พื้นที่น้อยมาก เมื่อเที่ยบกับข้อมูลดิจิตอลที่เป็นรูปภาพ และเมื่อจัดเก็บ ลงไปในฐานข้อมูล ผู้ใช้ก็จะสามารถค้นหาข้อมูลต่างๆ ได้อย่างรวดเร็ว โดยใช้ search algorithm ต่างๆ แต่โปรแกรมพวกนี้ ก็ไม่ได้มีความสามารถ ในการแปลงอักษร ได้ระดับร้อยเปอร์เซนต์ มันยังคงต้องอาศัยความสามารถของมนุษย์ เพื่อช่วยให้การแปลงอักษร ทำได้อย่างแม่นยำยิ่งขึ้น

recaptcha จึงใช้โอกาสนี้ส่งคำศัพท์ ที่ไม่สามารถอ่านได้ด้วยโปรแกรม ocr ซึ่งโดยปกติโปรแกรมพวกนี้ จะสามารถตรวจสอบคำศัพท์จากฐานข้อมูลได้เอง ว่าไม่มีศัพท์คำนี้อยู่ แต่โปรแกรม ocr ก็ไม่สามารถค้นหา คำที่น่าจะเป็นมาแทน ได้โดยอัตโนมัติ recaptcha ก็จะทำการส่งรูปภาพของคำศัพท์นั้นมาในรูปแบบของ captcha เพื่อให้มนุษย์ช่วยใส่คำศัพท์ที่ถูกต้องลงไป

recaptcha จะต่างจาก captcha ตรงที่เราจะต้องพิมพ์คำศัพท์สองคำ อันเนื่องมาจากคำศัพท์คำหนึ่งในนั้น เป็นคำศัพท์ที่ผ่านการตรวจสอบแล้ว ถ้าหากว่าเราสามารถพิมพ์คำศัพท์คำนั้น ได้อย่างถูกต้อง มันก็จะมีึความเป็นไปได้สูง ที่คำศัพท์อีกคำที่เราพิมพ์ลงไป จะเป็นคำศัพท์ที่ถูกต้องด้วย โดยคำศัพท์คำใหม่ก็จะนำไปเก็บไว้ในฐานข้อมูล เพื่อตรวจดูว่า มีคนจำนวนแค่ไหนที่ตอบเป็นศัพท์คำเดียวกัน ซึ่งถ้ามีมากก็หมายถึง ความถูกต้องของศัพท์คำนั้น ก็จะสูงขึ้นไปด้วย

ในกรณีที่คำศัพท์มีลักษณะบิดเบี้ยวหรือเลอะัเทอะมาก ก็เป็นไปได้ที่เราจะไม่สามารถอ่านมันออก ซึ่งก็คงต้องอาศัยการเดา หรือเลือก options ที่อยู่ด้านขวาของช่อง อันบนสุดจะเป็นการเรียกคำศัพท์ชุดใหม่ขึ้นมา ส่วนอันที่สองจะเป็นการเรียกใช้ audio challenge โดยจะมีเสียงพูดออกมาเป็นตัวเลข จำนวน 8 ตัว ให้เรากรอกลงไปแทน แต่เสียงที่เปล่งออกมานั้น ก็จะมีทั้งเสียงรบกวนและ ยังใช้้การบีบอัดของเสียงอีก

recaptcha นับว่าเป็นโครงการที่น่าสนใจมาก การที่เราพิมพ์คำศัพท์ลงไป นอกจากจะช่วยลด spam แล้ว ยังช่วยในการแปลงอักษรของหนังสือที่ผ่านการ scan ใน internet archive อีกด้วย

ในอนาคต ถ้ามีการนำไปใช้ในเว็บไซต์หรือฟอรั่มใหญ่ ที่มีคนเข้าใช้เป็นหมื่นเป็นแสนคนต่อวัน น่าจะทำให้การแปลงภาพคำศัพท์จากหนังสืือ เป็นไปได้อย่างรวดเร็วและถูกต้องยิ่งขึ้นไปอีก

2007.06.01