(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Бороться со спамом можно с пользой... для архивов

Источник: lenta

Ученые приспособили программу CAPTCHA, которая различает компьютеров и людей в Сети, для перевода бумажных текстов, созданных в "докомпьютерную" эпоху, в цифровой формат. Созданная американскими специалистами программа reCAPTCHA при помощи пользователей интернета позволяет расшифровывать тексты с более чем 99 процентной точностью. Как сообщают создатели reCAPTCA в своей статье, опубликованной в журнале Science , к настоящему моменту программа перевела из "аналога" в "цифру" 440 миллионов слов.

Разработанная в Университете Карнеги-Меллона в Питтсбурге программа CAPTHA (от англ. Completely Automated Public Turing test to tell Computers and Humans Apart - полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) позволяет определить, кем является пользователь системы: машиной или человеком. Перед выполнением какого-либо действия (например, отправки e-mail-сообщения или регистрации на форуме) CAPTCHA просит пользователя распознать какое-либо слово или набор букв и/или цифр и ввести его с клавиатуры. Для человека подобная операция не составляет труда, однако оптические считывающие устройства, применяемые, например, программами по рассылке спама, часто не справляются с этой задачей.

Интернет-пользователи используют программу CAPTCHA около 200 миллионов раз в день. Исходя из расчета, что на распознавание и ввод одного слова (или набора букв и цифр) у человека, в среднем, уходит 10 секунд, специалисты из Университета Карнеги-Меллона подсчитали, что ежедневно человечество "теряет" около 500 тысяч часов печатного времени. Ученые решили употребить его для оцифровки книжных и газетных архивов.

Первым шагом для перевода бумажных текстов в цифровой формат является их "прочтение" с помощью оптических считывающих устройств. Из-за дефектов, возникших при хранении (например, пожелтения бумаги или расплывания шрифта) сканеры не могут распознать, в среднем, одно слово из пяти. Сомнительные слова расшифровываются вручную. reCAPTCHA перекладывает эту задачу на пользователей Сети. Программа отбирает неопознанные слова и предлагает их интернетчикам вместо обычного набора CAPTCHA. Если три пользователя опознают сомнительное слово одинаково, reCAPTCHA добавляет этот вариант в финальный текст.

Работа программы была протестирована на архивах газеты The New York Times. reCAPTCHA успешно перевела в "цифру" ее подшивку за 1908 год. Сейчас она "взялась" за следующие выпуски. Кроме того, интернет-пользователи с помощью reCAPTCHA оцифровывают книги из архива Internet Archive.



 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 20.08.2008 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
FastReport.Mono Single License
SmartBear Collaborator - Named User License (Includes 1 Year Maintenance)
Pinnacle Studio 22 Ultimate
IBM RATIONAL Clearcase Floating User From Rational Clearcase Lt Floating User Trade Up License + Sw Subscription & Support 12 Months
Rational ClearCase Multisite Floating User License
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Безопасность компьютерных сетей и защита информации
Информационные технологии: CASE, RAD, ERP, OLAP
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
Мир OLAP и Business Intelligence: новости, статьи, обзоры
Один день системного администратора
Каждый день новые драйверы для вашего компьютера!
Все о PHP и даже больше
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100