Урок№25. Интелектуальные возможности современных систем обработки текстов.
Ввод текстовой информации в компьютер, выполняемый с клавиатуры, — дело трудоёмкое и утомительное. На помощь человеку приходят современные системы обработки текстов, обладающие интеллектуальными возможностями. Рассмотрим некоторые из них.
Человеческая речь, как и рукописный текст, зависит от индивидуальных характеристик каждого человека. Распознавание речи — это технология перевода устной речи в печатный текст. В настоящее время доступно множество приложений для распознавания речи, основанных на технологии искусственного интеллекта. Наиболее совершенные из них способны самообучаться в процессе каждого нового взаимодействия с пользователем.
Голосовой ввод текста — ввод текста с помощью голоса. Эта функция реализована в современных версиях текстового процессора Microsoft Word, в виде мобильных приложений и онлайн- ресурсов.
Голосовой ввод может быть полезен в самых разных ситуациях, так как люди говорят значительно быстрее, чем набирают текст. Например, с помощью голосового ввода врач может быстро заполнить историю болезни пациента. Вы можете «наговорить» черновик сочинения или сообщения, которое задали на дом, не боясь, что упустите из виду какие-то важные мысли (разумеется, получившийся текст придётся перечитать и отредактировать). Люди, не имеющие возможности набирать текст на клавиатуре в силу своих физических ограничений, могут создавать текстовые документы с помощью голосового ввода.
Чтобы качество текста, полученного в результате голосового ввода, было высоким, придерживайтесь следующих рекомендаций:
- убедитесь, что микрофон исправно работает, а вы находитесь достаточно близко к микрофону и звук им хорошо улавливается;
- позаботьтесь, чтобы вокруг вас не было музыки, других посторонних звуков и шумов;
- произносите слова чётко и неторопливо.
SpeechTexter (http://gotourl.ru/12725) — бесплатный онлайн- сервис для распознавания речи, работающий в Google Chrome. Поддерживает более 60 языков, в том числе русский язык. Запустите эту программу и попробуйте осуществить голосовой ввод текста. Оцените качество полученного текста и сохраните его в файле voice.txt.
Очень часто возникает необходимость ввести в компьютер несколько страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры или голосового ввода. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.
Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую информацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьютера текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.
Вычислим общее количество символов в романе:
590 • 48 • 53 = 1 500 960 символов.
Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1500 960 : 150 * 10 000 мин. А это приблизительно 167 часов.
При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.
Средний темп речи для русского языка составляет около 120 слов в минуту. При использовании голосового ввода желательно произносить не более 75 слов в минуту. Считая, что средняя длина слова составляет около 6 букв, выясните, сколько времени потребуется на голосовой ввод вышеупомянутого романа А. Дюма «Три мушкетёра».
Любой «бумажный» документ можно отсканировать или сфотографировать. Полученный графический файл можно просматривать и хранить на компьютере. Но работать с таким файлом как с текстовым документом (копировать, редактировать и форматировать текстовую информацию) нельзя. Предварительно его надо обработать с помощью программы для распознавания символов, которая сможет выделить в изображении буквы, составить их в слова и объединить слова в предложения.
Оптическое распознавание символов (англ. Optical Character Recognition — OCR) — это технология, которая позволяет преобразовывать отсканированные тексты, фото с цифровой камеры в редактируемые текстовые документы.
Одной из наиболее известных программ оптического распознавания символов является ABBYY FineReader. Упрощённо работу с подобными программами можно представить так.
- Бумажный носитель помещается под крышку сканера.
- В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, таблицы, картинки и т. и. Строки разбиваются на слова, а слова — на отдельные буквы. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр, хранящимися в её памяти. Программа рассматривает различные варианты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдаёт пользователю распознанный текст.
- Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).
Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить ABBYY FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 3.22).

Возможности современных компьютеров по хранению больших массивов данных и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ- переводчиков.
В бумажном словаре, содержащем несколько сотен страниц, поиск нужного слова является длительным и трудоёмким процессом. Компьютерные словари обеспечивают мгновенный поиск словарных статей. Многие словари предоставляют пользователям возможность прослушивания слов в исполнении носителей языка, предлагают транскрипцию и примеры употребления слов.
Компьютерные словари (русско-английские и англо-русские, русско-французские, русско-немецкие и др.) могут быть установлены на компьютер как самостоятельные программы, бывают встроены в текстовые процессоры, существуют в онлайн-режиме в сети Интернет.
MED, или Macmillan English Dictionary (https://gotourl.ru/12726), считается одним из лучших словарей для изучающих английский язык. В нём можно найти слова или новые значения слов, которые появились в языке сравнительно недавно и не отражены в других источниках.
Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики. Они основаны на формальном знании языка — правил словообразования и правил построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на том языке, на который его требуется перевести.
Сервис PROMT.One (www.translate.ru/) — бесплатный онлайн- переводчик на основе нейронных сетей, предназначенный для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. Это старейший российский сервис машинного перевода, созданный более 20 лет тому назад.
С помощью программ-переводчиков можно успешно переводить техническую документацию, деловую переписку и другие текстовые материалы, написанные «сухим» языком. Перевод художественных текстов, эмоционально окрашенных, богатых гиперболами, метафорами и др., в полной мере может выполнить только человек.