Информатика • 11 класс
3

Анализ текста на естественном языке. Регулярные выражения (C++)

  • Регулярные выражения — это формальный язык для описания шаблонов поиска и обработки текста. В анализе естественного языка они служат мощным инструментом для выявления определенных структур, паттернов и сущностей в тексте.
  • Анализ текста:
    • с помощью регулярных выражений: имён собственных (людей, городов, сёл), числовых фактов, данных (дни рождений, телефонов, адресов);
    • частотный анализ.
  • Подключение библиотеки регулярных выражений: #include <regex>.
  • Алгоритмы:
    • regex_match (проверка совпадения регулярного выражения по всей строке);
    • regex_search (поиск соответствия регулярному выражению);
    • regex_replace (замена соответствующих регулярных выражений).
      Пример. Выведите все числа, которые встречаются в строке  «’32abc67j323k534m9;».
      regex re (R"(\d+)"); // Условие встречи цифр
      smatch parts; // Совпадение на строковых объектах
      while (regex_search (str, parts, re)) {
        cout << "Найдены числа: " << parts.str () << "\n";
        str = parts.suffix (); } // Отсечение от строки уже обработанных символов

.

[abcd]

[az]

[^az]

\d 

\w

\s

Любой символ

Один из символов списка

Один из символов диапазона

Один из символов вне диапазона

Цифра

Слово

Пробел

Было полезно?

Рекомендуем

Вы учитель или ученик?
Познакомьтесь с нашим образовательным онлайн-сервисом с тысячами интерактивных работ
Учителю
Удобно проводить уроки в классе, назначать работы на дом и анализировать результаты всего класса или конкретных учеников
Ученику
Самостоятельно изучать новые и повторять пройденные темы, готовиться по индивидуальной траектории и оценивать результаты на наглядных графиках
Зарегистрироваться в «Облаке знаний»
Логотип облако знаний
+7 (499) 322-07-57
info@oblakoz.ru

Контактный центр

МО, г. Долгопрудный,
Лихачевский проезд, 4, стр. 1

Отдел заботы о пользователях

Политика конфиденциальности

© ООО «Физикон Лаб», 2025

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪