{ "cells": [ { "attachments": { "imagen.png": { "image/png": "" } }, "cell_type": "markdown", "metadata": {}, "source": [ "![imagen.png](attachment:imagen.png)\n", "

Introduccion a Regex

\n", "Basado en el tutorial de W3schools: link y en el sitio oficial de python RE: link\n", "

Una expresión regular (o RE, por sus siglas en inglés) especifica un conjunto de cadenas que coinciden con ella; las funciones de este módulo permiten comprobar si una determinada cadena coincide con una expresión regular dada (o si una expresión regular dada coincide con una determinada cadena, que se reduce a lo mismo).

" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

1. Presentacion

\n", "Python tiene un paquete integrado llamado re, que se puede usar para trabajar con expresiones regulares." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "# Importacion de librerias\n", "import re" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Manejo de expresiones regulares con RE\n", "SI! Verificado! La cadena empieza con 'No' y termina con 'Aires'\n" ] } ], "source": [ "# Verifica si una cadena empieza con \"No\" y termina con \"Aires\":\n", "# En re.search, cambie \"txt\" por \"txt2\" y observe los efectos:\n", "\n", "print(\"Manejo de expresiones regulares con RE\")\n", "txt = \"No llueve en Buenos Aires\"\n", "txt2=\"Pasamos 3 meses con temperaturas entre 28 y 38 grados\"\n", "x = re.search(\"^No.*Aires$\", txt)\n", "\n", "if x:\n", " print(\"SI! Verificado! La cadena empieza con 'No' y termina con 'Aires'\")\n", "else:\n", " print(\"NO: no se halló en la cadena lo buscado\")\n", "# El demo original se hizo en Marzo de 2023, en medio de las históricas olas de calor. De ahí, los comentarios presentados." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 2. Funciones Regex\n", "El módulo RE ofrece un conjunto de funciones que nos permite buscar una sub-cadena dentro una cadena:\n", "* findall: Devuelve una lista que contiene todas las coincidencias\n", "* search: Devuelve un objeto Match si hay una coincidencia en cualquier parte de la cadena\n", "* split: Devuelve una lista donde la cadena se ha dividido en cada coincidencia\n", "* sub: Reemplaza una o varias coincidencias con una cadena" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.1. Meta-caracteres\n", "Los Meta caracteres son caracteres con significado especial:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

1. [] Un conjunto de caracteres. Por ejemplo: \"[a-m]\"\t
\n", "2. \\ Señala una secuencia especial (se puede usar para escapar de caracteres especiales). Por ejemplo: \"\\d\"\t
\n", "3. . Cualquier caracter (excepto caracter de Nueva Linea). Por ejemplo:\t\"he..o\"\t
\n", "4. ^ Empieza con. Por ejemplo:\t\"^hello\"
\n", "5. $ Termina con. Por ejemplo:\t'\"planet$\"\t
\n", "6. * Ninguna o mas ocurrencias. 'Por ejemplo: \"he.*o\"
\t\n", "7. + Una o más ocurrencias. Por 'ejemplo: \"he.+o\"\t
\n", "8. ? Ninguna o una ocurrencia. Por ejemplo: \"he.?o\"\t
\n", "9. {} Exactamente el numero específico de ocurrencias. Por ejemplo: \"he.{2}o\"
\t\n", "10. | Cualquiera o. Por ejemplo: \"falls|stays\"\t
\n", "11. () Capturar y agrupar

" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.1. [] Un conjunto de caracteres" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['l', 'l', 'e', 'e', 'e', 'e', 'i', 'e']\n" ] } ], "source": [ "#Busca todas las letras minusculas entre \"a\" y \"m\":\n", "\n", "x = re.findall(\"[a-m]\", txt)\n", "print('Cadena: ',txt)\n", "print(x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.2. \\ Señala una secuencia especial (se puede usar para escapar de caracteres especiales)." ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['3', '2', '8', '3', '8']\n" ] } ], "source": [ "# Encuentra todos los caracteres de dígitos:\n", "\n", "x = re.findall(\"\\d\", txt2)\n", "print('Cadena: ',txt2)\n", "print(x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.3. . Cualquier caracter (excepto caracter de Nueva Linea)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['llueve']\n" ] } ], "source": [ "# Busca una secuencia que inicia con \"ll\", seguido por tres caracteres cualesquiera, y luego una \"e\":\n", "\n", "x = re.findall(\"ll...e\", txt)\n", "print('Cadena: ',txt)\n", "print(x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.4. ^ Empieza con" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['No']\n", "Si, el string empieza con 'No'\n" ] } ], "source": [ "# Verifica si el string empieza con 'No':\n", "\n", "x = re.findall(\"^No\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "if x:\n", " print(\"Si, el string empieza con 'No'\")\n", "else:\n", " print(\"No, el string no empieza con 'No'\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.5. $ Termina con" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "Si, el string termina con 'Aires'\n" ] } ], "source": [ "# Verifica si el string termina con 'aires':\n", "\n", "x = re.findall(\"Aires$\", txt)\n", "print('Cadena: ',txt)\n", "if x:\n", " print(\"Si, el string termina con 'Aires'\")\n", "else:\n", " print(\"No, el string termina con 'Aires'\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.6. * Ninguna o mas ocurrencias" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['con temperaturas entre 28 y 38 grados']\n" ] } ], "source": [ "# Busca una secuencia que empieza \"con\", seguida por 0 más caracteres (cualquiera), y una \"s\":\n", "\n", "x = re.findall(\"con.*s\", txt2)\n", "print('Cadena: ',txt2)\n", "print(x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.7. + Una o más ocurrencias" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['con temperaturas entre 28 y 38 grados']\n" ] } ], "source": [ "# Busca una secuencia que empieza \"con\", seguida por 1 o más caracteres (cualquiera), y una \"s\":\n", "\n", "x = re.findall(\"con.+s\", txt2)\n", "print('Cadena: ',txt2)\n", "print(x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.8. ? Ninguna o una ocurrencia" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "[]\n" ] } ], "source": [ "# Busca una secuencia que empiece con \"con\", seguido por 0 o 1 caracter (cualquiera), luego y una \"s\":\n", "\n", "x = re.findall(\"con.?s\", txt2)\n", "print('Cadena: ',txt2)\n", "print(x)\n", "# Esta vez no halla la secuencia, por lo que imprime una lista vacia." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.9. {} Exactamente el numero específico de ocurrencias" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "[]\n" ] } ], "source": [ "# Busca una secuencia que empiece con \"con\" seguida de exactamente 2 caracteres (cualquiera), y luego una \"s\":\n", "\n", "x = re.findall(\"con.{2}s\", txt2)\n", "print('Cadena: ',txt2)\n", "print(x)\n", "# Esta vez no halla la secuencia, por lo que imprime una lista vacia. \n", "# Por ejemplo, si cambiamos la \"s\" por una \"e\" habria resultado: print(re.findall(\"con.{2}e\", txt2))=['con te']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.10. | Cualquiera o" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['Aires']\n", "Si, hay al menos una coincidencia!\n" ] } ], "source": [ "# Verifica si el string contiene \"falls\" or \"Aires\":\n", "\n", "x = re.findall(\"falls|Aires\", txt)\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"Si, hay al menos una coincidencia!\")\n", "else:\n", " print(\"No hay coincidencia\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.1.11. () Capturar y agrupar" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.2. Secuencias especiales\n", "Una secuencia especial es una \\ seguida de uno o más caracteres específicos y tienen un significado específico.\n", "1. \\A: Devuelve una coincidencia si los caracteres especificados están al principio de la cadena. Por ejemplo: \"\\AThe\"\n", "2. \\b: Devuelve una coincidencia donde los caracteres especificados están al principio o al final de una palabra (la \"r\" al principio se asegura de que la cadena se trate como una \"cadena sin procesar\"). Por ejemplo:\tr\"\\bain\"\n", "r\"ain\\b\"\n", "3. \\B: Devuelve una coincidencia donde los caracteres especificados están presentes, pero NO al principio (o al final) de una palabra (la \"r\" al principio se asegura de que la cadena se trate como una \"cadena sin procesar\"). Por ejemplo: r\"\\Bain\" r\"ain\\B\"\n", "4. \\d: Devuelve una coincidencia donde la cadena contiene dígitos (números del 0 al 9). Por ejemplo: r\"\\d\"\n", "5. \\D: Devuelve una coincidencia donde la cadena NO contiene dígitos (números del 0 al 9). Por ejemplo: \"\\D\"\n", "6. \\s: Devuelve una coincidencia donde la cadena contiene un carácter de espacio en blanco. Por ejemplo: \"\\s\"\n", "7. \\S: Devuelve una coincidencia donde la cadena NO contiene ningun espacio en blanco. Por ejemplo: \"\\S\"\n", "8. \\w: Devuelve una coincidencia en la que la cadena contiene cualquier caracter alfnumerico (caracteres de la A a la Z, dígitos del 0 al 9 y el carácter de subrayado _). Por ejemplo: \"\\w\"\n", "9. \\W: Devuelve una coincidencia en la que la cadena NO contiene ningun caracter alfanumerico. Por ejemplo: \"\\W\"\n", "10. \\Z: Devuelve una coincidencia si los caracteres especificados están al final de la cadena. Por ejemplo: \"\\Zres\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.1. \\A: Devuelve una coincidencia si los caracteres especificados están al principio de la cadena." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['No']\n", "SI, la cadena empieza con 'No'\n" ] } ], "source": [ "# Verifica si la cadena inicia con \"No\":\n", "\n", "x = re.findall(\"\\ANo\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, la cadena empieza con 'No'\")\n", "else:\n", " print(\"No hay coincidencia\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.2. \\b: Devuelve una coincidencia donde los caracteres especificados están al principio o al final de una palabra (la \"r\" al principio se asegura de que la cadena se trate como una \"cadena sin procesar\")." ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['me']\n", "SI, hay al menos una coincidencia de una palabra que inicia con 'me'\n" ] } ], "source": [ "# Verifica si \"me\" está al inicio de una palabra:\n", "\n", "x = re.findall(r\"\\bme\", txt2)\n", "\n", "print('Cadena: ',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos una coincidencia de una palabra que inicia con 'me'\")\n", "else:\n", " print(\"NO. Ninguna palabra empieza con 'me'\")" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "[]\n", "NO. Ninguna palabra finaliza con 'me'\n" ] } ], "source": [ "# Verifica si \"me\" está al final de una palabra:\n", "\n", "x = re.findall(r\"me\\b\", txt2)\n", "\n", "print('Cadena: ',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos una coincidencia de una palabra que finaliza con 'me'\")\n", "else:\n", " print(\"NO. Ninguna palabra finaliza con 'me'\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.3. \\B: Devuelve una coincidencia donde los caracteres especificados están presentes, pero NO al principio (o al final) de una palabra (la \"r\" al principio se asegura de que la cadena se trate como una \"cadena sin procesar\")." ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "[]\n", "NO, hay coincidencia\n" ] } ], "source": [ "# Verifica si \"me\" esta presente, pero NO al inicio de ninguna palabra:\n", "\n", "x = re.findall(r\"\\Bme\", txt2)\n", "\n", "print('Cadena: ',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, 'me' esta presente pero no al inicio de ninguna palabra\")\n", "else:\n", " print(\"NO, hay coincidencia\")" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['me']\n", "SI, 'me' esta presente pero no al inicio de ninguna palabra\n" ] } ], "source": [ "# Verifica si \"me\" esta presente, pero NO al final de alguna palabra:\n", "\n", "x = re.findall(r\"me\\B\", txt2)\n", "\n", "print('Cadena: ',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, 'me' esta presente pero no al inicio de ninguna palabra\")\n", "else:\n", " print(\"NO, hay coincidencia\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.4. \\d: Devuelve una coincidencia donde la cadena contiene dígitos (números del 0 al 9)." ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['3', '2', '8', '3', '8']\n", "SI, hay al menos un digito!\n" ] } ], "source": [ "# Verifica si la cadena contiene algun digito decimal (numeros de 0-9):\n", "\n", "x = re.findall(\"\\d\", txt2)\n", "\n", "print('Cadena: ',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un digito!\")\n", "else:\n", " print(\"NO, no hay ningun digito decimal\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.5. \\D: Devuelve una coincidencia donde la cadena NO contiene dígitos (números del 0 al 9)." ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['N', 'o', ' ', 'l', 'l', 'u', 'e', 'v', 'e', ' ', 'e', 'n', ' ', 'B', 'u', 'e', 'n', 'o', 's', ' ', 'A', 'i', 'r', 'e', 's']\n", "SI, hay al menos un caracter no decimal!\n" ] } ], "source": [ "# Verifica si la cadena contiene algun digito NO decimal (NO numeros de 0-9):\n", "\n", "x = re.findall(\"\\D\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un caracter no decimal!\")\n", "else:\n", " print(\"NO, no hay ningun caracter no decimal\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.6. \\s: Devuelve una coincidencia donde la cadena contiene un carácter de espacio en blanco." ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "[' ', ' ', ' ', ' ']\n", "SI, hay al menos un espacio en blanco!\n" ] } ], "source": [ "# Devuelve una coincidencia por cada espacio en blanco\n", "\n", "x = re.findall(\"\\s\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un espacio en blanco!\")\n", "else:\n", " print(\"NO, no hay ningun espacio en blanco\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.7. \\S: Devuelve una coincidencia donde la cadena NO contiene ningun espacio en blanco." ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['N', 'o', 'l', 'l', 'u', 'e', 'v', 'e', 'e', 'n', 'B', 'u', 'e', 'n', 'o', 's', 'A', 'i', 'r', 'e', 's']\n", "SI, hay al menos un caracter distinto al espacio en blanco\n" ] } ], "source": [ "# Devuelve una coincidencia por cada caracter NO espacio en blanco\n", "\n", "x = re.findall(\"\\S\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un caracter distinto al espacio en blanco\")\n", "else:\n", " print(\"No, solo hay espacios en blanco\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.8. \\w: Devuelve una coincidencia en la que la cadena contiene cualquier caracter alfnumerico (caracteres de la A a la Z, dígitos del 0 al 9 y el carácter de subrayado _)." ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['N', 'o', 'l', 'l', 'u', 'e', 'v', 'e', 'e', 'n', 'B', 'u', 'e', 'n', 'o', 's', 'A', 'i', 'r', 'e', 's']\n", "SI, hay al menos un caracter alfanumerico\n" ] } ], "source": [ "# Devuelve una coincidencia por cada caracter alfanumérico que tenga la cadena (caracteres de a a la Z, digitos de 0-9, caracter _ ):\n", "\n", "x = re.findall(\"\\w\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un caracter alfanumerico\")\n", "else:\n", " print(\"NO, no hay ningun caracter alfanumerico\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.9. \\W: Devuelve una coincidencia en la que la cadena NO contiene ningun caracter alfnumerico." ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "[' ', ' ', ' ', ' ']\n", "SI, hay al menos un caracter NO alfanumerico\n" ] } ], "source": [ "# Devuelve una coincidencia por cada caracter NO alfanumerico.\n", "\n", "x = re.findall(\"\\W\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un caracter NO alfanumerico\")\n", "else:\n", " print(\"NO, todos los caracteres son alfanumericos\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.2.10. \\Z: Devuelve una coincidencia si los caracteres especificados están al final de la cadena." ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['res']\n", "SI, la cadena termina con 'res'\n" ] } ], "source": [ "# Verifica si la cadena termina con \"res\"\n", "\n", "x = re.findall(\"res\\Z\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, la cadena termina con 'res'\")\n", "else:\n", " print(\"NO, la cadena no termina con 'res\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.3. Conjuntos\n", "Un conjunto es un conjunto de caracteres dentro de un par de corchetes [] con un significado especial:\n", "

1. [arn] Devuelve una coincidencia en la que está presente uno de los caracteres especificados (a, r o n)\t
\n", "2. [a-n] Devuelve una coincidencia para cualquier carácter en minúscula, alfabéticamente entre a y n\t
\n", "3. [^arn] Devuelve una coincidencia para cualquier carácter EXCEPTO a, r y n\t
\n", "4. [0123] Devuelve una coincidencia en la que cualquiera de los dígitos especificados (0, 1, 2 o 3) está presente
\t\n", "5. [0-9] Devuelve una coincidencia para cualquier dígito entre 0 y 9\t
\n", "6. [0-5][0-9] Devuelve una coincidencia para cualquier número de dos dígitos entre 00 y 59
\t\n", "7. [a-zA-Z] Devuelve una coincidencia para cualquier carácter alfabéticamente entre a y z, minúsculas O mayúsculas
\t\n", "8. [+] En conjuntos, +, *, ., |, (), $,{} no tiene un significado especial, por lo que [+] significa: devolver una coincidencia para cualquier carácter + en la cadena

" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.1. [arn] Devuelve una coincidencia en la que está presente uno de los caracteres especificados (a, r o n)" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena: No llueve en Buenos Aires\n", "['n', 'n', 'r']\n", "SI, la cadena presenta alguno de los caracteres del conjunto\n" ] } ], "source": [ "# Verifica si la cadena tiene alguna a, r o n\n", "\n", "x = re.findall(\"[arn]\", txt)\n", "\n", "print('Cadena: ',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, la cadena presenta alguno de los caracteres del conjunto\")\n", "else:\n", " print(\"NO, la cadena no tiene ninguno de los caracteres del conjunto\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.2. [a-n] Devuelve una coincidencia para cualquier carácter en minúscula, alfabéticamente entre a y n" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= No llueve en Buenos Aires\n", "['l', 'l', 'e', 'e', 'e', 'n', 'e', 'n', 'i', 'e']\n", "SI, hay al menos un caracter el la cadena entre a y n\n" ] } ], "source": [ "# Verifica si la cadena tiene algun caracter entre a y n:\n", "\n", "x = re.findall(\"[a-n]\", txt)\n", "\n", "print('Cadena=',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un caracter el la cadena entre a y n\")\n", "else:\n", " print(\"NO, no hay ningun caracter en la cadena entre a y n\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.3. [^arn] Devuelve una coincidencia para cualquier carácter EXCEPTO a, r y n" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= No llueve en Buenos Aires\n", "['N', 'o', ' ', 'l', 'l', 'u', 'e', 'v', 'e', ' ', 'e', ' ', 'B', 'u', 'e', 'o', 's', ' ', 'A', 'i', 'e', 's']\n", "SI, la cadena tiene otros caracteres distinos a los del conjunto\n" ] } ], "source": [ "# Verifica si la cadena tiene otros caracteres diferentes a a, r, or n:\n", "\n", "print('Cadena=',txt)\n", "x = re.findall(\"[^arn]\", txt)\n", "\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, la cadena tiene otros caracteres distinos a los del conjunto\")\n", "else:\n", " print(\"NO, la cadena solo tiene los caracteres del conjunto\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.4. [0123] Devuelve una coincidencia en la que cualquiera de los dígitos especificados (0, 1, 2 o 3) está presente" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['3', '2', '3']\n", "SI, hay al menos un dígito del conjunto en la cadena\n" ] } ], "source": [ "# Verifica si la cadena tiene alguno de los dígitos dentro del conjunto 0, 1, 2, o 3\n", "\n", "x = re.findall(\"[0123]\", txt2)\n", "print('Cadena=',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un dígito del conjunto en la cadena\")\n", "else:\n", " print(\"NO, no hay ningún dígito del conjunto en la cadena\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.5. [0-9] Devuelve una coincidencia para cualquier dígito entre 0 y 9" ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['3', '2', '8', '3', '8']\n", "SI, hay al menos un dígito del conjunto en la cadena\n" ] } ], "source": [ "# Verifica si la cadena tiene alguno de los dígitos del conjunto\n", "\n", "x = re.findall(\"[0-9]\", txt2)\n", "print('Cadena=',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un dígito del conjunto en la cadena\")\n", "else:\n", " print(\"NO, no hay ningún dígito del conjunto en la cadena\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.6. [0-5][0-9] Devuelve una coincidencia para cualquier número de dos dígitos entre 00 y 59" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "['28', '38']\n", "SI, hay al menos un par de dígitos en la cadena entre 00 y 59\n" ] } ], "source": [ "# Verifica si la cadena tiene algun par de digitos entre 00 y 59\n", "\n", "x = re.findall(\"[0-5][0-9]\", txt2)\n", "print('Cadena=',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, hay al menos un par de dígitos en la cadena entre 00 y 59\")\n", "else:\n", " print(\"NO, en la cadena no hay ningun par de dígitos 00 y 59\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.7. [a-zA-Z] Devuelve una coincidencia para cualquier carácter alfabéticamente entre a y z, minúsculas O mayúsculas" ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= No llueve en Buenos Aires\n", "['N', 'o', 'l', 'l', 'u', 'e', 'v', 'e', 'e', 'n', 'B', 'u', 'e', 'n', 'o', 's', 'A', 'i', 'r', 'e', 's']\n", "SI, la cadena tiene al menos una minúscula y una mayúscula\n" ] } ], "source": [ "#Verifica si la cadena tiene al menos una letra mayúscula Y una letra minúscula:\n", "\n", "x = re.findall(\"[a-zA-Z]\", txt)\n", "print('Cadena=',txt)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, la cadena tiene al menos una minúscula y una mayúscula\")\n", "else:\n", " print(\"NO, la cadena no tiene al menos una mayúscula y una minúscula\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.3.8. [+] En conjuntos, +, *, ., |, (), $,{} no tiene un significado especial, por lo que [+] significa: devolver una coincidencia para cualquier carácter + en la cadena" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "[]\n", "NO, la cadena no tiene un caracter '+'\n" ] } ], "source": [ "# Verifica si la cadena tiene un caracter +\n", "\n", "x = re.findall(\"[+]\", txt2)\n", "print('Cadena=',txt2)\n", "print(x)\n", "\n", "if x:\n", " print(\"SI, la cadena tiene al menos un caracter '+'\")\n", "else:\n", " print(\"NO, la cadena no tiene un caracter '+'\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.4. La funcion 'findall()'\n", "Devuelve una lista conteniendo todas las coincidencias." ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "Sub-Cadena= do\n", "['do']\n" ] } ], "source": [ "# Devuelve una lista conteniendo ocurrencias de una subcadena\n", "print('Cadena=',txt2)\n", "sub1='do'\n", "print('Sub-Cadena=',sub1)\n", "x = re.findall(sub1, txt2)\n", "print(x)\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.5. La funcion 'search()'\n", "Esta función busca una coincidencia en la cadena y devuelve un objeto Match si hay una coincidencia.\n", "\n", "Si hay más de una coincidencia, solo se devolverá la primera aparición de la coincidencia:" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados - subcadena= tu\n", "La posicion de la primer aparicion de tu es: 27\n" ] } ], "source": [ "# Buscaremos la posición de la primer aparición de la subcadena \"tu\"\n", "\"\"\"\n", "sub2='tu'\n", "x = re.search(sub2, txt2)\n", "print('Cadena=',txt2)\n", "pos=x.start()\n", "print(\"La posicion de la primer aparicion de \",sub2,\" es:\", pos)\n", "\"\"\"\n", "# PRECAUCION: Si la subcadena sub2 no está en la cadena txt2, arroja ERROR!\n", "# \n", "# Sugerencia: primero ver si está. Y si está, buscar la posicion. \n", "# -----------\n", "sub2='tu'\n", "print('Cadena=',txt2,' - subcadena=',sub2)\n", "x=re.findall(sub2,txt2)\n", "if(len(x)>0):\n", " x = re.search(sub2, txt2)\n", " pos=x.start()\n", " print(\"La posicion de la primer aparicion de\",sub2,\" es:\", pos)\n", "else:\n", " print(\"La subcadena '\",sub2,\"' no se hallo en la cadena '\", txt2,\"´\")\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 2.5.1. El objeto search()\n", "El objeto search() tiene métodos y propiedades usadas para recuperar información relacionada con la búsqueda:\n", "1. span(): devuelve una tupla que contiene las posiciones inicio y fin de la busqueda.\n", "2. string: devuelve la cadena pasada a la función.\n", "3. group(): devuelve la parte de la cadena donde hubo una coincidencia." ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados - subcadena= tu\n", "span(): (27, 29)\n", "string: Pasamos 3 meses con temperaturas entre 28 y 38 grados\n", "group(): tu\n" ] } ], "source": [ "# Métodos del objeto Search:\n", "\n", "print('Cadena=',txt2,' - subcadena=',sub2)\n", "x = re.search(sub2, txt2)\n", "\n", "# span(): Las posiciones de inicio y fin de la coincidencia\n", "print('span():',x.span())\n", "# string: La cadena pasada a la función.\n", "print('string:',x.string)\n", "# group(): La parte donde hubo coincidencia\n", "print('group():',x.group())\n", "\n", "# IMPORTANTE: \n", "# Vale la aclaración anterior: si el objeto es vacio, da ERROR." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.6. La funcion 'split()'\n", "La funcion 'split()' separa a la cadena segun una subcadena" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados subcadena= as\n", "['P', 'amos 3 meses con temperatur', ' entre 28 y 38 grados']\n" ] } ], "source": [ "# Devuelve una lista resultado de la separacion de la cadena por la subcadena\n", "sub='as'\n", "print('Cadena=',txt2,' subcadena=',sub)\n", "x = re.split(sub, txt2)\n", "print(x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.7. La funcion 'sub()'\n", "La funcion sub() reemplaza las coincidencias con el texto de su elección." ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Cadena= Pasamos 3 meses con temperaturas entre 28 y 38 grados subcadena= as reemplazo= XX\n", "PXXamos 3 meses con temperaturXX entre 28 y 38 grados\n" ] } ], "source": [ "# Reemplaza sub=\"as\" por nuevaSub=\"XX\" en la cadena.\n", "nuevaSub=\"XX\"\n", "print('Cadena=',txt2,' subcadena=',sub,'reemplazo=',nuevaSub)\n", "x = re.sub(sub, nuevaSub, txt2)\n", "print(x)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "base", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.10" } }, "nbformat": 4, "nbformat_minor": 2 }