Introducción

En nuestra empresa, el equipo de ciencia del dato nos solicita que analicemos y preparemos un texto que luego ellos usarán para entrenar un modelo de Deep Learning. Necesitan cuantificar la distribución de las palabras para estimar cuánto texto tendrán que pasarle a su modelo para que aprenda correctamente. Es un trabajo importante, porque de estas estimaciones dependerá en gran medida la estimación de una parte sustancial de los costes de la puesta en marcha del proyecto.

Problema a resolver

En concreto, nos piden lo siguiente:

* Cuántas palabras componen el texto.
* Cuántas veces se repiten las palabras dentro del texto, en promedio y por palabra.
* Almacenar el cómputo de veces que se repite cada palabra en orden alfabético.
* Cuántas veces se repite la palabra que más se repite y cuántas veces se repite la palabra que menos se repite.

Descripción de Datos

El texto nos llega en formato de un único string (que nosotros tomaremos de la biblioteca lorem, https://pypi.org/project/lorem/)
Necesitaremos aislar las palabras que lo forman para poder manipularlas.

Práctica

0. Toma de datos:

Teclea pip install lorem en una celda de código y ejecuta
Teclea import lorem y ejecuta
Teclea t = lorem.text() y ejecuta, en la variable t quedará cargado el texto en formato string

1. ¿Cuántas palabras componen el texto?

1.a Eliminar los caracteres especiales del texto

1.b Poner todas las palabras en minúsculas

1.c Extracción de las palabras del texto

1.d Identificación del número de palabras del texto