Introducción

En nuestra empresa, el equipo de ciencia del dato nos solicita que analicemos y preparemos un texto que luego ellos usarán para entrenar un modelo de Deep Learning. Necesitan cuantificar la distribución de las palabras para estimar cuánto texto tendrán que pasarle a su modelo para que aprenda correctamente. Es un trabajo importante, porque de estas estimaciones dependerá en gran medida la estimación de una parte sustancial de los costes de la puesta en marcha del proyecto.

Problema a resolver

En concreto, nos piden lo siguiente:

* Cuántas palabras componen el texto.
* Cuántas veces se repiten las palabras dentro del texto, en promedio y por palabra.
* Almacenar el cómputo de veces que se repite cada palabra en orden alfabético.
* Cuántas veces se repite la palabra que más se repite y cuántas veces se repite la palabra que menos se repite.

Descripción de Datos

Práctica

0. Toma de datos:

1. ¿Cuántas palabras componen el texto?

1.a Eliminar los caracteres especiales del texto

1.b Poner todas las palabras en minúsculas

1.c Extracción de las palabras del texto

1.d Identificación del número de palabras del texto