Vamos a iniciar la aplicación de escritorio de OpenRefine, que abre una nueva ventana del navegador y se ejecuta en un puerto por defecto del equipo local. Podemos crear un nuevo proyecto, abrir o importar un proyecto existente, o configurar el idioma, si es necesario. Descargue el archivo stocks.zip y busque el archivo desde el menú "Crear proyecto" de OpenRefine. Haga clic en Siguiente. Esto importa el contenido del archivo a la memoria de la aplicación. La herramienta trabaja con archivos comprimidos o sin comprimir. Como estos datos tienen el formato semiestructurado JSON, seleccione el nodo raíz del árbol de JSON, que transforma los datos en un formato tabular con filas y columnas. Podemos preservar las cadenas vacías y realizar una limpieza básica, como eliminar los espacios en blanco y analizar los valores numéricos. Estas operaciones se pueden realizar en una fase posterior. Le daremos un nombre al proyecto y procederemos a su creación. Una vez creado el proyecto, podemos hacer clic en todas las columnas de edición y eliminar aquellas que no queremos del conjunto de datos. Esto ayuda a reducir el uso de la memoria, especialmente con conjuntos grandes. También reordenaremos algunas de las columnas de la tabla. Ahora, el conjunto de datos es más ligero, con solo las columnas que se utilizarán para algún análisis posterior. Como con una hoja de cálculo, podemos ordenar diferentes columnas. Aquí, ordenaremos la columna de volumen en orden descendente. Los datos financieros, como el precio de las acciones, cambian constantemente. ¿Y si nuestros datos no están actualizados y queremos los últimos datos de la bolsa? Utilizando Openrefine, se pueden aumentar los datos utilizando servicios web online. Sin embargo, utilizar estos servicios web puede quitar mucho tiempo. Para enseñar esta característica, utilizaremos un subconjunto más pequeño de los datos de las acciones, que cargaremos en un nuevo proyecto. Busque el archivo stocks_demo.csv en la carpeta de la sesión y cárguelo en OpenRefine. También crearemos un proyecto de Openrefine y lo llamaremos "StocksDemo". En el menú de la columna de símbolos, haga clic en Editar columna, Añadir columna obteniendo URL. Esto abre un cuadro donde podemos introducir la URL de un servicio web online para aumentar los datos. Este servicio online ofrece una API que devuelve los precios de las acciones con un ligero retraso. Una buena práctica es probar el servicio web desde un cliente con un símbolo de cotización conocido y validar la respuesta del servicio. Añadiremos esta URL y el símbolo bursátil como parámetro disponible para cada fila. Para ello, copie la URL en el cuadro de expresión e inserte lo que se muestra aquí. Ahora, la URL es diferente para cada fila con el símbolo bursátil como parámetro de símbolo. Damos un nuevo nombre a la columna y hacemos clic en Aceptar. Esto podría tardar unos minutos, según la velocidad del servicio web. Ya tenemos una nueva columna con los datos de las acciones. Observe que los resultados están en formato XML y deben analizarse. Consulte los manuales de OpenRefine para obtener ayuda sobre el análisis de resultados en XML y JSON. Por ahora, esta es la sintaxis para extraer el precio de las acciones del documento XML. Tras revisar los resultados, estamos listos para exportar los datos a otra herramienta de procesamiento de datos. En el siguiente ejemplo, utilizaremos OpenRefine para limpiar un archivo de datos desordenado. Descargamos el archivo customers-messy.zip de la carpeta de la sesión y lo guardamos en el ordenador local. El primer paso es revisar visualmente el archivo de datos en crudo utilizando un editor de texto o un Excel y familiarizarse con los atributos y el contenido de los datos. Como antes, cargamos este archivo de datos en OpenRefine y creamos un nuevo proyecto. Una vez cargados los datos, revisamos superficialmente las columnas, y cambiamos la codificación de caracteres a UTF-8. Podemos cambiar algunas opciones, como los separadores de columna o añadir una fila de cabecera. En nuestro caso, mantendremos la configuración. Nombramos el proyecto de limpieza y hacemos clic en Crear Proyecto. Esto crea un nuevo proyecto con una copia del conjunto de datos original. El siguiente paso en el proceso es examinar visualmente los datos y comprobar cada columna en busca de errores, problemas de formato o valores ausentes. Podemos realizar operaciones comunes, como eliminar espacios en blanco del texto. Para ello, hacemos clic en la cabecera de Nombre de contacto, por ejemplo, Editar celdas, Recortar los espacios en blanco iniciales y finales. Podemos realizar la misma operación en varias columnas. Podríamos hacer operaciones básicas de encadenamiento como en una hoja de cálculo. Digamos que queremos combinar el nombre y los apellidos en una sola columna. Para ello, hacemos clic en Editar columna, Añadir columna basada en esta columna. En el cuadro de expresión, tomaremos el valor actual del nombre de contacto, y añadimos un espacio seguido del valor del apellido de contacto. Veamos los resultados y asignemos un nombre a la nueva columna. Por ejemplo, Nombre de contacto completo. Le damos a Aceptar. La nueva columna se ha añadido a nuestro conjunto de datos. Algo bueno de OpenRefine es que puedes deshacer tus operaciones pasadas. Si ha cometido un error, puede volver a un paso anterior y corregirlo. Esto facilita mucho hacer cambios sin perder tiempo guardando múltiples copias de los datos. Vamos a eliminar la columna que acabamos de crear. Al igual que con las hojas de cálculo, podemos realizar otras operaciones sencillas basadas en las columnas, como cambiar el texto a mayúscula y a minúscula. Las facetas son una función potente en muchas herramientas de limpieza de datos. Las facetas resumen las celdas de esa columna para dar una visión más amplia de la misma. También permite filtrar solo un subconjunto de las filas que desee cambiar en bloque. Veamos cómo funciona. Crearemos una faceta de texto en la columna del país haciendo clic en el menú desplegable de la columna, y luego en Faceta de texto. Podemos ver que los nombres de los países no son coherentes. Por ejemplo, vemos Estados Unidos como "US", "USA" o "United States", hasta con caracteres adicionales. Además, "Netherlands" se encuentra con y sin el artículo "the". Vemos "France" escrita tanto en mayúscula como en minúscula. "Cluster" nos permite agrupar y editar automáticamente valores diferentes pero similares. Hagamos clic en el comando Cluster del marco izquierdo. Ahora, podemos ver todas las palabras similares agrupadas y realizar una operación de fusión. Fusionemos todo el texto que se refiera a Estados Unidos como "USA", a Reino Unido como "UK", etc. Confirmamos con el botón de fusión y reagrupación. No quedan más agrupaciones obvias. Sin embargo, no hemos resuelto el problema de Holanda. Elegiremos otra operación de agrupación que utiliza una métrica de distancia. La columna del país ya está arreglada y no hay más grupos que encontrar. Pero sigue habiendo un error. "Norway" tiene un carácter espaciado. Mire si puede encontrar una forma de solucionarlo. Ahora, vamos a utilizar la herramienta para limpiar una columna numérica, como el límite de crédito. Primero, aplicaremos una transformación numérica en la columna para que se reconozcan todos los números. Algunos valores de esta columna no se reconocen como números. Esto se debe a que hay valores alfanuméricos, como USD o el símbolo del dólar. Podemos corregirlo aplicando la faceta numérica. A la izquierda, vemos un gráfico con la distribución de los datos. Filtremos solo los valores no numéricos y cambiemos los valores de los campos desde el cuadro de expresión. Esta pantalla nos permite ver los valores originales, así como los resultados cuando se aplica la expresión. Utilizaremos la función de sustitución para reemplazar los caracteres no deseados con espacios en blanco. Vamos a quitar los símbolos "USD", "$" y la coma. Como puede ver, se pueden realizar varias funciones en una sola línea. Podemos llamarlo "encadenamiento de operadores". Todos los caracteres alfanuméricos han sido eliminados. Cuando hacemos clic en Aceptar, la herramienta sigue sin verlos como números. Para ello, tendremos que usar la función "toNumber" para convertir los valores de la faceta en valores numéricos. Hemos probado estas operaciones en una faceta numérica. Para aplicar los cambios al conjunto del proyecto, copiamos la expresión y la aplicamos a una transformación de columna. Esto garantiza que todos los valores del límite de crédito se han convertido en números. Una vez que hemos limpiado el resto de los datos, estamos listos para exportar el archivo en el formato deseado. Para este ejemplo, vamos a exportarlo como un archivo CSV y a abrirlo para ver los resultados. Ahora, todas las columnas tienen datos limpios, listos para ser almacenados en una base de datos o para su posterior análisis.