< Return to Video

UCPE_DE_M1_02_EN

  • 0:06 - 0:09
    Vamos a iniciar la aplicación
    de escritorio de OpenRefine,
  • 0:09 - 0:12
    que abre una nueva ventana
    del navegador y se ejecuta
  • 0:12 - 0:15
    en un puerto por defecto del equipo local.
  • 0:16 - 0:21
    Podemos crear un nuevo proyecto,
    abrir o importar un proyecto existente,
  • 0:22 - 0:25
    o configurar el idioma, si es necesario.
  • 0:25 - 0:28
    Descargue el archivo stocks.zip
    y busque el archivo
  • 0:28 - 0:31
    desde el menú
    "Crear proyecto" de OpenRefine.
  • 0:32 - 0:34
    Haga clic en Siguiente.
  • 0:35 - 0:38
    Esto importa el contenido del archivo
    a la memoria de la aplicación.
  • 0:38 - 0:40
    La herramienta trabaja
  • 0:40 - 0:42
    con archivos comprimidos
    o sin comprimir.
  • 0:44 - 0:48
    Como estos datos tienen
    el formato semiestructurado JSON,
  • 0:48 - 0:52
    seleccione el nodo raíz del árbol de JSON,
    que transforma los datos
  • 0:52 - 0:55
    en un formato tabular con
    filas y columnas.
  • 0:56 - 1:00
    Podemos preservar las cadenas vacías
    y realizar una limpieza básica,
  • 1:00 - 1:03
    como eliminar los espacios en blanco
    y analizar los valores numéricos.
  • 1:08 - 1:11
    Estas operaciones se
    pueden realizar en una fase posterior.
  • 1:13 - 1:17
    Le daremos un nombre al proyecto
    y procederemos a su creación.
  • 1:23 - 1:25
    Una vez creado el proyecto,
  • 1:26 - 1:28
    podemos hacer clic en todas
    las columnas de edición
  • 1:29 - 1:32
    y eliminar aquellas que no queremos
    del conjunto de datos.
  • 1:33 - 1:37
    Esto ayuda a reducir el uso de la memoria,
    especialmente con conjuntos grandes.
  • 1:38 - 1:41
    También reordenaremos
    algunas de las columnas de la tabla.
  • 1:50 - 1:53
    Ahora, el conjunto de datos es más ligero,
    con solo las columnas
  • 1:53 - 1:55
    que se utilizarán
    para algún análisis posterior.
  • 1:56 - 2:00
    Como con una hoja de cálculo, podemos
    ordenar diferentes columnas.
  • 2:00 - 2:04
    Aquí, ordenaremos la columna
    de volumen en orden descendente.
  • 2:16 - 2:18
    Los datos financieros,
    como el precio de las acciones,
  • 2:18 - 2:19
    cambian constantemente.
  • 2:20 - 2:22
    ¿Y si nuestros datos no están actualizados
    y queremos
  • 2:22 - 2:24
    los últimos datos de la bolsa?
  • 2:24 - 2:29
    Utilizando Openrefine, se pueden aumentar
    los datos utilizando servicios web online.
  • 2:30 - 2:33
    Sin embargo, utilizar estos servicios web
    puede quitar mucho tiempo.
  • 2:34 - 2:37
    Para enseñar esta característica,
    utilizaremos un subconjunto más pequeño
  • 2:37 - 2:40
    de los datos de las acciones, que
    cargaremos en un nuevo proyecto.
  • 2:40 - 2:45
    Busque el archivo stocks_demo.csv
    en la carpeta de la sesión
  • 2:45 - 2:46
    y cárguelo en OpenRefine.
  • 2:50 - 2:53
    También crearemos un proyecto de
    Openrefine
  • 2:53 - 2:55
    y lo llamaremos "StocksDemo".
  • 3:00 - 3:03
    En el menú de la columna de símbolos,
    haga clic en Editar columna,
  • 3:03 - 3:05
    Añadir columna obteniendo URL.
  • 3:06 - 3:10
    Esto abre un cuadro
    donde podemos introducir la URL
  • 3:10 - 3:15
    de un servicio web online
    para aumentar los datos.
  • 3:16 - 3:20
    Este servicio online ofrece una API
    que devuelve los precios de las acciones
  • 3:20 - 3:21
    con un ligero retraso.
  • 3:22 - 3:26
    Una buena práctica es probar
    el servicio web desde un cliente
  • 3:26 - 3:30
    con un símbolo de cotización conocido
    y validar la respuesta del servicio.
  • 3:35 - 3:38
    Añadiremos esta URL y
    el símbolo bursátil
  • 3:38 - 3:40
    como parámetro disponible para cada fila.
  • 3:41 - 3:44
    Para ello, copie la URL
    en el cuadro de expresión
  • 3:46 - 3:48
    e inserte lo que se muestra aquí.
  • 3:57 - 4:00
    Ahora, la URL es diferente para cada fila
    con el símbolo bursátil
  • 4:00 - 4:01
    como parámetro de símbolo.
  • 4:04 - 4:07
    Damos un nuevo nombre a la columna
    y hacemos clic en Aceptar.
  • 4:08 - 4:12
    Esto podría tardar unos minutos,
    según la velocidad del servicio web.
  • 4:17 - 4:20
    Ya tenemos una nueva columna con
    los datos de las acciones.
  • 4:21 - 4:25
    Observe que los resultados están
    en formato XML y deben analizarse.
  • 4:25 - 4:29
    Consulte los manuales de OpenRefine
    para obtener ayuda
  • 4:29 - 4:31
    sobre el análisis de resultados
    en XML y JSON.
  • 4:32 - 4:35
    Por ahora, esta es la sintaxis
    para extraer
  • 4:35 - 4:37
    el precio de las acciones
    del documento XML.
  • 4:57 - 5:01
    Tras revisar los resultados,
    estamos listos para exportar los datos
  • 5:01 - 5:04
    a otra herramienta
    de procesamiento de datos.
  • 5:08 - 5:12
    En el siguiente ejemplo, utilizaremos
    OpenRefine para limpiar
  • 5:12 - 5:13
    un archivo de datos desordenado.
  • 5:16 - 5:19
    Descargamos el archivo
    customers-messy.zip
  • 5:19 - 5:23
    de la carpeta de la sesión
    y lo guardamos en el ordenador local.
  • 5:24 - 5:27
    El primer paso es revisar
    visualmente el archivo de datos en crudo
  • 5:27 - 5:30
    utilizando un editor de texto o un Excel
    y familiarizarse
  • 5:30 - 5:33
    con los atributos
    y el contenido de los datos.
  • 5:35 - 5:38
    Como antes, cargamos este archivo
    de datos en OpenRefine
  • 5:38 - 5:40
    y creamos un nuevo proyecto.
  • 5:42 - 5:47
    Una vez cargados los datos, revisamos
    superficialmente las columnas,
  • 5:49 - 5:52
    y cambiamos la codificación de
    caracteres a UTF-8.
  • 5:53 - 5:56
    Podemos cambiar algunas
    opciones, como los separadores de columna
  • 5:57 - 5:58
    o añadir una fila de cabecera.
  • 5:59 - 6:01
    En nuestro caso,
    mantendremos la configuración.
  • 6:03 - 6:07
    Nombramos el proyecto de limpieza
    y hacemos clic en Crear Proyecto.
  • 6:10 - 6:14
    Esto crea un nuevo proyecto con una
    copia del conjunto de datos original.
  • 6:15 - 6:18
    El siguiente paso en el proceso
    es examinar visualmente los datos
  • 6:19 - 6:22
    y comprobar cada columna
    en busca de errores, problemas de formato
  • 6:22 - 6:23
    o valores ausentes.
  • 6:24 - 6:26
    Podemos realizar operaciones
    comunes,
  • 6:26 - 6:28
    como eliminar espacios
    en blanco del texto.
  • 6:29 - 6:31
    Para ello,
    hacemos clic en la cabecera
  • 6:31 - 6:34
    de Nombre de contacto, por ejemplo,
    Editar celdas,
  • 6:35 - 6:37
    Recortar los espacios en blanco
    iniciales y finales.
  • 6:38 - 6:41
    Podemos realizar la misma operación
    en varias columnas.
  • 6:43 - 6:46
    Podríamos hacer operaciones básicas
    de encadenamiento
  • 6:46 - 6:47
    como en una hoja de cálculo.
  • 6:47 - 6:52
    Digamos que queremos combinar el nombre
    y los apellidos en una sola columna.
  • 6:52 - 6:54
    Para ello, hacemos clic
    en Editar columna,
  • 6:55 - 6:58
    Añadir columna basada en esta columna.
  • 6:59 - 7:02
    En el cuadro de expresión,
    tomaremos el valor actual
  • 7:02 - 7:03
    del nombre de contacto,
  • 7:04 - 7:08
    y añadimos un espacio seguido del valor
    del apellido de contacto.
  • 7:16 - 7:18
    Veamos los resultados
  • 7:19 - 7:20
    y asignemos un nombre a la nueva
    columna.
  • 7:20 - 7:24
    Por ejemplo, Nombre de contacto completo.
    Le damos a Aceptar.
  • 7:30 - 7:33
    La nueva columna
    se ha añadido a nuestro conjunto de datos.
  • 7:34 - 7:38
    Algo bueno de OpenRefine es que
    puedes deshacer tus operaciones pasadas.
  • 7:38 - 7:42
    Si ha cometido un error, puede
    volver a un paso anterior y corregirlo.
  • 7:43 - 7:46
    Esto facilita mucho hacer cambios
    sin perder tiempo
  • 7:46 - 7:49
    guardando múltiples copias de los datos.
  • 7:53 - 7:55
    Vamos a eliminar la columna
    que acabamos de crear.
  • 7:57 - 8:00
    Al igual que con las hojas de cálculo,
  • 8:00 - 8:03
    podemos realizar otras operaciones
    sencillas basadas en las columnas,
  • 8:03 - 8:07
    como cambiar el texto a mayúscula
    y a minúscula.
  • 8:18 - 8:22
    Las facetas son una función potente en
    muchas herramientas de limpieza de datos.
  • 8:22 - 8:25
    Las facetas resumen
    las celdas de esa columna
  • 8:25 - 8:27
    para dar una visión
    más amplia de la misma.
  • 8:27 - 8:30
    También permite filtrar
    solo un subconjunto de las filas
  • 8:30 - 8:32
    que desee cambiar en bloque.
  • 8:33 - 8:34
    Veamos cómo funciona.
  • 8:35 - 8:38
    Crearemos una faceta de texto
    en la columna del país
  • 8:38 - 8:42
    haciendo clic en el menú desplegable
    de la columna, y luego en Faceta de texto.
  • 8:43 - 8:46
    Podemos ver que los nombres
    de los países no son coherentes.
  • 8:47 - 8:52
    Por ejemplo, vemos Estados Unidos
    como "US", "USA" o "United States",
  • 8:52 - 8:54
    hasta con caracteres adicionales.
  • 8:56 - 9:00
    Además, "Netherlands"
    se encuentra con y sin el artículo "the".
  • 9:01 - 9:05
    Vemos "France" escrita tanto en mayúscula
    como en minúscula.
  • 9:07 - 9:10
    "Cluster" nos permite
    agrupar y editar automáticamente
  • 9:10 - 9:12
    valores diferentes pero similares.
  • 9:13 - 9:15
    Hagamos clic en el comando Cluster
    del marco izquierdo.
  • 9:16 - 9:20
    Ahora, podemos ver todas
    las palabras similares agrupadas
  • 9:20 - 9:22
    y realizar una operación de fusión.
  • 9:22 - 9:26
    Fusionemos todo el texto que se refiera a
    Estados Unidos como "USA",
  • 9:27 - 9:29
    a Reino Unido como "UK", etc.
  • 9:33 - 9:36
    Confirmamos con el botón
    de fusión y reagrupación.
  • 9:37 - 9:39
    No quedan más agrupaciones obvias.
  • 9:40 - 9:42
    Sin embargo, no hemos
    resuelto el problema de Holanda.
  • 9:43 - 9:47
    Elegiremos otra operación de agrupación
    que utiliza una métrica de distancia.
  • 9:56 - 10:00
    La columna del país ya está arreglada
    y no hay más grupos que encontrar.
  • 10:00 - 10:02
    Pero sigue habiendo un error.
  • 10:02 - 10:05
    "Norway" tiene un carácter espaciado.
  • 10:05 - 10:07
    Mire si puede encontrar
    una forma de solucionarlo.
  • 10:10 - 10:13
    Ahora, vamos a utilizar la herramienta
    para limpiar una columna numérica,
  • 10:14 - 10:15
    como el límite de crédito.
  • 10:16 - 10:19
    Primero, aplicaremos una transformación
    numérica en la columna
  • 10:19 - 10:21
    para que se reconozcan todos los números.
  • 10:22 - 10:25
    Algunos valores de esta columna
    no se reconocen como números.
  • 10:25 - 10:28
    Esto se debe a que hay
    valores alfanuméricos,
  • 10:28 - 10:30
    como USD o el símbolo del dólar.
  • 10:31 - 10:34
    Podemos corregirlo
    aplicando la faceta numérica.
  • 10:35 - 10:38
    A la izquierda, vemos un gráfico
    con la distribución de los datos.
  • 10:39 - 10:45
    Filtremos solo los valores no numéricos
    y cambiemos los valores de los campos
  • 10:45 - 10:46
    desde el cuadro de expresión.
  • 10:53 - 10:56
    Esta pantalla nos permite ver
    los valores originales,
  • 10:56 - 10:58
    así como los resultados
    cuando se aplica la expresión.
  • 11:03 - 11:07
    Utilizaremos la función de sustitución
    para reemplazar los caracteres no deseados
  • 11:07 - 11:09
    con espacios en blanco.
  • 11:09 - 11:13
    Vamos a quitar los símbolos "USD",
    "$" y la coma.
  • 11:14 - 11:18
    Como puede ver, se pueden realizar
    varias funciones en una sola línea.
  • 11:18 - 11:20
    Podemos llamarlo
    "encadenamiento de operadores".
  • 11:21 - 11:24
    Todos los caracteres alfanuméricos
    han sido eliminados.
  • 11:27 - 11:31
    Cuando hacemos clic en Aceptar, la
    herramienta sigue sin verlos como números.
  • 11:31 - 11:34
    Para ello, tendremos que usar
    la función "toNumber"
  • 11:34 - 11:38
    para convertir los valores de la faceta
    en valores numéricos.
  • 11:48 - 11:52
    Hemos probado estas operaciones
    en una faceta numérica.
  • 11:52 - 11:55
    Para aplicar los cambios
    al conjunto del proyecto,
  • 11:55 - 11:58
    copiamos la expresión y la aplicamos
    a una transformación de columna.
  • 11:59 - 12:02
    Esto garantiza que todos los valores
    del límite de crédito
  • 12:02 - 12:04
    se han convertido en números.
  • 12:13 - 12:16
    Una vez que hemos limpiado
    el resto de los datos,
  • 12:16 - 12:19
    estamos listos para exportar el archivo
    en el formato deseado.
  • 12:19 - 12:23
    Para este ejemplo, vamos a exportarlo
    como un archivo CSV
  • 12:24 - 12:26
    y a abrirlo para ver los resultados.
  • 12:30 - 12:33
    Ahora, todas las columnas
    tienen datos limpios,
  • 12:33 - 12:35
    listos para ser almacenados
    en una base de datos
  • 12:35 - 12:37
    o para su posterior análisis.
Title:
UCPE_DE_M1_02_EN
Video Language:
English
Duration:
12:41
enrique_rodriguez edited Spanish subtitles for vimeo.com/.../508797388
enrique_rodriguez edited Spanish subtitles for vimeo.com/.../508797388
naudin.morales edited Spanish subtitles for vimeo.com/.../508797388
naudin.morales edited Spanish subtitles for vimeo.com/.../508797388
naudin.morales edited Spanish subtitles for vimeo.com/.../508797388
naudin.morales edited Spanish subtitles for vimeo.com/.../508797388
naudin.morales edited Spanish subtitles for vimeo.com/.../508797388
naudin.morales edited Spanish subtitles for vimeo.com/.../508797388
Show all

Spanish subtitles

Revisions