Bien, bienvenidos a la clase de hoy

que va a tratar el manejo de datos.

manejo de datos puede que

os suene algo raro pero

la idea básica del manejo de datos es

que, teniendo los datos en un formato,

quieres mostrarlos de forma diferente

es algo que pasa a menudo. No hablo

de algo similar a convertir imágenes sino

que es posible que tengas un archivo de

texto o un log y lo que quieres es verlo

en otro formato, en un

gráfico, o quieres ver estadísticas sobre

esos datos, cualquier cosa que coja un

conjunto de datos y los represente de otra

forma; eso es lo que llamaría manejo de

datos. Hemos visto ya algunos ejemplos de

este tipo de manejo de datos

con anterioridad en este semestre

básicamente cualquier uso de un

operador sobre pipe que ordene o coja

la salida de un programa y la introduzca

en otro programa, esto es manejo de datos

en cierta manera.

Lo que vamos a hacer en esta clase

es echar un vistazo a algunas formas 
elegantes de

manejar datos y algunas

muy útiles.

Para llevar a cabo cualquier

manejo de datos lo que se necesita es

una fuente de datos sobre la que operar

en primer lugar y hay un gran número de

buenas muestras de ello.

Damos algunos ejemplos en la sección de

ejercicios del apartado de notas de la 
clase de hoy

En esta en particular voy a

utilizar un log del sistema. Tengo un 
servidor

ejecutándose en algún lugar de Holanda

porque parecía algo razonable en su

momento y, en ese servidor

corre un daemon de logging normal

que viene con el sistema Deeb.

Es un tipo estándar de

mecanismo de logging en Linux y 
hay un comando

llamado journalctl en los sistemas Linux

que te permiten ver dicho log.

Así que lo que voy a hacer es

algunas modificaciones sobre dicho log
para ver

si puedo sacar algo interesante

de él. Veréis que si ejecuto

el comando el resultado es un montón de 
datos

porque es un log que tiene

hay un montón de cosas en él, un montón

de cosas que han pasado en el servidor y

que se remontan a enero y

los logs van incluso más atras

hay mucha información así que

lo primero que vamos a hacer es tratar de

limitarla para que veáis

sólo parte del contenido. El comando 
grep

es aquí el más adecuado así que vamos

a pasarlo a través del pipe y vamos

a llamar a SSH. Sobre SSH no hemos

hablado todavía pero es

una manera de acceder a ordenadores
de forma remota

usando la línea de comandos y en

particular lo que pasa cuando pones

un servidor público en Internet es que

un montón de gente de todo el mundo

intenta conectar, loguearse y

tomar el servidor. Si quieres

ver lo que esta gente intenta hacer

y demás, voy a hacer un grep por SSH

y veréis como rápidamente se

genera un montón de contenido,

al menos en teoría. Va a ir

lento ... ahí está. Esto genera toneladas

y toneladas de contenido y es

muy difícil incluso ver

qué está pasando, así que vamos a
observar

sólo los nombres de usuario con 
los que la gente

intenta loguear en mi servidor, así 
podéis ver

que en algunas de estas líneas pone
desconectado

desconectado por usuario inválido y

un nombre de usuario. Sólo quiero quedarme
con esas líneas,

es lo único que me interesa, voy a hacer

un cambio más aquí que, si

pensáis en cómo funciona esta pipeline,

si hago esto aquí conectado de esta manera

la pipeline del final lo que

hará es que mandará entero

el archivo de log a traves de la red a mi
máquina

y localmente ejecutará grep para mostrar
sólo

las líneas que contienen ssh y

localmente las filtrará todavía más.
Puede parecer

un poco ineficiente porque no me 
importan

muchas de estas líneas y el site remoto

también está ejecutando una shell, 
así que

lo que puedo hacer es ejecutar el

comando entero en el servidor

así que lo que os digo, el comando SSH

que quiero ejecutar en el servidor es
esta

pipeline de tres elementos y lo que

obtenga como resultado lo quiero mandar a
less ya

que lo que esta vez hace bien es

el mismo filtrado que hicimos antes pero

en el lado del servidor y

este sólo me va a mandar aquellas

líneas que me interesan para que

cuando las mande localmente a través del
programa

llamada less ... less es un paginador del
que veréis

algunos ejemplos, de hecho ya habéis visto

algunos, por ejemplo al

escribir man y algún otro comando que se 
abre en

un paginador. Un paginador es una forma 
práctica

de coger un extracto largo de cierto
contenido y adaptarlo

a la ventana de tu terminal

y permitirte avanzar,

retroceder y navegar por él para

que no avance por entero

por la pantalla, así que, si lo ejecuto

va a llevar un tiempo porque tiene que

analizar un montón de archivos de log,

en particular grep está rellenando un 
buffer

lo que resulta ser relativamente

de poca ayuda

Podría hacer, veamos si esto

es más útil, ¿por qué no quiere

hacerme el favor? bien, voy a hacer trampa

un poco, no me hagáis caso

quizá la red va muy lenta,

son dos posibles razones, por suerte hay

arreglo porque antes he

ejecutado el siguiente comando y

lo que este comando hace es coger 
la salida

de este otro comando y la anexa a un 
archivo

local, en mi computadora, bien, así que 
ejecuto

esto cuando llego a mi oficina y así

lo que esto hizo fue descargar todos

los logs de SSH que contenían

desconectado de, así que ahora los tengo
en local

lo cual es muy útil. Aquí está,

no hay razones para que abra el log entero

cada vez porque sé que ese

patrón del inicio es lo que me

interesa, por lo que echamos un vistazo

al SSH punto log y veréis que hay

montones y montones de líneas en

las que aparece desconectado de usuario
no válido

usuarios autenticados, etc. Bien, aquíe

están las líneas sobre las que tenemos que
trabajar

lo que también significa que más adelante

no tenemos que pasar por completo por este

proceso SSH, simplemente hacemos cat sobre
este archivo

y operamos sobre él directamente

puedo mostrar este paginador

así que si hago cat s al SSH punto log

y lo mando a less, me da una

página por la que puedo retroceder y 
avanzar

quizá hacer esto un poco más pequeño para

poder recorrer el archivo, estropear el

archivo y puedo hacer esto que son

básicamente atajos de teclado de vim de
manera que control ] para

avanzar, control D para retroceder y

q para salir. Hay todavía un montón de

contenido y estas líneas contienen un

montón de basura en la que no estoy

interesado, lo que realmente quiero ver

es cuáles son estos nombres de usuario

y esta es la herramienta que vamos a

empezar a utilizar, llamada sent y que es

un editor de flujo que está modificado o

es una modificación de un programa 
anterior

llamado edie que era un editor muy raro

que ninguno de vosotros probablemente

querrá utilizar, si, oh, tsp es el nombre

de la computadora remota a la que estoy 
conectando

como he dicho un editor de flujo y

básicamente lo que te permite es cambiar

el contenido de un flujo, puedes pensar
que

es un poco como hacer cambios pero

en realidad es un completo lenguaje

de programación