YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Portuguese, Brazilian subtitles

← PCA in sklearn - Intro to Machine Learning

Get Embed Code
4 Languages

Showing Revision 13 created 06/20/2016 by Udacity Robot.

  1. A análise de componentes principais que eu estou fazendo fica nessa
  2. função chamada doPCA.
  3. E ela se parece bastante com muitas outras que nós já fizemos
  4. anteriormente no scikit-learn.
  5. Você tem uma declaração import, na qual você,
  6. na verdade, retira o módulo que possui o código desejado.
  7. Você cria, nesse caso, a análise de componentes principais.
  8. Você a ajusta.
  9. E, então, você a retorna como um objeto.
  10. E aí o que faço é: uso minha análise de componentes principais desse modo.
  11. E posso fazer algumas perguntas
  12. muito interessantes, muito importantes sobre isso acessando os atributos.
  13. Então, vamos explicar estas três linhas.
  14. É assim que obtenho realmente as informações do meu objeto PCA.
  15. A primeira, explained_variance_ratio, é onde estão realmente os autovalores.
  16. Então, imprimindo isso, essa linha aqui,
  17. é como sei que o primeiro componente de princípio tem aproximadamente 90,
  18. 91 por cento da variação nos dados, e o segundo tem cerca de 9 ou
  19. 10 por cento.
  20. Esses números resultam desta instrução.
  21. Depois, a segunda coisa que faço é verificar o primeiro e
  22. o segundo componentes de princípio.
  23. Eu faço isso através do atributo components do meu objeto PCA.
  24. O components consiste em uma lista,
  25. uma lista Python, que possui tantos componentes de princípio
  26. quantos eu solicitar como um parâmetro.
  27. Neste caso, tenho dois componentes principais.
  28. Eu os nomeio como first_pc e second_pc.
  29. Em testes anteriores, em que conversamos sobre
  30. a direção de x' no espaço de característica original xy,
  31. descobrimos dois números que estavam, de certa forma, empacotados juntos em um vetor.
  32. Você pode acessar essa informação direcional por meio desses componentes.
  33. Depois de ajustar minha análise de componentes de princípio,
  34. para poder fazer alguma coisa, tenho que fazer uma espécie de transformação dos dados.
  35. E este código eu darei a você no código base para o teste.
  36. Aqui eu estou apenas visualizando-o.
  37. A primeira linha está em vermelho.
  38. Plotarei o primeiro componente de princípio,
  39. a localização de todos os pontos ao longo desse componente.
  40. Bem como a direção dos componentes de princípio.
  41. Estou acessando essa informação por meio dos elementos do vetor first_pc.
  42. Depois, em ciano, ou azul-petróleo, acessarei o segundo
  43. componente de princípio e, em azul, eu tenho os dados originais.
  44. Mostrarei a você a aparência disso,
  45. e depois você tentará sozinho no teste.
  46. A primeira coisa que você tem é a exibição dos autovalores.
  47. Lembre-se de que essa é a informação de explained_variance_ratio.
  48. Depois, você vê um gráfico de dispersão.
  49. Ele terá mais ou menos essa aparência.
  50. Lembre-se de que a linha vermelha era a direção do nosso primeiro componente de princípio.
  51. E ela está exatamente onde você achou que estaria.
  52. Intuitivamente, ela já aparenta estar no lugar certo.
  53. A linha em ciano é perpendicular a ela.
  54. E, em azul, estão os pontos de dados originais.
  55. Uma coisa que eu gostaria de acrescentar é que as linhas vermelha e
  56. ciana não parecem perfeitamente ortogonais.
  57. Parece que elas não formam um perfeito ângulo de 90 graus.
  58. Mas lembre-se de que nossos eixos têm escalas diferentes.
  59. Este aqui vai até dez milhões,
  60. e o eixo y chega a menos da metade disso, por volta de quatro milhões.
  61. Na verdade, se fôssemos plotar tudo de modo proporcional,
  62. a largura deste gráfico deveria ser equivalente ao dobro da sua altura.
  63. E se fôssemos visualizá-lo exatamente dessa maneira, ele seria ortogonal.