class: center, middle, inverse, title-slide .title[ # Apresentação da disciplina ] .subtitle[ ## Introdução à análise de dados e conhecendo o R ] .author[ ### Renata Oliveira ] --- layout: true <div class="my-footer"> <span> <a href="https://places.education" target="_blank">https://places.education</a> </span> </div> --- # Análise de dados aplicada ao Processo Decisório .midi[ + Vamos explorar conceitos, fundamentos e desenvolver habilidades de `análise de dados` para `suporte à tomada de decisão`. + FOCO nas informações mais importantes sobre o comportamento de seus clientes, clientes potenciais, externalidades, bem estar organizacional dentre outras dimensões. + Dados x Informações + Big data - combinação de dados caracterizados por volume, variedade e velocidade em que são processados. + Small data - análise de um conjunto de dados com um volume e um formato reduzido que fazem com que esses sejam acessíveis, processáveis e compreensíveis. + Wide data - análise dos registros por meio da sinergia de diversas fontes de dados (pequenas ou grandes) não-estruturados e estruturados. ] --- ## Ciência de dados <img src="https://retaoliveira.github.io/relements/figures/CienciaDeDados.png" width="100%" style="display: block; margin: auto;" /> --- ## Modelo conceitual da análise de dados ![Modelo de Data Science](https://retaoliveira.github.io/relements/figures/dataR.png) --- ## Modelo conceitual da análise de dados ![Data Science in a Box](https://retaoliveira.github.io/relements/figures/dsbox-ds.png) --- ## Data Wrangling <img src="https://retaoliveira.github.io/relements/figures/data_cowboy.png" width="80%" style="display: block; margin: auto;" /> --- ## Análise de dados serve para que? + Caracterização dos fenômenos e descrição dos problemas + Diagnóstico + Modelagem preditiva + Comunicação e processo decisório --- class: inverse, center, middle # Sairemos deste curso com mais perguntas do que respostas! --- class: inverse, center, middle # O que é o R? --- ## Conhecendo o R ### Interface e funcionalidades Para uso do R no ambiente RStudio, é inicialmente necessário entender o seu funcionamento. O R é uma linguagem de programação, em plataforma open source, desenvolvida para análise de dados. SEJAM BEM VINDOS! <img src="https://retaoliveira.github.io/relements/figures/welcome_to_rstats_twitter.png" width="30%" style="display: block; margin: auto;" /> --- ### Interface e funcionalidades Em um primeiro momento, o conjunto R + RStudio parece pouco amigável, mas com o tempo, é impossível não apaixonar-se pelas infinitas possibilidades que temos ao utilizar o R. <img src="https://retaoliveira.github.io/relements/figures/r_first_then.png" width="30%" style="display: block; margin: auto;" /> --- ### Interface e funcionalidades A comunidade do R é bastante ampla e colaborativa. Assim: BUSQUE AJUDA!!!!! <img src="https://retaoliveira.github.io/relements/figures/code_hero_rstats.png" width="50%" style="display: block; margin: auto;" /> --- class: inverse, center, middle # Documentos reprodutíveis --- ## O que é Markdown? Segundo o criador da linguagem: > Markdown is a text-to-HTML conversion tool for web writers. Markdown allows you to write using an easy-to-read, easy-to-write plain text format, then convert it to structurally valid XHTML (or HTML). > > John Gruber --- class: inverse, middle # Por que markdown? Algo que... você possa escrever em **texto simples** Algo que... seja **legível por pessoas** Algo que... permita a **formatação** Algo que... seja possível construir para algo **bonito** --- ## Rmarkdown Vou colocar aqui algumas informações-chave sobre a construção geral de informações a partir do uso do RMarkdown. Entretanto, informações adicionais podem ser obtidas de maneira detalhada no site: + [Documentos dinâmicos no R by Fernando Mayer & Walmes Zeviani](http://cursos.leg.ufpr.br/prr/capDocDin.html) --- ### Seções e subseções Para demarcar seções e subseções, utilize os `hashtags`. ### Listas e ordenação Basta enumerar: 1. Item 1 2. Item 2 --- ![Figura 1: RMarkdown](https://retaoliveira.github.io/relements/figures/rmarkdown_rockstar.png) --- ## `YAML` (Yet Another Markup Language) No `YAML`, os dados são escritos em forma de lista aninhada. Os metadados em `YAML` são colocados sempre no início de um documento, e são delimitados por `---`. `knitr` Na [galeria do RStudio](https://rmarkdown.rstudio.com/gallery.html) diferentes estruturas de informação produzida por meio de `RMarkdown` podem ser encontradas! --- <img src="https://retaoliveira.github.io/relements/figures/allison_horst/knitr.png" width="60%" style="display: block; margin: auto;" /> --- ## RPubs No RStudio, crie um novo documento `R Markdown` escolhendo `Arquivo | Novo | R Markdown`. Clique no botão `Knit HTML` na barra de ferramentas do doc para visualizar seu documento. Na janela de pré-visualização, clique no botão `Publicar`. É um processo em duas etapas. Na primeira etapa, você precisa registrar uma conta `RPubs` ou fazer o login, caso já tenha uma. Você escreve o título de seu documento e dá uma breve descrição (para que outros possam encontrar seu trabalho a partir da busca). Uma vez terminado e clicando no botão `Continue` na parte inferior, você irá diretamente para o artigo publicado. Você pode optar por atualizar seu conteúdo. --- .pull-left[ <img src="https://retaoliveira.github.io/relements/figures/allison_horst/html.png" width="50%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="https://retaoliveira.github.io/relements/figures/allison_horst/toc.png" width="50%" style="display: block; margin: auto;" /> ] --- ## Variáveis, funções e *packages* Sua estrutura fundamenta-se em uma grande variedade de ferramentas quantitativas, organizadas por meio de **objetos**, **funções** e **packages**. A instalação `base` do R já contempla uma série de funções e *packages*. *Packages* adicionais podem ser instalados quando for necessário ou interessante. Para instalação de *packages*, utiliza-se a função `install.packages()`. --- class: inverse, center, middle # Sua vez!!!!!! ## 5 MINUTOS! --- # Abra e rode um documento em RMarkdown! 1. Salve o [arquivo](https://cefetmgbr-my.sharepoint.com/:u:/g/personal/renataoliveira_cefetmg_br/ESP5b0WfqYJFplhjSRiciG0BNKQZnv2HzbHnPBxZEBr3Ew?e=gVcWCQ) em um diretório que você consiga acessar depois. Sugiro criar um diretório para essa finalidade. 2. Abra o arquivo no RStudio: `File | Open File` e navegue até o arquivo `01-covid.Rmd` selecionando-o. 3. Você identificará o arquivo por meio do `YAML` com `title: "Mortes por COVID-19"` 4. Verifique se houve alguma mensagem abaixo da barra de ferramentas da janela de edição do `RMarkdown` para que sejam instalados `packages` necessários para rodar esse `.Rmd` 4. Clique no botão de `knitr`. Aprecie o documento! --- # Faça o seu primeiro documento em RMarkdown! 1. Instale o pacote `knitr` (use a interface de instalação do RStudio) 2. Gere o seu primeiro arquivo RMarkdown. Escolha o tipo de arquivo que quer gerar. Crie pelo menos três tipos de documentos .Rmd e tente apropriar o mesmo conteúdo em todos eles. Quais desafios encontrou quanto às diferenças de formação? > Dica 1: use o botão de `knitr`. > Dica 2: você pode criar documentos com diferentes temas de maneira automática usando uma função no cabeçalho `YAML`. Possible themes: default, cerulean, journal, flatly, darkly, readable, spacelab, united, cosmo, lumen, paper, sandstone, simplex, yeti > Dica 3: Table of contents 3. Clique no botão de `knitr` a cada documento que será salvo no seu computador como `.Rmd` . --- class: center, middle # Aprecie seus primeiros documentos! .center[ ### DESAFIO: Tente publicá-los no RPubs! ] --- class: inverse, center, middle ## Vamos falar sobre o projeto integrador? --- ### O que é o projeto integrador? Este projeto será desenvolvido ao longo de toda a disciplina e deve ser relacionado com cada unidade de ensino. Seu conteúdo deve ser estruturado seguindo normas cultas de linguagem, clareza em relação ao problema em investigação e aos objetivos propostos. Consideraremos três dimensões para construção do projeto integrador: - Situações-problemas: a aprendizagem deve ser iniciada com situações reais e do cotidiano. A ideia é criar um olhar investigativo para o mundo e produzir conhecimento pela análise de dados. - Conteúdos interdisciplinares e práticos: rompe com as fronteiras tradicionais do conhecimento, ao passo que relaciona disciplinas e até mesmo promove a articulação de áreas. Além disso, a produção de conhecimento do projeto integrador deve ser aplicável em situações reais. - Trabalho coletivo: desenvolve as habilidades dos alunos para trabalhar em equipe. --- ### Etapas essenciais para desenvolvimento de um projeto de suporte à decisão que contemple análise de dados 1. Definição do problema 2. Coleta de dados 3. Limpeza e transformação de dados 4. Representação dos dados 5. Análise dos dados 6. Modelagem dos dados 7. Otimização e implementação do modelo 8. Comunicação da análise, discussão e resultados Nesse projeto, em função da natureza da disciplina que tem como objetivo proporcionar aos estudantes competências para realização de análise exploratória de dados, as etapas 6 e 7 não serão exploradas no projeto integrador. --- ## Ideias para desenvolvimento do projeto integrador 1. Análise de Sentimento 2. Análise de dados de Uber ou de dados de mobilidade da Google e da Apple 3. Sistema de Recomendação de Filmes 4. Segmentação de clientes 5. Predição de Preferência de Vinho 6. Análise da adesão ao distanciamento social como medidas não farmacológicas de contenção da difusão do COVID-19 7. Análise do Legislativo Brasileiro --- ## Rubrica de avaliação - `90%-100% `- **Esforço notável**. O estudante compreende como aplicar os fundamentos considerados na análise, pode argumentar de maneira consistente, pode identificar fraquezas no argumento e pode comunicar claramente os resultados. - `80%-89%` - **Bom esforço**. O estudante compreende a maioria dos conceitos, reúne um argumento adequado, identifica alguns pontos fracos de seu argumento e comunica claramente a maioria dos resultados aos outros. - `70%-79%` - **Esforço para aprovação**. O estudante tem uma má compreensão dos conceitos em diversas áreas, tem alguma dificuldade em juntar resultados em um argumento convincente, e a comunicação dos resultados às vezes não é clara. - `60%-69%` - **Esforço limítrofe**. O estudante está fazendo algum esforço, mas tem uma má compreensão de muitos conceitos e é incapaz de montar um argumento convincente. A comunicação dos resultados não é clara. - `Abaixo de 60%` - O estudante não está fazendo um esforço suficiente. --- class: middle, center .center[ # ENGAJAMENTO! ] --- class: inverse, center, middle # DÚVIDAS?