# Octoparse

[**Octoparse**](https://www.octoparse.com/) é uma ferramenta de extração de dados. Ela permite raspar dados públicos sem programação e contornar a maioria dos mecanismos anti-scraping ao habilitar rotação automática de IP e tempo de sessão estendido.

Para integrar o Octoparse com a Oxylabs [**Mobile Proxies**](https://developers.oxylabs.io/documentation/pt-br/proxies/mobile-proxies)**,** siga os passos abaixo:

**Passo 1.** [**Página de Download**](https://www.octoparse.com/download/mac), instale e então abra o Octoparse.

**Passo 2.** Crie uma nova tarefa clicando no **+New** botão no canto superior esquerdo e escolhendo **Custom Task.**

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FOASotcWXDgZc9Zf0adBf%2Fimage.png?alt=media&#x26;token=c801d381-0359-41c9-9354-3722a7bd980f" alt=""><figcaption></figcaption></figure>

**Passo 3.** Digite a URL da página da qual pretende extrair dados no **URL Input** e clique no **Salvar** botão. Usaremos [**Oxylabs scraping sandbox**](https://sandbox.oxylabs.io/products/category/pc) como exemplo.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FjcshbPydXM2kuVWyX7aS%2Fimage.png?alt=media&#x26;token=771cab36-7a87-4732-834c-68f5273a60ae" alt=""><figcaption></figcaption></figure>

**Passo 4.** Após a URL selecionada carregar, vá em **Task Settings** **>** **Anti-blocking**.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FbR9HzXGrZaI4b6kQxoX8%2Fimage.png?alt=media&#x26;token=a596d0f0-e129-465a-81c1-18f3e5426773" alt=""><figcaption></figcaption></figure>

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBrIykjKRGnuhvocBIhkF%2Fimage.png?alt=media&#x26;token=74658860-820a-4ba9-a69b-a40bd654764c" alt=""><figcaption></figcaption></figure>

**Passo 5.** Agora, marque **Access websites via proxies**, habilite **Use my own proxies,** e clique **Configure**.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FY7vAMQj9IgqsXBc6wedz%2Fimage.png?alt=media&#x26;token=e1545490-f2ec-4e1a-a8f0-9ecebf3b0f95" alt=""><figcaption></figcaption></figure>

**Passo 6.** Quando você clicar no **Configure** botão, uma janela pop-up aparecerá. Especifique os detalhes do proxy no seguinte formato: `IP/host:port:username:password`.

Por exemplo, se você quiser usar nosso **Mobile Proxies**, você pode usar:&#x20;

**IP/host:** `pr.oxylabs.io`

**Porta:** `7777`

**Nome de usuário:** `nome de usuário do usuário de proxy da Oxylabs`

**Senha:** `senha do usuário de proxy da Oxylabs`

{% hint style="info" %}
Você também pode usar entradas específicas por país. Por exemplo, inserir ie-pr.oxylabs.io em **IP/host** e 25000 em **Porta** adquirirá um nó de saída irlandês. Consulte [**esta página**](https://developers.oxylabs.io/documentation/pt-br/proxies/integration-guides/3rd-party-integrations-1/broken-reference) para uma lista completa de nós de entrada específicos por país ou, se precisar de uma sessão sticky, verifique [**aqui**](https://developers.oxylabs.io/documentation/pt-br/proxies/mobile-proxies/session-control/sticky-proxy-entry-nodes).
{% endhint %}

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FHf5fn8MdxZ8mI0oqTyQc%2Fimage.png?alt=media&#x26;token=bab4c9b9-8a2b-4812-b1df-9cd682464bb2" alt=""><figcaption></figcaption></figure>

**Passo 7.** Configure o **Switch** intervalo dependendo se você usa um tipo de sessão rotativa ou sticky.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FZkDFgfJjw24p7ulqOi6Y%2Fimage.png?alt=media&#x26;token=112fa9c5-aa39-4b88-98c8-34a4a0bc44f4" alt=""><figcaption></figcaption></figure>

**Passo 8.** Salve as alterações clicando no **Confirmar** botão e, depois disso, clique em **Salvar**.

Os proxies agora estão configurados.

### Como começar a raspar usando o Octoparse

**Passo 1.** Selecione os elementos desejados (títulos de videogame) que você quer raspar. Para extrair todos os elementos da mesma categoria, escolha **Select all similar elements** e especifique **Text**.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FfyDOxHF9Rwiykgaqq39J%2Fimage.png?alt=media&#x26;token=bb062011-d5f8-43f2-a657-c40757a633e7" alt=""><figcaption></figcaption></figure>

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FyWKGstGkoyJxCGz3fv3h%2Fimage.png?alt=media&#x26;token=586b6537-0670-4575-b2ef-4ff464253263" alt=""><figcaption></figcaption></figure>

**Passo 2.**  Configure a paginação para raspar várias páginas. Este site em particular usa páginas numeradas, o que exige que você escolha **Next page button**.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FsavnBgJZHBfLkLZKlUEn%2Fimage.png?alt=media&#x26;token=1e3789ae-dc17-4fa4-86d6-965e30b35f99" alt=""><figcaption></figcaption></figure>

**Passo 3.** Escolha o botão exato no layout da página que abre a página seguinte – **Forward** – para automatizar a paginação.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FFvu6T1cOoHvwgpej0ew9%2Fimage.png?alt=media&#x26;token=eccfb543-ac52-4d7c-b0f8-517c5ef98cae" alt=""><figcaption></figcaption></figure>

**Passo 4.** Complete a configuração de scraping e pressione **▶Run**.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FS0ymvWpg7l76UMre1wLj%2Fimage.png?alt=media&#x26;token=1dd1e7a2-ae2e-4a12-8fea-6310f55a5ca0" alt=""><figcaption></figcaption></figure>

**Passo 5.** Escolha **Executar no seu dispositivo** com **Standard Mode** para receber os dados como um arquivo no seu PC.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2Fr0GbumJhU3B03PYHDHz0%2Fimage.png?alt=media&#x26;token=ba9ca5c8-1c7c-499a-b863-5122e73977d9" alt=""><figcaption></figcaption></figure>

**Passo 6.** Deixe o processo de scraping rodar até a conclusão. O processo terminará quando a página final do produto for atingida ou quando você o parar manualmente.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FSxs5Q8lqzG1TIBP3UxmR%2Fimage.png?alt=media&#x26;token=4ea023cf-9f09-49d4-8c02-bba1a02f9b5f" alt=""><figcaption></figcaption></figure>

**Passo 7.** Extraia os dados coletados e selecione o formato de arquivo.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FmbyRXUBbO5NeshJPmhEq%2Fimage.png?alt=media&#x26;token=7efc381e-166d-4050-85e2-555720a33efc" alt=""><figcaption></figcaption></figure>

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FBLNiM8AtJmcGhIIIfEzP%2Fimage.png?alt=media&#x26;token=0d06e382-e5f5-4ed1-bb69-e1b4de2106b8" alt=""><figcaption></figcaption></figure>

Aqui está o resultado final em uma planilha.

<figure><img src="https://1214208351-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FzrXw45naRpCZ0Ku9AjY1%2Fuploads%2FTayQvSsNcuJcQr8lQAD1%2Fimage.png?alt=media&#x26;token=895acab6-2253-4509-99ac-569253e483f0" alt=""><figcaption></figcaption></figure>

É isso — você está tudo pronto e pode se concentrar nas suas tarefas de web scraping com o Octoparse.
