Um campo interdisciplinar da ciência que permite aos computadores ver, identificar e processar imagens da mesma forma que o olho humano, a tecnologia de Visão por Computador (CV) está a transformar rapidamente o panorama do retalho. Três especialistas da Trax apresentam-nos o futuro das aplicações baseadas na CV no retalho.

Os nossos especialistas em Trax

Sabemos que o CV é inspirado no córtex visual humano. Estaremos numa fase em que as máquinas estão ao mesmo nível ou são ainda melhores na deteção ou classificação de objectos do que a visão humana?

Ziv: Sem dúvida. De facto, nalgumas tarefas, conseguimos atingir níveis sobre-humanos de visão com os computadores. Por exemplo, no famoso desafio desafio ImageNet, alimenta-se um sistema com milhares de classes de objectos, como "navio porta-contentores", "ácaro", "cogumelo" ou "cereja", e o computador tem de classificar as imagens em cada uma dessas classes. E o que temos visto é que a precisão dos melhores candidatos na competição melhorou drasticamente - de cerca de 74% em 2012 para 95% em 2017.

Em termos simples, isto significa que os computadores estão a ficar melhores do que os humanos na classificação correta de objectos como este.

O olho humano sofre de certos preconceitos inatos, muitas vezes como resultado de séculos de tendências de procura de padrões por parte dos nossos antepassados. Poderão as máquinas ser treinadas para serem infalíveis?

Dolev: Os sistemas CV não são, de facto, infalíveis. Tal como as ilusões de ótica que confundem o cérebro humano, os sistemas de CV também podem ser enganados utilizando "imagens adversárias". Trata-se de padrões e imagens que exploram as fraquezas dos algoritmos de CV para os enganar, fazendo-os confundir um panda com um gibão ou um gato com guacamole. De facto, uma equipa de estudantes do MIT publicou um estudo em 2017 que mostrava como podiam enganar um sistema para que classificasse erradamente uma fotografia de uma tartaruga impressa em 3D como uma espingarda!

Os agentes maliciosos podem utilizar este facto para causar danos, como manipular as ferramentas de reconhecimento facial para que reconheçam as pessoas erradas ou para atacar os sistemas CV que permitem a condução autónoma dos automóveis. Por exemplo, uma pequena mancha na berma da autoestrada pode fazer com que um carro autónomo pense que está a olhar para um sinal de stop.

Quais são algumas das aplicações da visão computacional na vida real que o entusiasmam?

Ziv: Muitas aplicações estavam bloqueadas antes da aprendizagem profunda, com apenas pequenas melhorias na precisão - cerca de 0,3 por cento por ano. Mas com os avanços na aprendizagem profunda, a CV deu um grande salto em frente, resultando em muitas aplicações inter-sectoriais.

A indústria dos veículos autónomos está a fervilhar de atividade com a entrada no mercado de uma série de grandes fabricantes e gigantes da tecnologia. Com base no nível de autonomia oferecido, os veículos autónomos dividem-se em cinco fases, desde os veículos de Nível 1, que exigem um envolvimento significativo do condutor humano, até ao Nível 5 - veículos totalmente autónomos. A maioria dos actuais veículos de condução autónoma enquadra-se no Nível 4, em que a condução autónoma é possível, mas dentro de rotas pré-mapeadas.

Yair: A indústria da defesa continua a ser, sem dúvida, o utilizador mais dominante destas tecnologias. É muito comum ver países a utilizar sensores e drones equipados com câmaras num ambiente de campo de batalha para desenvolver estratégias de combate mais seguras e proteger os soldados.

Uma utilização menos conhecida, mas com grande impacto, da CV é a análise e monitorização de culturas na agricultura. Utilizando drones com câmaras, os agricultores podem captar imagens do campo para detetar a saúde das culturas, infestações de pragas e outras deficiências que possam afetar o rendimento da colheita.

Dolev: Mas é pelo retalho que estamos obcecados! Utilizamos o CV para captar imagens das prateleiras para analisar produtos individuais. O Trax ajuda a digitalizar as prateleiras para reduzir os tempos de auditoria dos representantes de vendas e traduz as imagens em dados para as equipas de gestão de categorias, de marketing de compradores e de planeamento de espaços, para reduzir as rupturas de stock, melhorar a distribuição e ganhar quota de mercado em relação à concorrência.

O CV tornar-se-á uma mercadoria?

Yair: A aprendizagem profunda tornou algumas aplicações da visão computacional mais acessíveis. Reconhecer um objeto no telemóvel deixou de ser algo que só as grandes empresas conseguem fazer. Toda a gente pode utilizar código de fonte aberta, conjuntos de dados públicos e treinar um sistema muito facilmente. Estes podem fornecer um nível muito razoável de precisão no reconhecimento de objectos.

Grandes empresas como a Google, o Facebook, a Microsoft e a Amazon poderão em breve oferecer soluções de CV prontas a utilizar para as principais aplicações. Mas se quisermos desenvolver algo novo ou de nicho ou levar as capacidades de uma aplicação para o nível seguinte, precisamos de capacidades de nicho.

Ziv: Tomemos como exemplo o sector do retalho. Embora os algoritmos de reconhecimento de imagem avançados de hoje em dia sejam capazes de reconhecer objectos numa imagem com grande precisão, o processo torna-se muito mais complexo num ambiente de retalho.

Aqui, temos propriedades que não são comuns - ambientes lotados, SKUs em constante mudança, produtos quase idênticos ou semelhantes. Assim, uma plataforma de reconhecimento de imagem automatizada deve ser capaz de satisfazer determinados critérios-chave para garantir um elevado nível de precisão - a capacidade de distinguir vários produtos com um aspeto quase idêntico, ultrapassar embalagens obscuras e reflectoras em condições de fraca luminosidade e detetar alterações no ciclo de vida do produto, como novas versões de design.

Exemplo de diferenças na embalagem de uma garrafa de 1L de Coca-Cola Clássica

O que podemos esperar do Trax - em que aplicações interessantes estão a trabalhar? 

Dolev: Uma aplicação que nos entusiasma bastante é o Store Mapper. Utiliza o reconhecimento de imagem para mapear lojas físicas de retalho e digitalizá-las num mapa 2D. Os compradores podem utilizar uma aplicação nos seus telemóveis para serem direcionados para os corredores corretos utilizando guias de localização baseados em AR, para serem direcionados para promoções baseadas na localização e para serem alertados para quaisquer artigos que estejam a esgotar. A digitalização de um produto no telemóvel abre a sua informação e valor nutricional, enquanto um assistente virtual ajuda os compradores a adicionar e acompanhar as suas listas.

Para saber mais sobre como a Visão por Computador evoluiu dos laboratórios de investigação de estudantes para encontrar aplicações úteis em todos os sectores, descarregue o nosso livro eletrónico O passado, o presente e o futuro da visão computacional.