ARDC Research Link Australia

ORCID Profile
Orcid icon. 0000-0002-2706-5985

Current Organisation
The University of Canberra

Does something not look right? The information on this page has been harvested from data sources that may not be up to date. We continue to work with information providers to improve coverage and quality. To report an issue, use the Feedback Form.

Research Topics

In Research Link Australia (RLA), "Research Topics" refer to ANZSRC FOR and SEO codes. These topics are either sourced from ANZSRC FOR and SEO codes listed in researchers' related grants or generated by a large language model (LLM) based on their publications.

ANZSRC Field of Research (FoR)

Information Systems | Pattern Recognition and Data Mining | Computer-Human Interaction

ANZSRC Socio-Economic Objective (SEO)

Expanding Knowledge in the Information and Computing Sciences | Mental Health |

Publications

Publication

Evaluation of spatiotemporal detectors and descriptors for facial expression recognition

Publisher: IEEE

Date: 06-2012

DOI: 10.1109/HSI.2012.16

Publication

Fused Geometry Augmented Images For Analyzing Textured Mesh

Publisher: IEEE

Date: 10-2020

DOI: 10.1109/ICIP40778.2020.9191099

Publication

Striking the Right Balance With Uncertainty

Publisher: IEEE

Date: 06-2019

DOI: 10.1109/CVPR.2019.00019

Publication

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations

Publisher: IEEE

Date: 10-2021

DOI: 10.1109/ICCV48922.2021.01335

Publication

Synthesizing the Unseen for Zero-Shot Object Detection

Publisher: Springer International Publishing

Date: 2021

DOI: 10.1007/978-3-030-69535-4_10

Publication

iTAML: An Incremental Task-Agnostic Meta-learning Approach

Publisher: IEEE

Date: 06-2020

DOI: 10.1109/CVPR42600.2020.01360

Publication

Transformers in Vision: A Survey

Publisher: Association for Computing Machinery (ACM)

Date: 31-01-2022

DOI: 10.1145/3505244

Abstract: Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks, e.g., Long short-term memory. Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text, and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers, i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization), and three-dimensional analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges toward the application of transformer models in computer vision.

Publication

A multimodal system to characterise melancholia: cascaded bag of words approach

Publisher: ACM

Date: 03-11-2017

DOI: 10.1145/3136755.3136766

Publication

Investigating Word Affect Features and Fusion of Probabilistic Predictions Incorporating Uncertainty in AVEC 2017

Publisher: ACM

Date: 23-10-2017

DOI: 10.1145/3133944.3133952

Publication

Scene Categorization with Spectral Features

Publisher: IEEE

Date: 10-2017

DOI: 10.1109/ICCV.2017.601

Publication

A Spatial Layout and Scale Invariant Feature Representation for Indoor Scene Classification

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 10-2016

DOI: 10.1109/TIP.2016.2599292

Publication

Gaussian Affinity for Max-Margin Class Imbalanced Learning

Publisher: IEEE

Date: 10-2019

DOI: 10.1109/ICCV.2019.00657

Publication

GraphITTI: Attributed Graph-based Dominance Ranking in Social Interaction Videos

Publisher: ACM

Date: 09-10-2023

DOI: 10.1145/3610661.3616184

Publication

A two-phase weighted collaborative representation for 3D partial face recognition with single sample

Publisher: Elsevier BV

Date: 04-2016

DOI: 10.1016/J.PATCOG.2015.09.035

Publication

Learned 3D Shape Representations Using Fused Geometrically Augmented Images

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 09-2020

DOI: 10.1109/TCSVT.2020.2984241

Publication

Learning non-linear reconstruction models for image set classification

Publisher: IEEE

Date: 06-2014

DOI: 10.1109/CVPR.2014.246

Publication

Deep reconstruction models for image set classification

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 04-2015

DOI: 10.1109/TPAMI.2014.2353635

Publication

Open-Vocabulary Object Detection via Scene Graph Discovery

Publisher: ACM

Date: 26-10-2023

DOI: 10.1145/3581783.3612407

Publication

Image super-resolution as a defense against adversarial attacks

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 2020

DOI: 10.1109/TIP.2019.2940533

Publication

A discriminative representation of convolutional features for indoor scene recognition

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 07-2016

DOI: 10.1109/TIP.2016.2567076

Publication

Adversarial Training of Variational Auto-Encoders for High Fidelity Image Generation

Publisher: IEEE

Date: 03-2018

DOI: 10.1109/WACV.2018.00148

Publication

Synthesis of a six-bar mechanism for generating knee and ankle motion trajectories using deep generative neural network

Publisher: Elsevier BV

Date: 2023

DOI: 10.1016/J.ENGAPPAI.2022.105500

Publication

Reverse training: An efficient approach for image set classification

Publisher: Springer International Publishing

Date: 2014

DOI: 10.1007/978-3-319-10599-4_50

Publication

Clustering of video-patches on Grassmannian manifold for facial expression recognition from 3D videos

Publisher: IEEE

Date: 2013

DOI: 10.1109/WACV.2013.6475003

Publication

Deeply Supervised Discriminative Learning for Adversarial Defense

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 09-2021

DOI: 10.1109/TPAMI.2020.2978474

Publication

Learning Enriched Features for Real Image Restoration and Enhancement

Publisher: Springer International Publishing

Date: 2020

DOI: 10.1007/978-3-030-58595-2_30

Publication

Heart rate estimation from facial videos for depression analysis

Publisher: IEEE

Date: 10-2017

DOI: 10.1109/ACII.2017.8273645

Publication

Fused Geometry Augmented Images for Analyzing Textured Mesh

Publisher: Springer International Publishing

Date: 2020

DOI: 10.1007/978-3-030-54407-2_1

Publication

An RGB–D based image set classification for robust face recognition from Kinect data

Publisher: Elsevier BV

Date: 2016

DOI: 10.1016/J.NEUCOM.2015.07.027

Publication

Adversarial Defense by Restricting the Hidden Space of Deep Neural Networks

Publisher: IEEE

Date: 10-2019

DOI: 10.1109/ICCV.2019.00348

Publication

An efficient 3D face recognition approach using local geometrical signatures

Publisher: Elsevier BV

Date: 02-2014

DOI: 10.1016/J.PATCOG.2013.07.018

Publication

An automatic framework for textured 3D video-based facial expression recognition

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 07-2014

DOI: 10.1109/TAFFC.2014.2330580

Publication

A Video-Based Facial Behaviour Analysis Approach to Melancholia

Publisher: IEEE

Date: 05-2017

DOI: 10.1109/FG.2017.94

Publication

NTIRE 2021 Challenge for Defocus Deblurring Using Dual-pixel Images: Methods and Results

Publisher: IEEE

Date: 06-2021

DOI: 10.1109/CVPRW53098.2021.00070

Publication

Response to Ghost Numbers

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 10-2018

DOI: 10.1109/TPAMI.2018.2789444

Publication

Regularization of deep neural networks with spectral dropout

Publisher: Elsevier BV

Date: 02-2019

DOI: 10.1016/J.NEUNET.2018.09.009

Abstract: The big breakthrough on the ImageNet challenge in 2012 was partially due to the 'Dropout' technique used to avoid overfitting. Here, we introduce a new approach called 'Spectral Dropout' to improve the generalization ability of deep neural networks. We cast the proposed approach in the form of regular Convolutional Neural Network (CNN) weight layers using a decorrelation transform with fixed basis functions. Our spectral dropout method prevents overfitting by eliminating weak and 'noisy' Fourier domain coefficients of the neural network activations, leading to remarkably better results than the current regularization methods. Furthermore, the proposed is very efficient due to the fixed basis functions used for spectral transformation. In particular, compared to Dropout and Drop-Connect, our method significantly speeds up the network convergence rate during the training process (roughly ×2), with considerably higher neuron pruning rates (an increase of ∼30%). We demonstrate that the spectral dropout can also be used in conjunction with other regularization approaches resulting in additional performance gains.

Publication

Stylized Adversarial Defense

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 2022

DOI: 10.1109/TPAMI.2022.3207917

Publication

Joint Registration and Representation Learning for Unconstrained Face Identification

Publisher: IEEE

Date: 07-2017

DOI: 10.1109/CVPR.2017.169

Publication

On Generating Transferable Targeted Perturbations

Publisher: IEEE

Date: 10-2021

DOI: 10.1109/ICCV48922.2021.00761

Publication

Contractive Rectifier Networks for Nonlinear Maximum Margin Classification

Publisher: IEEE

Date: 12-2015

DOI: 10.1109/ICCV.2015.289

Publication

Cost-Sensitive Learning of Deep Feature Representations From Imbalanced Data

Publisher: Institute of Electrical and Electronics Engineers (IEEE)

Date: 08-2018

DOI: 10.1109/TNNLS.2017.2732482

Publication

Empowering Simple Binary Classifiers for Image Set Based Face Recognition

Publisher: Springer Science and Business Media LLC

Date: 28-02-2017

DOI: 10.1007/S11263-017-1000-3

Publication

Multi-Stage Progressive Image Restoration

Publisher: IEEE

Date: 06-2021

DOI: 10.1109/CVPR46437.2021.01458

Publication

Novel low level local features for 3D expression invariant face recognition

Publisher: IEEE

Date: 12-2012

DOI: 10.1109/ICARCV.2012.6485157

Related Organisations

Organisation

University Of Western Australia

Location: No location found

View Organisation

Organisation

The University Of Canberra

Location: Australia

View Organisation

Organisation

IBM Research - Australia

Location: Australia

View Organisation

Organisation

University Of Western Australia

Location: Australia

View Organisation

Related Funding Activities

Grant

Discovery Early Career Researcher Award - Grant ID: DE200101100

Start Date: 10-2020

End Date: 10-2024

Amount: $425,613.00

Funder: Australian Research Council

View Funded Activity

Grant

Discovery Projects - Grant ID: DP190101294

Start Date: 10-2019

End Date: 12-2024

Amount: $380,000.00

Funder: Australian Research Council

View Funded Activity

Munawar Hayat

Researcher

Research Topics

Top 5 Research Topics

ANZSRC Field of Research (FoR)

ANZSRC Socio-Economic Objective (SEO)

Related Links

Publications

Evaluation of spatiotemporal detectors and descriptors for facial expression recognition

Fused Geometry Augmented Images For Analyzing Textured Mesh

Striking the Right Balance With Uncertainty

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations

Synthesizing the Unseen for Zero-Shot Object Detection

iTAML: An Incremental Task-Agnostic Meta-learning Approach

Transformers in Vision: A Survey

A multimodal system to characterise melancholia: cascaded bag of words approach

Investigating Word Affect Features and Fusion of Probabilistic Predictions Incorporating Uncertainty in AVEC 2017

Scene Categorization with Spectral Features

A Spatial Layout and Scale Invariant Feature Representation for Indoor Scene Classification

Gaussian Affinity for Max-Margin Class Imbalanced Learning

GraphITTI: Attributed Graph-based Dominance Ranking in Social Interaction Videos

A two-phase weighted collaborative representation for 3D partial face recognition with single sample

Learned 3D Shape Representations Using Fused Geometrically Augmented Images

Learning non-linear reconstruction models for image set classification

Deep reconstruction models for image set classification

Open-Vocabulary Object Detection via Scene Graph Discovery

Image super-resolution as a defense against adversarial attacks

A discriminative representation of convolutional features for indoor scene recognition

Adversarial Training of Variational Auto-Encoders for High Fidelity Image Generation

Synthesis of a six-bar mechanism for generating knee and ankle motion trajectories using deep generative neural network

Reverse training: An efficient approach for image set classification

Clustering of video-patches on Grassmannian manifold for facial expression recognition from 3D videos

Deeply Supervised Discriminative Learning for Adversarial Defense

Learning Enriched Features for Real Image Restoration and Enhancement

Heart rate estimation from facial videos for depression analysis

Fused Geometry Augmented Images for Analyzing Textured Mesh

An RGB–D based image set classification for robust face recognition from Kinect data

Adversarial Defense by Restricting the Hidden Space of Deep Neural Networks

An efficient 3D face recognition approach using local geometrical signatures

An automatic framework for textured 3D video-based facial expression recognition

A Video-Based Facial Behaviour Analysis Approach to Melancholia

NTIRE 2021 Challenge for Defocus Deblurring Using Dual-pixel Images: Methods and Results

Response to Ghost Numbers

Regularization of deep neural networks with spectral dropout

Stylized Adversarial Defense

Joint Registration and Representation Learning for Unconstrained Face Identification

On Generating Transferable Targeted Perturbations

Contractive Rectifier Networks for Nonlinear Maximum Margin Classification

Cost-Sensitive Learning of Deep Feature Representations From Imbalanced Data

Empowering Simple Binary Classifiers for Image Set Based Face Recognition

Multi-Stage Progressive Image Restoration

Novel low level local features for 3D expression invariant face recognition

Related Organisations

University Of Western Australia

The University Of Canberra

IBM Research - Australia

University Of Western Australia

Related Funding Activities

Discovery Early Career Researcher Award - Grant ID: DE200101100

Discovery Projects - Grant ID: DP190101294

ARDC NEWSLETTER SIGNUP