Hm.. ist jetzt die frage ob es ein realistischer Bankräuber oder ein Trickfilm-Bankräuber sein soll... für realistisch ist der mir zu sehr angezogene Handbremse, Stimme zu gepresst, ohne Durchschlagskraft. So überdeutlich im gleichen Rhythmus und schön verständlich würde jemand in der Situation auch vermutlich eher nicht sprechen.
Wirkt für mich noch sehr nach "Text der Reihe nach wiedergeben". Versuch doch mal das ganze filmisch in deinem Kopf zu sehen und mitzuspielen was da passiert. Wo ist dein Focus, wann verändert er sich?
Insbesondere da wo du erst mit dem Angestellten sprichst und dich dann nochmal an die verängstigten Leute wendest - das ist ein Moment wo man erst konkret an eine Person gerichtet ist, sich dann aber an alle wendet OHNE aber einen Großteil der Konzentration auf die eine Person die man in Schach halten will und die nahe bei einem steht und daher gefährlich werden kann zu verlieren. So was überträgt sich in die Körperbewegung und damit auch in die Stimme.
Auch kommst du am Anfang rein, du brauchst Aufmerksamkeit, es rechnet ja keiner mit dir. Du sprichst alle an, aus Entfernung, über eine große Distanz. Den Mitarbeiter hingegen hast du vermutlich relativ nahe bei dir. Auch so was verändert die Stimme immens.