SpeechVerifier: Robust Acoustic Fingerprint against Tampering Attacks via Watermarking

Overview illustration — SpeechVerifier system overview

Abstract

Advances in audio editing have made public speeches vulnerable to malicious tampering, raising concerns about social trust. Existing detection methods remain insufficient: they either rely on external references or fail to balance sensitivity to attacks with robustness against benign operations like compression. To address these challenges, we propose SpeechVerifier, the first learning-based self-contained speech integrity verification framework. SpeechVerifier employs a decoupled fingerprint--watermark architecture: a multiscale feature extractor captures speech characteristics across different temporal resolutions, and contrastive learning generates fingerprints that remain stable under benign operations yet change significantly under malicious tampering. These fingerprints are embedded into the audio via robust watermarking, enabling direct verification without external references. Extensive experiments demonstrate that SpeechVerifier reliably detects tampering while maintaining robustness against common benign operations. Real-world evaluations further confirm its effectiveness in verifying speech integrity.

Real-world dataset examples

Original Audio (Audio1)

Transcript: "The board has decided they can not approve the new budget."

Extracted Fingerprint (FP): 7468815B6F7ABFACCDF3FC214512CEE90F80A807DC8181FA2668AC6E734AA97

Extracted Watermark (WM): 8F568895B6F7ABFACCDF3FC214513CEE90B808807DC89B1BA2668AC7E734AA97

Hamming Distance: 12
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio1, Deletion)

Transcript: "The board has decided they can ~~not~~ approve the new budget."

Extracted Fingerprint (FP): 43A69895B496A2FAFCEF2F02054168A298DCCE8D2C5A98B5B30792A6E32BFE27

Extracted Watermark (WM): 8F5618550A3D5264CDD333C260B4984E490F287566B28A118B68FF14B5FE25DF

Hamming Distance: 131
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio2)

Transcript: "Our analysis shows this investment is not a secure option."

Extracted Fingerprint (FP): 8C4208D4A6FFBBEAFF5F37CA1541AF6D14B10A8455C8BA1BA2668BC3E3F0AE57

Extracted Watermark (WM): 8C4208D4A6DFBBEA7F1F37CA1541BF6D14B10A8455C8BE1BA2668BC3E3F0AA57

Hamming Distance: 6
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio2, Silencing)

Transcript: "Our analysis shows this investment is ~~not~~ a secure option."

Extracted Fingerprint (FP): 3A69A54329EAB3AFEFF6700256500A3309CCA8C2C7A90B5BD0F16E6C1397E26

Extracted Watermark (WM): 8C4208D4A6DFBBEA7F1F37CA1541BF6D14B10A8455C8BE1BA2668BC3E3F0AA57

Hamming Distance: 107
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio3)

Transcript: "Based on the evidence, the suspect is innocent."

Extracted Fingerprint (FP): 77962C15BD47F61A6C94BB6AB01146329479EA27F91ACA16B5243277531FC6C5

Extracted Watermark (WM): 77962C15BD47F61A6C94BB6AB01146329479EA27F91ACA16B5243277531FC2C5

Hamming Distance: 1
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio3, Substitution)

Transcript: "Based on the evidence, the suspect is guilty."

Extracted Fingerprint (FP): 77B62C05BD57F2186CA4BF6AB01146329679EB27F91ACA16B52632FF531BC6C4

Extracted Watermark (WM): 77963BC25DAAAC05007EEFC64D747BC6D17AA89AB864F91A99FB15958B505EC6

Hamming Distance: 123
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio4)

Transcript: "Based on the evidence, the suspect is guilty."

Extracted Fingerprint (FP): 55740D85C697EABE4CDF94EA10F07F9D74BFC9267510AF02B3AED3EB6E819487

Extracted Watermark (WM): D5704FC5C697FBBE48DF94EA10B07F9D74B349827510AF02B2AFD3CB6E859CCF

Hamming Distance: 22
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio4, Substitution)

Transcript: "Based on the evidence, the suspect is innocent."

Extracted Fingerprint (FP): 63C49BD4BC9FA73AFCE7370265F062A23CDCCE0D2C569883BD2F96E7E52B5E36

Extracted Watermark (WM): D570639AFE962EEE2AE7BCAB49A440ED33AF498A30026BDC897033A56B893CAE

Hamming Distance: 118
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio5)

Transcript: "I never said she stole the company's data."

Extracted Fingerprint (FP): 15D41815BC9EAA7E6C8F3F6E00D16E389CBBCD857518D933B326B0E723619787

Extracted Watermark (WM): 35D41815BC9EEA3E6C8F3B6E00D17E38BCB3CD857518D933B326B2E703E19687

Hamming Distance: 11
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio5, Reordering)

Transcript: "She stole the company's data, I never said."

Extracted Fingerprint (FP): 73C41224BCBEA23E6CAF3F66E8F16000BCF7CF05745218B3FB0276E7A72957A7

Extracted Watermark (WM): 35D475F99C9AA792FCF52196C9E96BDE4B2C62EFEF9E3038018B61907D573884

Hamming Distance: 128
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio6)

Transcript: "We will begin the product launch immediately."

Extracted Fingerprint (FP): 14D06C04B4D7EA7E6895BD6690B17E9FD43B49877F588F2BF3EEF36326A1C7CD

Extracted Watermark (WM): 11D02C04B4D7EABE6895B56E90B13E9FD43B49977F588F0BF7EEF36366C5C7CD

Hamming Distance: 15
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio6, Substitution)

Transcript: "We will delay the product launch immediately."

Extracted Fingerprint (FP): 1C704C84DCD66AFE6CDFB46618B17F8EDC6FC90675D82F0BD3ACD9E32E29D585

Extracted Watermark (WM): 11D02C043CC33AA423CCD566BBB9E3EEF5355FA177538C13B7F2503D2EC560EC

Hamming Distance: 100
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio7)

Transcript: "We will delay the product launch immediately."

Extracted Fingerprint (FP): 451409D5C493EBFECCDF34A611F07F8EF4EFCC8E7400CE42A3A699C767A19C93

Extracted Watermark (WM): 411409D5C49363FFCCDF34A611F07F8EF4EFCC8E7400CE02ABA2D9C76FA19C93

Hamming Distance: 9
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio7, Substitution)

Transcript: "We will begin the product launch immediately."

Extracted Fingerprint (FP): 638492D4BC9CA63AFCE72732656160A238DCCECD3C5298B1B827B6A6A52B7EA6

Extracted Watermark (WM): 41142789859B737CCDA1A1D43F9F3E985B85627C6B522B8A116DDFE327E8F79F

Hamming Distance: 121
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio8)

Transcript: "I believe it's a good idea, but we need more time."

Extracted Fingerprint (FP): D8304FC5C493F3BEC8DB94AA08B27F8C74A7CD226510AF0273B9D1CB6AC5948B

Extracted Watermark (WM): D8304FC7C493F3BEC8DB94AA08B27F0C74A7CD226510AF0273B9D1CB6AC5948B

Hamming Distance: 2
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio8, Splicing)

Transcript: "I never said I believe it's a good idea, but we need more time."

Extracted Fingerprint (FP): 614403D4EC93A2BFDCF7352601F0728234EFC40D64149882DBAFD6E7E7A19CB7

Extracted Watermark (WM): D8302AA82482778A4836CD2DBCA848EA5E007C44B8EAE04EAF82E5E14980B5A5

Hamming Distance: 125
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio9)

Transcript: "I never said she stole the company's data."

Extracted Fingerprint (FP): 37D43C85BC56F21A6CA5BF6AA09166129C7BE927FD1A8B33B32632F7030BC7C5

Extracted Watermark (WM): 37D43C85BC57FA1A6C859B6AA09166109C3BE927FD10C923B3263273020BC7C5

Hamming Distance: 15
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio9, Text-to-Speech)

Transcript: "This is authentic audio, not deepfake."

Extracted Fingerprint (FP): 37D43D95BC5EFA1A68959F6AA89166119C3BED247D108F03B32630E702C7C6C5

Extracted Watermark (WM): CFC4CBA54FA5CBA0AF866D846DE0E5A66DE46FA02B804FA46FA54BA449206FA0

Hamming Distance: 135
(Threshold: 42 → Verdict: TAMPERED)

Original Audio (Audio10)

Transcript: "I never said she stole the company's data."

Extracted Fingerprint (FP): 31C11326EC9BEB3F598B3476A8F8745874E7C58D76117D23FAE2F7F3A7E1F5A7

Extracted Watermark (WM): 31C51336EC9BE73F59EB3476A9F870007CE7C58D66157C337AE2F7F3A5A975A7

Hamming Distance: 21
(Threshold: 42 → Verdict: LEGIT)

Tampered Audio (Audio10, Voice Conversion)

Transcript: "I never said she stole the company's data."

Note: Voice Timbre Changed

Extracted Fingerprint (FP): 31C111268CBA6A3E4983B576A0F0BD58DCA7C5857511CD2A73EAF1E307C1D5A7

Extracted Watermark (WM): 6F80678067845FB46BA0F961C9A4EBA441E46FA44FE42DA2FEA16FA0EBA46BC5

Hamming Distance: 126
(Threshold: 42 → Verdict: TAMPERED)

SpeechVerifier: Robust Acoustic Fingerprint against Tampering Attacks via Watermarking

Anonymous Authors

Abstract

Real-world dataset examples