chacha-armv4.S 29 KB


  1. // This file is generated from a similarly-named Perl script in the BoringSSL
  2. // source tree. Do not edit by hand.
  3. #if !defined(__has_feature)
  4. #define __has_feature(x) 0
  5. #endif
  6. #if __has_feature(memory_sanitizer) && !defined(OPENSSL_NO_ASM)
  7. #define OPENSSL_NO_ASM
  8. #endif
  9. #if !defined(OPENSSL_NO_ASM)
  10. #if defined(__arm__)
  11. #if defined(BORINGSSL_PREFIX)
  12. #include <boringssl_prefix_symbols_asm.h>
  13. #endif
  14. #include <openssl/arm_arch.h>
  15. @ Silence ARMv8 deprecated IT instruction warnings. This file is used by both
  16. @ ARMv7 and ARMv8 processors and does not use ARMv8 instructions.
  17. .arch armv7-a
  18. .text
  19. #if defined(__thumb2__) || defined(__clang__)
  20. .syntax unified
  21. #endif
  22. #if defined(__thumb2__)
  23. .thumb
  24. #else
  25. .code 32
  26. #endif
  27. #if defined(__thumb2__) || defined(__clang__)
  28. #define ldrhsb ldrbhs
  29. #endif
  30. .align 5
  31. .Lsigma:
  32. .long 0x61707865,0x3320646e,0x79622d32,0x6b206574 @ endian-neutral
  33. .Lone:
  34. .long 1,0,0,0
  35. #if __ARM_MAX_ARCH__>=7
  36. .LOPENSSL_armcap:
  37. .word OPENSSL_armcap_P-.LChaCha20_ctr32
  38. #else
  39. .word -1
  40. #endif
  41. .globl ChaCha20_ctr32
  42. .hidden ChaCha20_ctr32
  43. .type ChaCha20_ctr32,%function
  44. .align 5
  45. ChaCha20_ctr32:
  46. .LChaCha20_ctr32:
  47. ldr r12,[sp,#0] @ pull pointer to counter and nonce
  48. stmdb sp!,{r0,r1,r2,r4-r11,lr}
  49. #if __ARM_ARCH__<7 && !defined(__thumb2__)
  50. sub r14,pc,#16 @ ChaCha20_ctr32
  51. #else
  52. adr r14,.LChaCha20_ctr32
  53. #endif
  54. cmp r2,#0 @ len==0?
  55. #ifdef __thumb2__
  56. itt eq
  57. #endif
  58. addeq sp,sp,#4*3
  59. beq .Lno_data
  60. #if __ARM_MAX_ARCH__>=7
  61. cmp r2,#192 @ test len
  62. bls .Lshort
  63. ldr r4,[r14,#-32]
  64. ldr r4,[r14,r4]
  65. # ifdef __APPLE__
  66. ldr r4,[r4]
  67. # endif
  68. tst r4,#ARMV7_NEON
  69. bne .LChaCha20_neon
  70. .Lshort:
  71. #endif
  72. ldmia r12,{r4,r5,r6,r7} @ load counter and nonce
  73. sub sp,sp,#4*(16) @ off-load area
  74. sub r14,r14,#64 @ .Lsigma
  75. stmdb sp!,{r4,r5,r6,r7} @ copy counter and nonce
  76. ldmia r3,{r4,r5,r6,r7,r8,r9,r10,r11} @ load key
  77. ldmia r14,{r0,r1,r2,r3} @ load sigma
  78. stmdb sp!,{r4,r5,r6,r7,r8,r9,r10,r11} @ copy key
  79. stmdb sp!,{r0,r1,r2,r3} @ copy sigma
  80. str r10,[sp,#4*(16+10)] @ off-load "rx"
  81. str r11,[sp,#4*(16+11)] @ off-load "rx"
  82. b .Loop_outer_enter
  83. .align 4
  84. .Loop_outer:
  85. ldmia sp,{r0,r1,r2,r3,r4,r5,r6,r7,r8,r9} @ load key material
  86. str r11,[sp,#4*(32+2)] @ save len
  87. str r12, [sp,#4*(32+1)] @ save inp
  88. str r14, [sp,#4*(32+0)] @ save out
  89. .Loop_outer_enter:
  90. ldr r11, [sp,#4*(15)]
  91. ldr r12,[sp,#4*(12)] @ modulo-scheduled load
  92. ldr r10, [sp,#4*(13)]
  93. ldr r14,[sp,#4*(14)]
  94. str r11, [sp,#4*(16+15)]
  95. mov r11,#10
  96. b .Loop
  97. .align 4
  98. .Loop:
  99. subs r11,r11,#1
  100. add r0,r0,r4
  101. mov r12,r12,ror#16
  102. add r1,r1,r5
  103. mov r10,r10,ror#16
  104. eor r12,r12,r0,ror#16
  105. eor r10,r10,r1,ror#16
  106. add r8,r8,r12
  107. mov r4,r4,ror#20
  108. add r9,r9,r10
  109. mov r5,r5,ror#20
  110. eor r4,r4,r8,ror#20
  111. eor r5,r5,r9,ror#20
  112. add r0,r0,r4
  113. mov r12,r12,ror#24
  114. add r1,r1,r5
  115. mov r10,r10,ror#24
  116. eor r12,r12,r0,ror#24
  117. eor r10,r10,r1,ror#24
  118. add r8,r8,r12
  119. mov r4,r4,ror#25
  120. add r9,r9,r10
  121. mov r5,r5,ror#25
  122. str r10,[sp,#4*(16+13)]
  123. ldr r10,[sp,#4*(16+15)]
  124. eor r4,r4,r8,ror#25
  125. eor r5,r5,r9,ror#25
  126. str r8,[sp,#4*(16+8)]
  127. ldr r8,[sp,#4*(16+10)]
  128. add r2,r2,r6
  129. mov r14,r14,ror#16
  130. str r9,[sp,#4*(16+9)]
  131. ldr r9,[sp,#4*(16+11)]
  132. add r3,r3,r7
  133. mov r10,r10,ror#16
  134. eor r14,r14,r2,ror#16
  135. eor r10,r10,r3,ror#16
  136. add r8,r8,r14
  137. mov r6,r6,ror#20
  138. add r9,r9,r10
  139. mov r7,r7,ror#20
  140. eor r6,r6,r8,ror#20
  141. eor r7,r7,r9,ror#20
  142. add r2,r2,r6
  143. mov r14,r14,ror#24
  144. add r3,r3,r7
  145. mov r10,r10,ror#24
  146. eor r14,r14,r2,ror#24
  147. eor r10,r10,r3,ror#24
  148. add r8,r8,r14
  149. mov r6,r6,ror#25
  150. add r9,r9,r10
  151. mov r7,r7,ror#25
  152. eor r6,r6,r8,ror#25
  153. eor r7,r7,r9,ror#25
  154. add r0,r0,r5
  155. mov r10,r10,ror#16
  156. add r1,r1,r6
  157. mov r12,r12,ror#16
  158. eor r10,r10,r0,ror#16
  159. eor r12,r12,r1,ror#16
  160. add r8,r8,r10
  161. mov r5,r5,ror#20
  162. add r9,r9,r12
  163. mov r6,r6,ror#20
  164. eor r5,r5,r8,ror#20
  165. eor r6,r6,r9,ror#20
  166. add r0,r0,r5
  167. mov r10,r10,ror#24
  168. add r1,r1,r6
  169. mov r12,r12,ror#24
  170. eor r10,r10,r0,ror#24
  171. eor r12,r12,r1,ror#24
  172. add r8,r8,r10
  173. mov r5,r5,ror#25
  174. str r10,[sp,#4*(16+15)]
  175. ldr r10,[sp,#4*(16+13)]
  176. add r9,r9,r12
  177. mov r6,r6,ror#25
  178. eor r5,r5,r8,ror#25
  179. eor r6,r6,r9,ror#25
  180. str r8,[sp,#4*(16+10)]
  181. ldr r8,[sp,#4*(16+8)]
  182. add r2,r2,r7
  183. mov r10,r10,ror#16
  184. str r9,[sp,#4*(16+11)]
  185. ldr r9,[sp,#4*(16+9)]
  186. add r3,r3,r4
  187. mov r14,r14,ror#16
  188. eor r10,r10,r2,ror#16
  189. eor r14,r14,r3,ror#16
  190. add r8,r8,r10
  191. mov r7,r7,ror#20
  192. add r9,r9,r14
  193. mov r4,r4,ror#20
  194. eor r7,r7,r8,ror#20
  195. eor r4,r4,r9,ror#20
  196. add r2,r2,r7
  197. mov r10,r10,ror#24
  198. add r3,r3,r4
  199. mov r14,r14,ror#24
  200. eor r10,r10,r2,ror#24
  201. eor r14,r14,r3,ror#24
  202. add r8,r8,r10
  203. mov r7,r7,ror#25
  204. add r9,r9,r14
  205. mov r4,r4,ror#25
  206. eor r7,r7,r8,ror#25
  207. eor r4,r4,r9,ror#25
  208. bne .Loop
  209. ldr r11,[sp,#4*(32+2)] @ load len
  210. str r8, [sp,#4*(16+8)] @ modulo-scheduled store
  211. str r9, [sp,#4*(16+9)]
  212. str r12,[sp,#4*(16+12)]
  213. str r10, [sp,#4*(16+13)]
  214. str r14,[sp,#4*(16+14)]
  215. @ at this point we have first half of 512-bit result in
  216. @ rx and second half at sp+4*(16+8)
  217. cmp r11,#64 @ done yet?
  218. #ifdef __thumb2__
  219. itete lo
  220. #endif
  221. addlo r12,sp,#4*(0) @ shortcut or ...
  222. ldrhs r12,[sp,#4*(32+1)] @ ... load inp
  223. addlo r14,sp,#4*(0) @ shortcut or ...
  224. ldrhs r14,[sp,#4*(32+0)] @ ... load out
  225. ldr r8,[sp,#4*(0)] @ load key material
  226. ldr r9,[sp,#4*(1)]
  227. #if __ARM_ARCH__>=6 || !defined(__ARMEB__)
  228. # if __ARM_ARCH__<7
  229. orr r10,r12,r14
  230. tst r10,#3 @ are input and output aligned?
  231. ldr r10,[sp,#4*(2)]
  232. bne .Lunaligned
  233. cmp r11,#64 @ restore flags
  234. # else
  235. ldr r10,[sp,#4*(2)]
  236. # endif
  237. ldr r11,[sp,#4*(3)]
  238. add r0,r0,r8 @ accumulate key material
  239. add r1,r1,r9
  240. # ifdef __thumb2__
  241. itt hs
  242. # endif
  243. ldrhs r8,[r12],#16 @ load input
  244. ldrhs r9,[r12,#-12]
  245. add r2,r2,r10
  246. add r3,r3,r11
  247. # ifdef __thumb2__
  248. itt hs
  249. # endif
  250. ldrhs r10,[r12,#-8]
  251. ldrhs r11,[r12,#-4]
  252. # if __ARM_ARCH__>=6 && defined(__ARMEB__)
  253. rev r0,r0
  254. rev r1,r1
  255. rev r2,r2
  256. rev r3,r3
  257. # endif
  258. # ifdef __thumb2__
  259. itt hs
  260. # endif
  261. eorhs r0,r0,r8 @ xor with input
  262. eorhs r1,r1,r9
  263. add r8,sp,#4*(4)
  264. str r0,[r14],#16 @ store output
  265. # ifdef __thumb2__
  266. itt hs
  267. # endif
  268. eorhs r2,r2,r10
  269. eorhs r3,r3,r11
  270. ldmia r8,{r8,r9,r10,r11} @ load key material
  271. str r1,[r14,#-12]
  272. str r2,[r14,#-8]
  273. str r3,[r14,#-4]
  274. add r4,r4,r8 @ accumulate key material
  275. add r5,r5,r9
  276. # ifdef __thumb2__
  277. itt hs
  278. # endif
  279. ldrhs r8,[r12],#16 @ load input
  280. ldrhs r9,[r12,#-12]
  281. add r6,r6,r10
  282. add r7,r7,r11
  283. # ifdef __thumb2__
  284. itt hs
  285. # endif
  286. ldrhs r10,[r12,#-8]
  287. ldrhs r11,[r12,#-4]
  288. # if __ARM_ARCH__>=6 && defined(__ARMEB__)
  289. rev r4,r4
  290. rev r5,r5
  291. rev r6,r6
  292. rev r7,r7
  293. # endif
  294. # ifdef __thumb2__
  295. itt hs
  296. # endif
  297. eorhs r4,r4,r8
  298. eorhs r5,r5,r9
  299. add r8,sp,#4*(8)
  300. str r4,[r14],#16 @ store output
  301. # ifdef __thumb2__
  302. itt hs
  303. # endif
  304. eorhs r6,r6,r10
  305. eorhs r7,r7,r11
  306. str r5,[r14,#-12]
  307. ldmia r8,{r8,r9,r10,r11} @ load key material
  308. str r6,[r14,#-8]
  309. add r0,sp,#4*(16+8)
  310. str r7,[r14,#-4]
  311. ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half
  312. add r0,r0,r8 @ accumulate key material
  313. add r1,r1,r9
  314. # ifdef __thumb2__
  315. itt hs
  316. # endif
  317. ldrhs r8,[r12],#16 @ load input
  318. ldrhs r9,[r12,#-12]
  319. # ifdef __thumb2__
  320. itt hi
  321. # endif
  322. strhi r10,[sp,#4*(16+10)] @ copy "rx" while at it
  323. strhi r11,[sp,#4*(16+11)] @ copy "rx" while at it
  324. add r2,r2,r10
  325. add r3,r3,r11
  326. # ifdef __thumb2__
  327. itt hs
  328. # endif
  329. ldrhs r10,[r12,#-8]
  330. ldrhs r11,[r12,#-4]
  331. # if __ARM_ARCH__>=6 && defined(__ARMEB__)
  332. rev r0,r0
  333. rev r1,r1
  334. rev r2,r2
  335. rev r3,r3
  336. # endif
  337. # ifdef __thumb2__
  338. itt hs
  339. # endif
  340. eorhs r0,r0,r8
  341. eorhs r1,r1,r9
  342. add r8,sp,#4*(12)
  343. str r0,[r14],#16 @ store output
  344. # ifdef __thumb2__
  345. itt hs
  346. # endif
  347. eorhs r2,r2,r10
  348. eorhs r3,r3,r11
  349. str r1,[r14,#-12]
  350. ldmia r8,{r8,r9,r10,r11} @ load key material
  351. str r2,[r14,#-8]
  352. str r3,[r14,#-4]
  353. add r4,r4,r8 @ accumulate key material
  354. add r5,r5,r9
  355. # ifdef __thumb2__
  356. itt hi
  357. # endif
  358. addhi r8,r8,#1 @ next counter value
  359. strhi r8,[sp,#4*(12)] @ save next counter value
  360. # ifdef __thumb2__
  361. itt hs
  362. # endif
  363. ldrhs r8,[r12],#16 @ load input
  364. ldrhs r9,[r12,#-12]
  365. add r6,r6,r10
  366. add r7,r7,r11
  367. # ifdef __thumb2__
  368. itt hs
  369. # endif
  370. ldrhs r10,[r12,#-8]
  371. ldrhs r11,[r12,#-4]
  372. # if __ARM_ARCH__>=6 && defined(__ARMEB__)
  373. rev r4,r4
  374. rev r5,r5
  375. rev r6,r6
  376. rev r7,r7
  377. # endif
  378. # ifdef __thumb2__
  379. itt hs
  380. # endif
  381. eorhs r4,r4,r8
  382. eorhs r5,r5,r9
  383. # ifdef __thumb2__
  384. it ne
  385. # endif
  386. ldrne r8,[sp,#4*(32+2)] @ re-load len
  387. # ifdef __thumb2__
  388. itt hs
  389. # endif
  390. eorhs r6,r6,r10
  391. eorhs r7,r7,r11
  392. str r4,[r14],#16 @ store output
  393. str r5,[r14,#-12]
  394. # ifdef __thumb2__
  395. it hs
  396. # endif
  397. subhs r11,r8,#64 @ len-=64
  398. str r6,[r14,#-8]
  399. str r7,[r14,#-4]
  400. bhi .Loop_outer
  401. beq .Ldone
  402. # if __ARM_ARCH__<7
  403. b .Ltail
  404. .align 4
  405. .Lunaligned:@ unaligned endian-neutral path
  406. cmp r11,#64 @ restore flags
  407. # endif
  408. #endif
  409. #if __ARM_ARCH__<7
  410. ldr r11,[sp,#4*(3)]
  411. add r0,r0,r8 @ accumulate key material
  412. add r1,r1,r9
  413. add r2,r2,r10
  414. # ifdef __thumb2__
  415. itete lo
  416. # endif
  417. eorlo r8,r8,r8 @ zero or ...
  418. ldrhsb r8,[r12],#16 @ ... load input
  419. eorlo r9,r9,r9
  420. ldrhsb r9,[r12,#-12]
  421. add r3,r3,r11
  422. # ifdef __thumb2__
  423. itete lo
  424. # endif
  425. eorlo r10,r10,r10
  426. ldrhsb r10,[r12,#-8]
  427. eorlo r11,r11,r11
  428. ldrhsb r11,[r12,#-4]
  429. eor r0,r8,r0 @ xor with input (or zero)
  430. eor r1,r9,r1
  431. # ifdef __thumb2__
  432. itt hs
  433. # endif
  434. ldrhsb r8,[r12,#-15] @ load more input
  435. ldrhsb r9,[r12,#-11]
  436. eor r2,r10,r2
  437. strb r0,[r14],#16 @ store output
  438. eor r3,r11,r3
  439. # ifdef __thumb2__
  440. itt hs
  441. # endif
  442. ldrhsb r10,[r12,#-7]
  443. ldrhsb r11,[r12,#-3]
  444. strb r1,[r14,#-12]
  445. eor r0,r8,r0,lsr#8
  446. strb r2,[r14,#-8]
  447. eor r1,r9,r1,lsr#8
  448. # ifdef __thumb2__
  449. itt hs
  450. # endif
  451. ldrhsb r8,[r12,#-14] @ load more input
  452. ldrhsb r9,[r12,#-10]
  453. strb r3,[r14,#-4]
  454. eor r2,r10,r2,lsr#8
  455. strb r0,[r14,#-15]
  456. eor r3,r11,r3,lsr#8
  457. # ifdef __thumb2__
  458. itt hs
  459. # endif
  460. ldrhsb r10,[r12,#-6]
  461. ldrhsb r11,[r12,#-2]
  462. strb r1,[r14,#-11]
  463. eor r0,r8,r0,lsr#8
  464. strb r2,[r14,#-7]
  465. eor r1,r9,r1,lsr#8
  466. # ifdef __thumb2__
  467. itt hs
  468. # endif
  469. ldrhsb r8,[r12,#-13] @ load more input
  470. ldrhsb r9,[r12,#-9]
  471. strb r3,[r14,#-3]
  472. eor r2,r10,r2,lsr#8
  473. strb r0,[r14,#-14]
  474. eor r3,r11,r3,lsr#8
  475. # ifdef __thumb2__
  476. itt hs
  477. # endif
  478. ldrhsb r10,[r12,#-5]
  479. ldrhsb r11,[r12,#-1]
  480. strb r1,[r14,#-10]
  481. strb r2,[r14,#-6]
  482. eor r0,r8,r0,lsr#8
  483. strb r3,[r14,#-2]
  484. eor r1,r9,r1,lsr#8
  485. strb r0,[r14,#-13]
  486. eor r2,r10,r2,lsr#8
  487. strb r1,[r14,#-9]
  488. eor r3,r11,r3,lsr#8
  489. strb r2,[r14,#-5]
  490. strb r3,[r14,#-1]
  491. add r8,sp,#4*(4+0)
  492. ldmia r8,{r8,r9,r10,r11} @ load key material
  493. add r0,sp,#4*(16+8)
  494. add r4,r4,r8 @ accumulate key material
  495. add r5,r5,r9
  496. add r6,r6,r10
  497. # ifdef __thumb2__
  498. itete lo
  499. # endif
  500. eorlo r8,r8,r8 @ zero or ...
  501. ldrhsb r8,[r12],#16 @ ... load input
  502. eorlo r9,r9,r9
  503. ldrhsb r9,[r12,#-12]
  504. add r7,r7,r11
  505. # ifdef __thumb2__
  506. itete lo
  507. # endif
  508. eorlo r10,r10,r10
  509. ldrhsb r10,[r12,#-8]
  510. eorlo r11,r11,r11
  511. ldrhsb r11,[r12,#-4]
  512. eor r4,r8,r4 @ xor with input (or zero)
  513. eor r5,r9,r5
  514. # ifdef __thumb2__
  515. itt hs
  516. # endif
  517. ldrhsb r8,[r12,#-15] @ load more input
  518. ldrhsb r9,[r12,#-11]
  519. eor r6,r10,r6
  520. strb r4,[r14],#16 @ store output
  521. eor r7,r11,r7
  522. # ifdef __thumb2__
  523. itt hs
  524. # endif
  525. ldrhsb r10,[r12,#-7]
  526. ldrhsb r11,[r12,#-3]
  527. strb r5,[r14,#-12]
  528. eor r4,r8,r4,lsr#8
  529. strb r6,[r14,#-8]
  530. eor r5,r9,r5,lsr#8
  531. # ifdef __thumb2__
  532. itt hs
  533. # endif
  534. ldrhsb r8,[r12,#-14] @ load more input
  535. ldrhsb r9,[r12,#-10]
  536. strb r7,[r14,#-4]
  537. eor r6,r10,r6,lsr#8
  538. strb r4,[r14,#-15]
  539. eor r7,r11,r7,lsr#8
  540. # ifdef __thumb2__
  541. itt hs
  542. # endif
  543. ldrhsb r10,[r12,#-6]
  544. ldrhsb r11,[r12,#-2]
  545. strb r5,[r14,#-11]
  546. eor r4,r8,r4,lsr#8
  547. strb r6,[r14,#-7]
  548. eor r5,r9,r5,lsr#8
  549. # ifdef __thumb2__
  550. itt hs
  551. # endif
  552. ldrhsb r8,[r12,#-13] @ load more input
  553. ldrhsb r9,[r12,#-9]
  554. strb r7,[r14,#-3]
  555. eor r6,r10,r6,lsr#8
  556. strb r4,[r14,#-14]
  557. eor r7,r11,r7,lsr#8
  558. # ifdef __thumb2__
  559. itt hs
  560. # endif
  561. ldrhsb r10,[r12,#-5]
  562. ldrhsb r11,[r12,#-1]
  563. strb r5,[r14,#-10]
  564. strb r6,[r14,#-6]
  565. eor r4,r8,r4,lsr#8
  566. strb r7,[r14,#-2]
  567. eor r5,r9,r5,lsr#8
  568. strb r4,[r14,#-13]
  569. eor r6,r10,r6,lsr#8
  570. strb r5,[r14,#-9]
  571. eor r7,r11,r7,lsr#8
  572. strb r6,[r14,#-5]
  573. strb r7,[r14,#-1]
  574. add r8,sp,#4*(4+4)
  575. ldmia r8,{r8,r9,r10,r11} @ load key material
  576. ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half
  577. # ifdef __thumb2__
  578. itt hi
  579. # endif
  580. strhi r10,[sp,#4*(16+10)] @ copy "rx"
  581. strhi r11,[sp,#4*(16+11)] @ copy "rx"
  582. add r0,r0,r8 @ accumulate key material
  583. add r1,r1,r9
  584. add r2,r2,r10
  585. # ifdef __thumb2__
  586. itete lo
  587. # endif
  588. eorlo r8,r8,r8 @ zero or ...
  589. ldrhsb r8,[r12],#16 @ ... load input
  590. eorlo r9,r9,r9
  591. ldrhsb r9,[r12,#-12]
  592. add r3,r3,r11
  593. # ifdef __thumb2__
  594. itete lo
  595. # endif
  596. eorlo r10,r10,r10
  597. ldrhsb r10,[r12,#-8]
  598. eorlo r11,r11,r11
  599. ldrhsb r11,[r12,#-4]
  600. eor r0,r8,r0 @ xor with input (or zero)
  601. eor r1,r9,r1
  602. # ifdef __thumb2__
  603. itt hs
  604. # endif
  605. ldrhsb r8,[r12,#-15] @ load more input
  606. ldrhsb r9,[r12,#-11]
  607. eor r2,r10,r2
  608. strb r0,[r14],#16 @ store output
  609. eor r3,r11,r3
  610. # ifdef __thumb2__
  611. itt hs
  612. # endif
  613. ldrhsb r10,[r12,#-7]
  614. ldrhsb r11,[r12,#-3]
  615. strb r1,[r14,#-12]
  616. eor r0,r8,r0,lsr#8
  617. strb r2,[r14,#-8]
  618. eor r1,r9,r1,lsr#8
  619. # ifdef __thumb2__
  620. itt hs
  621. # endif
  622. ldrhsb r8,[r12,#-14] @ load more input
  623. ldrhsb r9,[r12,#-10]
  624. strb r3,[r14,#-4]
  625. eor r2,r10,r2,lsr#8
  626. strb r0,[r14,#-15]
  627. eor r3,r11,r3,lsr#8
  628. # ifdef __thumb2__
  629. itt hs
  630. # endif
  631. ldrhsb r10,[r12,#-6]
  632. ldrhsb r11,[r12,#-2]
  633. strb r1,[r14,#-11]
  634. eor r0,r8,r0,lsr#8
  635. strb r2,[r14,#-7]
  636. eor r1,r9,r1,lsr#8
  637. # ifdef __thumb2__
  638. itt hs
  639. # endif
  640. ldrhsb r8,[r12,#-13] @ load more input
  641. ldrhsb r9,[r12,#-9]
  642. strb r3,[r14,#-3]
  643. eor r2,r10,r2,lsr#8
  644. strb r0,[r14,#-14]
  645. eor r3,r11,r3,lsr#8
  646. # ifdef __thumb2__
  647. itt hs
  648. # endif
  649. ldrhsb r10,[r12,#-5]
  650. ldrhsb r11,[r12,#-1]
  651. strb r1,[r14,#-10]
  652. strb r2,[r14,#-6]
  653. eor r0,r8,r0,lsr#8
  654. strb r3,[r14,#-2]
  655. eor r1,r9,r1,lsr#8
  656. strb r0,[r14,#-13]
  657. eor r2,r10,r2,lsr#8
  658. strb r1,[r14,#-9]
  659. eor r3,r11,r3,lsr#8
  660. strb r2,[r14,#-5]
  661. strb r3,[r14,#-1]
  662. add r8,sp,#4*(4+8)
  663. ldmia r8,{r8,r9,r10,r11} @ load key material
  664. add r4,r4,r8 @ accumulate key material
  665. # ifdef __thumb2__
  666. itt hi
  667. # endif
  668. addhi r8,r8,#1 @ next counter value
  669. strhi r8,[sp,#4*(12)] @ save next counter value
  670. add r5,r5,r9
  671. add r6,r6,r10
  672. # ifdef __thumb2__
  673. itete lo
  674. # endif
  675. eorlo r8,r8,r8 @ zero or ...
  676. ldrhsb r8,[r12],#16 @ ... load input
  677. eorlo r9,r9,r9
  678. ldrhsb r9,[r12,#-12]
  679. add r7,r7,r11
  680. # ifdef __thumb2__
  681. itete lo
  682. # endif
  683. eorlo r10,r10,r10
  684. ldrhsb r10,[r12,#-8]
  685. eorlo r11,r11,r11
  686. ldrhsb r11,[r12,#-4]
  687. eor r4,r8,r4 @ xor with input (or zero)
  688. eor r5,r9,r5
  689. # ifdef __thumb2__
  690. itt hs
  691. # endif
  692. ldrhsb r8,[r12,#-15] @ load more input
  693. ldrhsb r9,[r12,#-11]
  694. eor r6,r10,r6
  695. strb r4,[r14],#16 @ store output
  696. eor r7,r11,r7
  697. # ifdef __thumb2__
  698. itt hs
  699. # endif
  700. ldrhsb r10,[r12,#-7]
  701. ldrhsb r11,[r12,#-3]
  702. strb r5,[r14,#-12]
  703. eor r4,r8,r4,lsr#8
  704. strb r6,[r14,#-8]
  705. eor r5,r9,r5,lsr#8
  706. # ifdef __thumb2__
  707. itt hs
  708. # endif
  709. ldrhsb r8,[r12,#-14] @ load more input
  710. ldrhsb r9,[r12,#-10]
  711. strb r7,[r14,#-4]
  712. eor r6,r10,r6,lsr#8
  713. strb r4,[r14,#-15]
  714. eor r7,r11,r7,lsr#8
  715. # ifdef __thumb2__
  716. itt hs
  717. # endif
  718. ldrhsb r10,[r12,#-6]
  719. ldrhsb r11,[r12,#-2]
  720. strb r5,[r14,#-11]
  721. eor r4,r8,r4,lsr#8
  722. strb r6,[r14,#-7]
  723. eor r5,r9,r5,lsr#8
  724. # ifdef __thumb2__
  725. itt hs
  726. # endif
  727. ldrhsb r8,[r12,#-13] @ load more input
  728. ldrhsb r9,[r12,#-9]
  729. strb r7,[r14,#-3]
  730. eor r6,r10,r6,lsr#8
  731. strb r4,[r14,#-14]
  732. eor r7,r11,r7,lsr#8
  733. # ifdef __thumb2__
  734. itt hs
  735. # endif
  736. ldrhsb r10,[r12,#-5]
  737. ldrhsb r11,[r12,#-1]
  738. strb r5,[r14,#-10]
  739. strb r6,[r14,#-6]
  740. eor r4,r8,r4,lsr#8
  741. strb r7,[r14,#-2]
  742. eor r5,r9,r5,lsr#8
  743. strb r4,[r14,#-13]
  744. eor r6,r10,r6,lsr#8
  745. strb r5,[r14,#-9]
  746. eor r7,r11,r7,lsr#8
  747. strb r6,[r14,#-5]
  748. strb r7,[r14,#-1]
  749. # ifdef __thumb2__
  750. it ne
  751. # endif
  752. ldrne r8,[sp,#4*(32+2)] @ re-load len
  753. # ifdef __thumb2__
  754. it hs
  755. # endif
  756. subhs r11,r8,#64 @ len-=64
  757. bhi .Loop_outer
  758. beq .Ldone
  759. #endif
  760. .Ltail:
  761. ldr r12,[sp,#4*(32+1)] @ load inp
  762. add r9,sp,#4*(0)
  763. ldr r14,[sp,#4*(32+0)] @ load out
  764. .Loop_tail:
  765. ldrb r10,[r9],#1 @ read buffer on stack
  766. ldrb r11,[r12],#1 @ read input
  767. subs r8,r8,#1
  768. eor r11,r11,r10
  769. strb r11,[r14],#1 @ store output
  770. bne .Loop_tail
  771. .Ldone:
  772. add sp,sp,#4*(32+3)
  773. .Lno_data:
  774. ldmia sp!,{r4,r5,r6,r7,r8,r9,r10,r11,pc}
  775. .size ChaCha20_ctr32,.-ChaCha20_ctr32
  776. #if __ARM_MAX_ARCH__>=7
  777. .arch armv7-a
  778. .fpu neon
  779. .type ChaCha20_neon,%function
  780. .align 5
  781. ChaCha20_neon:
  782. ldr r12,[sp,#0] @ pull pointer to counter and nonce
  783. stmdb sp!,{r0,r1,r2,r4-r11,lr}
  784. .LChaCha20_neon:
  785. adr r14,.Lsigma
  786. vstmdb sp!,{d8,d9,d10,d11,d12,d13,d14,d15} @ ABI spec says so
  787. stmdb sp!,{r0,r1,r2,r3}
  788. vld1.32 {q1,q2},[r3] @ load key
  789. ldmia r3,{r4,r5,r6,r7,r8,r9,r10,r11} @ load key
  790. sub sp,sp,#4*(16+16)
  791. vld1.32 {q3},[r12] @ load counter and nonce
  792. add r12,sp,#4*8
  793. ldmia r14,{r0,r1,r2,r3} @ load sigma
  794. vld1.32 {q0},[r14]! @ load sigma
  795. vld1.32 {q12},[r14] @ one
  796. vst1.32 {q2,q3},[r12] @ copy 1/2key|counter|nonce
  797. vst1.32 {q0,q1},[sp] @ copy sigma|1/2key
  798. str r10,[sp,#4*(16+10)] @ off-load "rx"
  799. str r11,[sp,#4*(16+11)] @ off-load "rx"
  800. vshl.i32 d26,d24,#1 @ two
  801. vstr d24,[sp,#4*(16+0)]
  802. vshl.i32 d28,d24,#2 @ four
  803. vstr d26,[sp,#4*(16+2)]
  804. vmov q4,q0
  805. vstr d28,[sp,#4*(16+4)]
  806. vmov q8,q0
  807. vmov q5,q1
  808. vmov q9,q1
  809. b .Loop_neon_enter
  810. .align 4
  811. .Loop_neon_outer:
  812. ldmia sp,{r0,r1,r2,r3,r4,r5,r6,r7,r8,r9} @ load key material
  813. cmp r11,#64*2 @ if len<=64*2
  814. bls .Lbreak_neon @ switch to integer-only
  815. vmov q4,q0
  816. str r11,[sp,#4*(32+2)] @ save len
  817. vmov q8,q0
  818. str r12, [sp,#4*(32+1)] @ save inp
  819. vmov q5,q1
  820. str r14, [sp,#4*(32+0)] @ save out
  821. vmov q9,q1
  822. .Loop_neon_enter:
  823. ldr r11, [sp,#4*(15)]
  824. vadd.i32 q7,q3,q12 @ counter+1
  825. ldr r12,[sp,#4*(12)] @ modulo-scheduled load
  826. vmov q6,q2
  827. ldr r10, [sp,#4*(13)]
  828. vmov q10,q2
  829. ldr r14,[sp,#4*(14)]
  830. vadd.i32 q11,q7,q12 @ counter+2
  831. str r11, [sp,#4*(16+15)]
  832. mov r11,#10
  833. add r12,r12,#3 @ counter+3
  834. b .Loop_neon
  835. .align 4
  836. .Loop_neon:
  837. subs r11,r11,#1
  838. vadd.i32 q0,q0,q1
  839. add r0,r0,r4
  840. vadd.i32 q4,q4,q5
  841. mov r12,r12,ror#16
  842. vadd.i32 q8,q8,q9
  843. add r1,r1,r5
  844. veor q3,q3,q0
  845. mov r10,r10,ror#16
  846. veor q7,q7,q4
  847. eor r12,r12,r0,ror#16
  848. veor q11,q11,q8
  849. eor r10,r10,r1,ror#16
  850. vrev32.16 q3,q3
  851. add r8,r8,r12
  852. vrev32.16 q7,q7
  853. mov r4,r4,ror#20
  854. vrev32.16 q11,q11
  855. add r9,r9,r10
  856. vadd.i32 q2,q2,q3
  857. mov r5,r5,ror#20
  858. vadd.i32 q6,q6,q7
  859. eor r4,r4,r8,ror#20
  860. vadd.i32 q10,q10,q11
  861. eor r5,r5,r9,ror#20
  862. veor q12,q1,q2
  863. add r0,r0,r4
  864. veor q13,q5,q6
  865. mov r12,r12,ror#24
  866. veor q14,q9,q10
  867. add r1,r1,r5
  868. vshr.u32 q1,q12,#20
  869. mov r10,r10,ror#24
  870. vshr.u32 q5,q13,#20
  871. eor r12,r12,r0,ror#24
  872. vshr.u32 q9,q14,#20
  873. eor r10,r10,r1,ror#24
  874. vsli.32 q1,q12,#12
  875. add r8,r8,r12
  876. vsli.32 q5,q13,#12
  877. mov r4,r4,ror#25
  878. vsli.32 q9,q14,#12
  879. add r9,r9,r10
  880. vadd.i32 q0,q0,q1
  881. mov r5,r5,ror#25
  882. vadd.i32 q4,q4,q5
  883. str r10,[sp,#4*(16+13)]
  884. vadd.i32 q8,q8,q9
  885. ldr r10,[sp,#4*(16+15)]
  886. veor q12,q3,q0
  887. eor r4,r4,r8,ror#25
  888. veor q13,q7,q4
  889. eor r5,r5,r9,ror#25
  890. veor q14,q11,q8
  891. str r8,[sp,#4*(16+8)]
  892. vshr.u32 q3,q12,#24
  893. ldr r8,[sp,#4*(16+10)]
  894. vshr.u32 q7,q13,#24
  895. add r2,r2,r6
  896. vshr.u32 q11,q14,#24
  897. mov r14,r14,ror#16
  898. vsli.32 q3,q12,#8
  899. str r9,[sp,#4*(16+9)]
  900. vsli.32 q7,q13,#8
  901. ldr r9,[sp,#4*(16+11)]
  902. vsli.32 q11,q14,#8
  903. add r3,r3,r7
  904. vadd.i32 q2,q2,q3
  905. mov r10,r10,ror#16
  906. vadd.i32 q6,q6,q7
  907. eor r14,r14,r2,ror#16
  908. vadd.i32 q10,q10,q11
  909. eor r10,r10,r3,ror#16
  910. veor q12,q1,q2
  911. add r8,r8,r14
  912. veor q13,q5,q6
  913. mov r6,r6,ror#20
  914. veor q14,q9,q10
  915. add r9,r9,r10
  916. vshr.u32 q1,q12,#25
  917. mov r7,r7,ror#20
  918. vshr.u32 q5,q13,#25
  919. eor r6,r6,r8,ror#20
  920. vshr.u32 q9,q14,#25
  921. eor r7,r7,r9,ror#20
  922. vsli.32 q1,q12,#7
  923. add r2,r2,r6
  924. vsli.32 q5,q13,#7
  925. mov r14,r14,ror#24
  926. vsli.32 q9,q14,#7
  927. add r3,r3,r7
  928. vext.8 q2,q2,q2,#8
  929. mov r10,r10,ror#24
  930. vext.8 q6,q6,q6,#8
  931. eor r14,r14,r2,ror#24
  932. vext.8 q10,q10,q10,#8
  933. eor r10,r10,r3,ror#24
  934. vext.8 q1,q1,q1,#4
  935. add r8,r8,r14
  936. vext.8 q5,q5,q5,#4
  937. mov r6,r6,ror#25
  938. vext.8 q9,q9,q9,#4
  939. add r9,r9,r10
  940. vext.8 q3,q3,q3,#12
  941. mov r7,r7,ror#25
  942. vext.8 q7,q7,q7,#12
  943. eor r6,r6,r8,ror#25
  944. vext.8 q11,q11,q11,#12
  945. eor r7,r7,r9,ror#25
  946. vadd.i32 q0,q0,q1
  947. add r0,r0,r5
  948. vadd.i32 q4,q4,q5
  949. mov r10,r10,ror#16
  950. vadd.i32 q8,q8,q9
  951. add r1,r1,r6
  952. veor q3,q3,q0
  953. mov r12,r12,ror#16
  954. veor q7,q7,q4
  955. eor r10,r10,r0,ror#16
  956. veor q11,q11,q8
  957. eor r12,r12,r1,ror#16
  958. vrev32.16 q3,q3
  959. add r8,r8,r10
  960. vrev32.16 q7,q7
  961. mov r5,r5,ror#20
  962. vrev32.16 q11,q11
  963. add r9,r9,r12
  964. vadd.i32 q2,q2,q3
  965. mov r6,r6,ror#20
  966. vadd.i32 q6,q6,q7
  967. eor r5,r5,r8,ror#20
  968. vadd.i32 q10,q10,q11
  969. eor r6,r6,r9,ror#20
  970. veor q12,q1,q2
  971. add r0,r0,r5
  972. veor q13,q5,q6
  973. mov r10,r10,ror#24
  974. veor q14,q9,q10
  975. add r1,r1,r6
  976. vshr.u32 q1,q12,#20
  977. mov r12,r12,ror#24
  978. vshr.u32 q5,q13,#20
  979. eor r10,r10,r0,ror#24
  980. vshr.u32 q9,q14,#20
  981. eor r12,r12,r1,ror#24
  982. vsli.32 q1,q12,#12
  983. add r8,r8,r10
  984. vsli.32 q5,q13,#12
  985. mov r5,r5,ror#25
  986. vsli.32 q9,q14,#12
  987. str r10,[sp,#4*(16+15)]
  988. vadd.i32 q0,q0,q1
  989. ldr r10,[sp,#4*(16+13)]
  990. vadd.i32 q4,q4,q5
  991. add r9,r9,r12
  992. vadd.i32 q8,q8,q9
  993. mov r6,r6,ror#25
  994. veor q12,q3,q0
  995. eor r5,r5,r8,ror#25
  996. veor q13,q7,q4
  997. eor r6,r6,r9,ror#25
  998. veor q14,q11,q8
  999. str r8,[sp,#4*(16+10)]
  1000. vshr.u32 q3,q12,#24
  1001. ldr r8,[sp,#4*(16+8)]
  1002. vshr.u32 q7,q13,#24
  1003. add r2,r2,r7
  1004. vshr.u32 q11,q14,#24
  1005. mov r10,r10,ror#16
  1006. vsli.32 q3,q12,#8
  1007. str r9,[sp,#4*(16+11)]
  1008. vsli.32 q7,q13,#8
  1009. ldr r9,[sp,#4*(16+9)]
  1010. vsli.32 q11,q14,#8
  1011. add r3,r3,r4
  1012. vadd.i32 q2,q2,q3
  1013. mov r14,r14,ror#16
  1014. vadd.i32 q6,q6,q7
  1015. eor r10,r10,r2,ror#16
  1016. vadd.i32 q10,q10,q11
  1017. eor r14,r14,r3,ror#16
  1018. veor q12,q1,q2
  1019. add r8,r8,r10
  1020. veor q13,q5,q6
  1021. mov r7,r7,ror#20
  1022. veor q14,q9,q10
  1023. add r9,r9,r14
  1024. vshr.u32 q1,q12,#25
  1025. mov r4,r4,ror#20
  1026. vshr.u32 q5,q13,#25
  1027. eor r7,r7,r8,ror#20
  1028. vshr.u32 q9,q14,#25
  1029. eor r4,r4,r9,ror#20
  1030. vsli.32 q1,q12,#7
  1031. add r2,r2,r7
  1032. vsli.32 q5,q13,#7
  1033. mov r10,r10,ror#24
  1034. vsli.32 q9,q14,#7
  1035. add r3,r3,r4
  1036. vext.8 q2,q2,q2,#8
  1037. mov r14,r14,ror#24
  1038. vext.8 q6,q6,q6,#8
  1039. eor r10,r10,r2,ror#24
  1040. vext.8 q10,q10,q10,#8
  1041. eor r14,r14,r3,ror#24
  1042. vext.8 q1,q1,q1,#12
  1043. add r8,r8,r10
  1044. vext.8 q5,q5,q5,#12
  1045. mov r7,r7,ror#25
  1046. vext.8 q9,q9,q9,#12
  1047. add r9,r9,r14
  1048. vext.8 q3,q3,q3,#4
  1049. mov r4,r4,ror#25
  1050. vext.8 q7,q7,q7,#4
  1051. eor r7,r7,r8,ror#25
  1052. vext.8 q11,q11,q11,#4
  1053. eor r4,r4,r9,ror#25
  1054. bne .Loop_neon
  1055. add r11,sp,#32
  1056. vld1.32 {q12,q13},[sp] @ load key material
  1057. vld1.32 {q14,q15},[r11]
  1058. ldr r11,[sp,#4*(32+2)] @ load len
  1059. str r8, [sp,#4*(16+8)] @ modulo-scheduled store
  1060. str r9, [sp,#4*(16+9)]
  1061. str r12,[sp,#4*(16+12)]
  1062. str r10, [sp,#4*(16+13)]
  1063. str r14,[sp,#4*(16+14)]
  1064. @ at this point we have first half of 512-bit result in
  1065. @ rx and second half at sp+4*(16+8)
  1066. ldr r12,[sp,#4*(32+1)] @ load inp
  1067. ldr r14,[sp,#4*(32+0)] @ load out
  1068. vadd.i32 q0,q0,q12 @ accumulate key material
  1069. vadd.i32 q4,q4,q12
  1070. vadd.i32 q8,q8,q12
  1071. vldr d24,[sp,#4*(16+0)] @ one
  1072. vadd.i32 q1,q1,q13
  1073. vadd.i32 q5,q5,q13
  1074. vadd.i32 q9,q9,q13
  1075. vldr d26,[sp,#4*(16+2)] @ two
  1076. vadd.i32 q2,q2,q14
  1077. vadd.i32 q6,q6,q14
  1078. vadd.i32 q10,q10,q14
  1079. vadd.i32 d14,d14,d24 @ counter+1
  1080. vadd.i32 d22,d22,d26 @ counter+2
  1081. vadd.i32 q3,q3,q15
  1082. vadd.i32 q7,q7,q15
  1083. vadd.i32 q11,q11,q15
  1084. cmp r11,#64*4
  1085. blo .Ltail_neon
  1086. vld1.8 {q12,q13},[r12]! @ load input
  1087. mov r11,sp
  1088. vld1.8 {q14,q15},[r12]!
  1089. veor q0,q0,q12 @ xor with input
  1090. veor q1,q1,q13
  1091. vld1.8 {q12,q13},[r12]!
  1092. veor q2,q2,q14
  1093. veor q3,q3,q15
  1094. vld1.8 {q14,q15},[r12]!
  1095. veor q4,q4,q12
  1096. vst1.8 {q0,q1},[r14]! @ store output
  1097. veor q5,q5,q13
  1098. vld1.8 {q12,q13},[r12]!
  1099. veor q6,q6,q14
  1100. vst1.8 {q2,q3},[r14]!
  1101. veor q7,q7,q15
  1102. vld1.8 {q14,q15},[r12]!
  1103. veor q8,q8,q12
  1104. vld1.32 {q0,q1},[r11]! @ load for next iteration
  1105. veor d25,d25,d25
  1106. vldr d24,[sp,#4*(16+4)] @ four
  1107. veor q9,q9,q13
  1108. vld1.32 {q2,q3},[r11]
  1109. veor q10,q10,q14
  1110. vst1.8 {q4,q5},[r14]!
  1111. veor q11,q11,q15
  1112. vst1.8 {q6,q7},[r14]!
  1113. vadd.i32 d6,d6,d24 @ next counter value
  1114. vldr d24,[sp,#4*(16+0)] @ one
  1115. ldmia sp,{r8,r9,r10,r11} @ load key material
  1116. add r0,r0,r8 @ accumulate key material
  1117. ldr r8,[r12],#16 @ load input
  1118. vst1.8 {q8,q9},[r14]!
  1119. add r1,r1,r9
  1120. ldr r9,[r12,#-12]
  1121. vst1.8 {q10,q11},[r14]!
  1122. add r2,r2,r10
  1123. ldr r10,[r12,#-8]
  1124. add r3,r3,r11
  1125. ldr r11,[r12,#-4]
  1126. # ifdef __ARMEB__
  1127. rev r0,r0
  1128. rev r1,r1
  1129. rev r2,r2
  1130. rev r3,r3
  1131. # endif
  1132. eor r0,r0,r8 @ xor with input
  1133. add r8,sp,#4*(4)
  1134. eor r1,r1,r9
  1135. str r0,[r14],#16 @ store output
  1136. eor r2,r2,r10
  1137. str r1,[r14,#-12]
  1138. eor r3,r3,r11
  1139. ldmia r8,{r8,r9,r10,r11} @ load key material
  1140. str r2,[r14,#-8]
  1141. str r3,[r14,#-4]
  1142. add r4,r4,r8 @ accumulate key material
  1143. ldr r8,[r12],#16 @ load input
  1144. add r5,r5,r9
  1145. ldr r9,[r12,#-12]
  1146. add r6,r6,r10
  1147. ldr r10,[r12,#-8]
  1148. add r7,r7,r11
  1149. ldr r11,[r12,#-4]
  1150. # ifdef __ARMEB__
  1151. rev r4,r4
  1152. rev r5,r5
  1153. rev r6,r6
  1154. rev r7,r7
  1155. # endif
  1156. eor r4,r4,r8
  1157. add r8,sp,#4*(8)
  1158. eor r5,r5,r9
  1159. str r4,[r14],#16 @ store output
  1160. eor r6,r6,r10
  1161. str r5,[r14,#-12]
  1162. eor r7,r7,r11
  1163. ldmia r8,{r8,r9,r10,r11} @ load key material
  1164. str r6,[r14,#-8]
  1165. add r0,sp,#4*(16+8)
  1166. str r7,[r14,#-4]
  1167. ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half
  1168. add r0,r0,r8 @ accumulate key material
  1169. ldr r8,[r12],#16 @ load input
  1170. add r1,r1,r9
  1171. ldr r9,[r12,#-12]
  1172. # ifdef __thumb2__
  1173. it hi
  1174. # endif
  1175. strhi r10,[sp,#4*(16+10)] @ copy "rx" while at it
  1176. add r2,r2,r10
  1177. ldr r10,[r12,#-8]
  1178. # ifdef __thumb2__
  1179. it hi
  1180. # endif
  1181. strhi r11,[sp,#4*(16+11)] @ copy "rx" while at it
  1182. add r3,r3,r11
  1183. ldr r11,[r12,#-4]
  1184. # ifdef __ARMEB__
  1185. rev r0,r0
  1186. rev r1,r1
  1187. rev r2,r2
  1188. rev r3,r3
  1189. # endif
  1190. eor r0,r0,r8
  1191. add r8,sp,#4*(12)
  1192. eor r1,r1,r9
  1193. str r0,[r14],#16 @ store output
  1194. eor r2,r2,r10
  1195. str r1,[r14,#-12]
  1196. eor r3,r3,r11
  1197. ldmia r8,{r8,r9,r10,r11} @ load key material
  1198. str r2,[r14,#-8]
  1199. str r3,[r14,#-4]
  1200. add r4,r4,r8 @ accumulate key material
  1201. add r8,r8,#4 @ next counter value
  1202. add r5,r5,r9
  1203. str r8,[sp,#4*(12)] @ save next counter value
  1204. ldr r8,[r12],#16 @ load input
  1205. add r6,r6,r10
  1206. add r4,r4,#3 @ counter+3
  1207. ldr r9,[r12,#-12]
  1208. add r7,r7,r11
  1209. ldr r10,[r12,#-8]
  1210. ldr r11,[r12,#-4]
  1211. # ifdef __ARMEB__
  1212. rev r4,r4
  1213. rev r5,r5
  1214. rev r6,r6
  1215. rev r7,r7
  1216. # endif
  1217. eor r4,r4,r8
  1218. # ifdef __thumb2__
  1219. it hi
  1220. # endif
  1221. ldrhi r8,[sp,#4*(32+2)] @ re-load len
  1222. eor r5,r5,r9
  1223. eor r6,r6,r10
  1224. str r4,[r14],#16 @ store output
  1225. eor r7,r7,r11
  1226. str r5,[r14,#-12]
  1227. sub r11,r8,#64*4 @ len-=64*4
  1228. str r6,[r14,#-8]
  1229. str r7,[r14,#-4]
  1230. bhi .Loop_neon_outer
  1231. b .Ldone_neon
  1232. .align 4
  1233. .Lbreak_neon:
  1234. @ harmonize NEON and integer-only stack frames: load data
  1235. @ from NEON frame, but save to integer-only one; distance
  1236. @ between the two is 4*(32+4+16-32)=4*(20).
  1237. str r11, [sp,#4*(20+32+2)] @ save len
  1238. add r11,sp,#4*(32+4)
  1239. str r12, [sp,#4*(20+32+1)] @ save inp
  1240. str r14, [sp,#4*(20+32+0)] @ save out
  1241. ldr r12,[sp,#4*(16+10)]
  1242. ldr r14,[sp,#4*(16+11)]
  1243. vldmia r11,{d8,d9,d10,d11,d12,d13,d14,d15} @ fulfill ABI requirement
  1244. str r12,[sp,#4*(20+16+10)] @ copy "rx"
  1245. str r14,[sp,#4*(20+16+11)] @ copy "rx"
  1246. ldr r11, [sp,#4*(15)]
  1247. ldr r12,[sp,#4*(12)] @ modulo-scheduled load
  1248. ldr r10, [sp,#4*(13)]
  1249. ldr r14,[sp,#4*(14)]
  1250. str r11, [sp,#4*(20+16+15)]
  1251. add r11,sp,#4*(20)
  1252. vst1.32 {q0,q1},[r11]! @ copy key
  1253. add sp,sp,#4*(20) @ switch frame
  1254. vst1.32 {q2,q3},[r11]
  1255. mov r11,#10
  1256. b .Loop @ go integer-only
  1257. .align 4
  1258. .Ltail_neon:
  1259. cmp r11,#64*3
  1260. bhs .L192_or_more_neon
  1261. cmp r11,#64*2
  1262. bhs .L128_or_more_neon
  1263. cmp r11,#64*1
  1264. bhs .L64_or_more_neon
  1265. add r8,sp,#4*(8)
  1266. vst1.8 {q0,q1},[sp]
  1267. add r10,sp,#4*(0)
  1268. vst1.8 {q2,q3},[r8]
  1269. b .Loop_tail_neon
  1270. .align 4
  1271. .L64_or_more_neon:
  1272. vld1.8 {q12,q13},[r12]!
  1273. vld1.8 {q14,q15},[r12]!
  1274. veor q0,q0,q12
  1275. veor q1,q1,q13
  1276. veor q2,q2,q14
  1277. veor q3,q3,q15
  1278. vst1.8 {q0,q1},[r14]!
  1279. vst1.8 {q2,q3},[r14]!
  1280. beq .Ldone_neon
  1281. add r8,sp,#4*(8)
  1282. vst1.8 {q4,q5},[sp]
  1283. add r10,sp,#4*(0)
  1284. vst1.8 {q6,q7},[r8]
  1285. sub r11,r11,#64*1 @ len-=64*1
  1286. b .Loop_tail_neon
  1287. .align 4
  1288. .L128_or_more_neon:
  1289. vld1.8 {q12,q13},[r12]!
  1290. vld1.8 {q14,q15},[r12]!
  1291. veor q0,q0,q12
  1292. veor q1,q1,q13
  1293. vld1.8 {q12,q13},[r12]!
  1294. veor q2,q2,q14
  1295. veor q3,q3,q15
  1296. vld1.8 {q14,q15},[r12]!
  1297. veor q4,q4,q12
  1298. veor q5,q5,q13
  1299. vst1.8 {q0,q1},[r14]!
  1300. veor q6,q6,q14
  1301. vst1.8 {q2,q3},[r14]!
  1302. veor q7,q7,q15
  1303. vst1.8 {q4,q5},[r14]!
  1304. vst1.8 {q6,q7},[r14]!
  1305. beq .Ldone_neon
  1306. add r8,sp,#4*(8)
  1307. vst1.8 {q8,q9},[sp]
  1308. add r10,sp,#4*(0)
  1309. vst1.8 {q10,q11},[r8]
  1310. sub r11,r11,#64*2 @ len-=64*2
  1311. b .Loop_tail_neon
  1312. .align 4
  1313. .L192_or_more_neon:
  1314. vld1.8 {q12,q13},[r12]!
  1315. vld1.8 {q14,q15},[r12]!
  1316. veor q0,q0,q12
  1317. veor q1,q1,q13
  1318. vld1.8 {q12,q13},[r12]!
  1319. veor q2,q2,q14
  1320. veor q3,q3,q15
  1321. vld1.8 {q14,q15},[r12]!
  1322. veor q4,q4,q12
  1323. veor q5,q5,q13
  1324. vld1.8 {q12,q13},[r12]!
  1325. veor q6,q6,q14
  1326. vst1.8 {q0,q1},[r14]!
  1327. veor q7,q7,q15
  1328. vld1.8 {q14,q15},[r12]!
  1329. veor q8,q8,q12
  1330. vst1.8 {q2,q3},[r14]!
  1331. veor q9,q9,q13
  1332. vst1.8 {q4,q5},[r14]!
  1333. veor q10,q10,q14
  1334. vst1.8 {q6,q7},[r14]!
  1335. veor q11,q11,q15
  1336. vst1.8 {q8,q9},[r14]!
  1337. vst1.8 {q10,q11},[r14]!
  1338. beq .Ldone_neon
  1339. ldmia sp,{r8,r9,r10,r11} @ load key material
  1340. add r0,r0,r8 @ accumulate key material
  1341. add r8,sp,#4*(4)
  1342. add r1,r1,r9
  1343. add r2,r2,r10
  1344. add r3,r3,r11
  1345. ldmia r8,{r8,r9,r10,r11} @ load key material
  1346. add r4,r4,r8 @ accumulate key material
  1347. add r8,sp,#4*(8)
  1348. add r5,r5,r9
  1349. add r6,r6,r10
  1350. add r7,r7,r11
  1351. ldmia r8,{r8,r9,r10,r11} @ load key material
  1352. # ifdef __ARMEB__
  1353. rev r0,r0
  1354. rev r1,r1
  1355. rev r2,r2
  1356. rev r3,r3
  1357. rev r4,r4
  1358. rev r5,r5
  1359. rev r6,r6
  1360. rev r7,r7
  1361. # endif
  1362. stmia sp,{r0,r1,r2,r3,r4,r5,r6,r7}
  1363. add r0,sp,#4*(16+8)
  1364. ldmia r0,{r0,r1,r2,r3,r4,r5,r6,r7} @ load second half
  1365. add r0,r0,r8 @ accumulate key material
  1366. add r8,sp,#4*(12)
  1367. add r1,r1,r9
  1368. add r2,r2,r10
  1369. add r3,r3,r11
  1370. ldmia r8,{r8,r9,r10,r11} @ load key material
  1371. add r4,r4,r8 @ accumulate key material
  1372. add r8,sp,#4*(8)
  1373. add r5,r5,r9
  1374. add r4,r4,#3 @ counter+3
  1375. add r6,r6,r10
  1376. add r7,r7,r11
  1377. ldr r11,[sp,#4*(32+2)] @ re-load len
  1378. # ifdef __ARMEB__
  1379. rev r0,r0
  1380. rev r1,r1
  1381. rev r2,r2
  1382. rev r3,r3
  1383. rev r4,r4
  1384. rev r5,r5
  1385. rev r6,r6
  1386. rev r7,r7
  1387. # endif
  1388. stmia r8,{r0,r1,r2,r3,r4,r5,r6,r7}
  1389. add r10,sp,#4*(0)
  1390. sub r11,r11,#64*3 @ len-=64*3
  1391. .Loop_tail_neon:
  1392. ldrb r8,[r10],#1 @ read buffer on stack
  1393. ldrb r9,[r12],#1 @ read input
  1394. subs r11,r11,#1
  1395. eor r8,r8,r9
  1396. strb r8,[r14],#1 @ store output
  1397. bne .Loop_tail_neon
  1398. .Ldone_neon:
  1399. add sp,sp,#4*(32+4)
  1400. vldmia sp,{d8,d9,d10,d11,d12,d13,d14,d15}
  1401. add sp,sp,#4*(16+3)
  1402. ldmia sp!,{r4,r5,r6,r7,r8,r9,r10,r11,pc}
  1403. .size ChaCha20_neon,.-ChaCha20_neon
  1404. .comm OPENSSL_armcap_P,4,4
  1405. #endif
  1406. #endif
  1407. #endif // !OPENSSL_NO_ASM
  1408. .section .note.GNU-stack,"",%progbits