Blame - Transceiver52M/arm/convolve_neon.S - osmo-trx

blob: 637d1502cfe716e79c8367dc27e3717c25192a73 [file] [log] [blame]

Thomas Tsou	7e4e536	2013-10-30 21:18:55 -0400	[diff] [blame]	1	/*
				2	* NEON Convolution
				3	* Copyright (C) 2012, 2013 Thomas Tsou <tom@tsou.cc>
				4	*
				5	* This library is free software; you can redistribute it and/or
				6	* modify it under the terms of the GNU Lesser General Public
				7	* License as published by the Free Software Foundation; either
				8	* version 2.1 of the License, or (at your option) any later version.
				9	*
				10	* This library is distributed in the hope that it will be useful,
				11	* but WITHOUT ANY WARRANTY; without even the implied warranty of
				12	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
				13	* Lesser General Public License for more details.
				14	*
				15	* You should have received a copy of the GNU Lesser General Public
				16	* License along with this library; if not, write to the Free Software
				17	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
				18	*/
				19
				20	#ifdef HAVE_CONFIG_H
				21	#include "config.h"
				22	#endif
				23
				24	.syntax unified
				25	.text
				26	.align 2
				27	.global neon_conv_real4
				28	.type neon_conv_real4, %function
				29	neon_conv_real4:
				30	push {r4, lr}
				31	vpush {q4-q7}
				32	vld2.32 {q0-q1}, [r1]
				33	ldr r4, =8
				34	.neon_conv_loop4:
				35	vld2.32 {q2-q3}, [r0], r4
				36	vmul.f32 q4, q2, q0
				37	vmul.f32 q5, q3, q0
				38	vpadd.f32 d12, d8, d9
				39	vpadd.f32 d13, d10, d11
				40	vpadd.f32 d14, d12, d13
				41	vst1.64 {d14}, [r2]!
				42	subs r3, r3, #1
				43	bne .neon_conv_loop4
				44	vpop {q4-q7}
				45	pop {r4, pc}
				46	.size neon_conv_real4, .-neon_conv_real4
				47	.align 2
				48	.p2align 4,,15
				49	.global neon_conv_real8
				50	.type neon_conv_real8, %function
				51	neon_conv_real8:
				52	push {r4-r5, lr}
				53	vpush {q4-q7}
				54	vld2.32 {q0-q1}, [r1]!
				55	vld2.32 {q2-q3}, [r1]
				56	add r4, r0, #32
				57	ldr r5, =8
				58	.neon_conv_loop8:
				59	vld2.32 {q4-q5}, [r0], r5
				60	vld2.32 {q6-q7}, [r4], r5
				61	vmul.f32 q8, q4, q0
				62	vmul.f32 q9, q5, q0
				63	vmul.f32 q10, q6, q2
				64	vmul.f32 q11, q7, q2
				65
				66	vadd.f32 q12, q8, q10
				67	vadd.f32 q13, q9, q11
				68
				69	vpadd.f32 d22, d24, d25
				70	vpadd.f32 d23, d26, d27
				71	vpadd.f32 d24, d22, d23
				72	vst1.64 {d24}, [r2]!
				73	subs r3, r3, #1
				74	bne .neon_conv_loop8
				75	vpop {q4-q7}
				76	pop {r4-r5, pc}
				77	.size neon_conv_real8, .-neon_conv_real8
				78	.align 2
				79	.global neon_conv_real12
				80	.type neon_conv_real12, %function
				81	neon_conv_real12:
				82	push {r4-r6, lr}
				83	vpush {q4-q7}
				84	vld2.32 {q0-q1}, [r1]!
				85	vld2.32 {q2-q3}, [r1]!
				86	vld2.32 {q4-q5}, [r1]!
				87	add r4, r0, #32
				88	add r5, r0, #64
				89	ldr r6, =8
				90	.neon_conv_loop12:
				91	vld2.32 {q6-q7}, [r0], r6
				92	vld2.32 {q8-q9}, [r4], r6
				93	vld2.32 {q10-q11}, [r5], r6
				94	#ifdef HAVE_NEON_FMA
				95	vfma.f32 q1, q6, q0
				96	vfma.f32 q3, q7, q0
				97	vfma.f32 q1, q8, q2
				98	vfma.f32 q3, q9, q2
				99	vfma.f32 q1, q10, q4
				100	vfma.f32 q3, q11, q4
				101	#else
				102	vmul.f32 q12, q6, q0
				103	vmul.f32 q13, q7, q0
				104	vmul.f32 q14, q8, q2
				105	vmul.f32 q15, q9, q2
				106	vmul.f32 q1, q10, q4
				107	vmul.f32 q3, q11, q4
				108
				109	vadd.f32 q5, q12, q14
				110	vadd.f32 q6, q13, q15
				111	vadd.f32 q1, q5, q1
				112	vadd.f32 q3, q6, q3
				113	#endif
				114	vpadd.f32 d2, d2, d3
				115	vpadd.f32 d3, d6, d7
				116	vpadd.f32 d6, d2, d3
				117	vst1.64 {d6}, [r2]!
				118	subs r3, r3, #1
				119	bne .neon_conv_loop12
				120	vpop {q4-q7}
				121	pop {r4-r6, pc}
				122	.size neon_conv_real12, .-neon_conv_real12
				123	.align 2
				124	.global neon_conv_real16
				125	.type neon_conv_real16, %function
				126	neon_conv_real16:
				127	push {r4-r7, lr}
				128	vpush {q4-q7}
				129	vld2.32 {q0-q1}, [r1]!
				130	vld2.32 {q2-q3}, [r1]!
				131	vld2.32 {q4-q5}, [r1]!
				132	vld2.32 {q6-q7}, [r1]
				133	add r4, r0, #32
				134	add r5, r0, #64
				135	add r6, r0, #96
				136	ldr r7, =8
				137	.neon_conv_loop16:
				138	vld2.32 {q8-q9}, [r0], r7
				139	vld2.32 {q10-q11}, [r4], r7
				140	vld2.32 {q12-q13}, [r5], r7
				141	vld2.32 {q14-q15}, [r6], r7
				142	#ifdef HAVE_NEON_FMA
				143	vmul.f32 q1, q8, q0
				144	vmul.f32 q3, q9, q0
				145	vfma.f32 q1, q10, q2
				146	vfma.f32 q3, q11, q2
				147	vfma.f32 q1, q12, q4
				148	vfma.f32 q3, q13, q4
				149	vfma.f32 q1, q14, q6
				150	vfma.f32 q3, q15, q6
				151	#else
				152	vmul.f32 q1, q8, q0
				153	vmul.f32 q3, q9, q0
				154	vmul.f32 q5, q10, q2
				155	vmul.f32 q7, q11, q2
				156	vmul.f32 q8, q12, q4
				157	vmul.f32 q9, q13, q4
				158	vmul.f32 q10, q14, q6
				159	vmul.f32 q11, q15, q6
				160
				161	vadd.f32 q1, q1, q5
				162	vadd.f32 q3, q3, q7
				163	vadd.f32 q5, q8, q10
				164	vadd.f32 q7, q9, q11
				165	vadd.f32 q1, q1, q5
				166	vadd.f32 q3, q3, q7
				167	#endif
				168	vpadd.f32 d2, d2, d3
				169	vpadd.f32 d3, d6, d7
				170	vpadd.f32 d6, d2, d3
				171	vst1.64 {d6}, [r2]!
				172	subs r3, r3, #1
				173	bne .neon_conv_loop16
				174	vpop {q4-q7}
				175	pop {r4-r7, pc}
				176	.size neon_conv_real16, .-neon_conv_real16
				177	.align 2
				178	.global neon_conv_real20
				179	.type neon_conv_real20, %function
				180	neon_conv_real20:
				181	push {r4-r8, lr}
				182	vpush {q4-q7}
				183	vld2.32 {q0-q1}, [r1]!
				184	vld2.32 {q2-q3}, [r1]!
				185	vld2.32 {q4-q5}, [r1]!
				186	vld2.32 {q6-q7}, [r1]!
				187	vld2.32 {q8-q9}, [r1]
				188	add r4, r0, #32
				189	add r5, r0, #64
				190	add r6, r0, #96
				191	add r7, r0, #128
				192	ldr r8, =8
				193	.neon_conv_loop20:
				194	vld2.32 {q10-q11}, [r0], r8
				195	vld2.32 {q12-q13}, [r4], r8
				196	vld2.32 {q14-q15}, [r5], r8
				197	#ifdef HAVE_NEON_FMA
				198	vmul.f32 q1, q10, q0
				199	vfma.f32 q1, q12, q2
				200	vfma.f32 q1, q14, q4
				201	vmul.f32 q3, q11, q0
				202	vfma.f32 q3, q13, q2
				203	vfma.f32 q3, q15, q4
				204
				205	vld2.32 {q12-q13}, [r6], r8
				206	vld2.32 {q14-q15}, [r7], r8
				207
				208	vfma.f32 q1, q12, q6
				209	vfma.f32 q3, q13, q6
				210	vfma.f32 q1, q14, q8
				211	vfma.f32 q3, q15, q8
				212	#else
				213	vmul.f32 q1, q10, q0
				214	vmul.f32 q3, q12, q2
				215	vmul.f32 q5, q14, q4
				216	vmul.f32 q7, q11, q0
				217	vmul.f32 q9, q13, q2
				218	vmul.f32 q10, q15, q4
				219	vadd.f32 q1, q1, q3
				220	vadd.f32 q3, q7, q9
				221	vadd.f32 q9, q1, q5
				222	vadd.f32 q10, q3, q10
				223
				224	vld2.32 {q12-q13}, [r6], r8
				225	vld2.32 {q14-q15}, [r7], r8
				226
				227	vmul.f32 q1, q12, q6
				228	vmul.f32 q3, q13, q6
				229	vmul.f32 q5, q14, q8
				230	vmul.f32 q7, q15, q8
				231	vadd.f32 q12, q1, q9
				232	vadd.f32 q14, q3, q10
				233	vadd.f32 q1, q12, q5
				234	vadd.f32 q3, q14, q7
				235	#endif
				236	vpadd.f32 d2, d2, d3
				237	vpadd.f32 d3, d6, d7
				238	vpadd.f32 d6, d2, d3
				239	vst1.64 {d6}, [r2]!
				240	subs r3, r3, #1
				241	bne .neon_conv_loop20
				242	vpop {q4-q7}
				243	pop {r4-r8, pc}
				244	.size neon_conv_real20, .-neon_conv_real20
				245	.align 2
				246	.global mac_cx_neon4
				247	.type mac_cx_neon4, %function
				248	mac_cx_neon4:
				249	push {r4, lr}
				250	ldr r4, =32
				251	veor q14, q14
				252	veor q15, q15
				253	.neon_conv_loop_mac4:
				254	vld2.32 {q0-q1}, [r0], r4
				255	vld2.32 {q2-q3}, [r1]!
				256
				257	vmul.f32 q10, q0, q2
				258	vmul.f32 q11, q1, q3
				259	vmul.f32 q12, q0, q3
				260	vmul.f32 q13, q2, q1
				261	vsub.f32 q8, q10, q11
				262	vadd.f32 q9, q12, q13
				263
				264	vadd.f32 q14, q8
				265	vadd.f32 q15, q9
				266	subs r3, #1
				267	bne .neon_conv_loop_mac4
				268
				269	vld1.64 d0, [r2]
				270	vpadd.f32 d28, d28, d29
				271	vpadd.f32 d30, d30, d31
				272	vpadd.f32 d1, d28, d30
				273	vadd.f32 d1, d0
				274	vst1.64 d1, [r2]
				275	pop {r4, pc}
				276	.size mac_cx_neon4, .-mac_cx_neon4
				277	.section .note.GNU-stack,"",%progbits