hc
2024-08-12 233ab1bd4c5697f5cdec94e60206e8c6ac609b4c
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
/* SPDX-License-Identifier: GPL-2.0 */
/* Optimized version of the standard memset() function.
 
   Copyright (c) 2002 Hewlett-Packard Co/CERN
   Sverre Jarp <Sverre.Jarp@cern.ch>
 
   Return: dest
 
   Inputs:
        in0:    dest
        in1:    value
        in2:    count
 
   The algorithm is fairly straightforward: set byte by byte until we
   we get to a 16B-aligned address, then loop on 128 B chunks using an
   early store as prefetching, then loop on 32B chucks, then clear remaining
   words, finally clear remaining bytes.
   Since a stf.spill f0 can store 16B in one go, we use this instruction
   to get peak speed when value = 0.  */
 
#include <asm/asmmacro.h>
#include <asm/export.h>
#undef ret
 
#define dest        in0
#define value        in1
#define    cnt        in2
 
#define tmp        r31
#define save_lc        r30
#define ptr0        r29
#define ptr1        r28
#define ptr2        r27
#define ptr3        r26
#define ptr9         r24
#define    loopcnt        r23
#define linecnt        r22
#define bytecnt        r21
 
#define fvalue        f6
 
// This routine uses only scratch predicate registers (p6 - p15)
#define p_scr        p6            // default register for same-cycle branches
#define p_nz        p7
#define p_zr        p8
#define p_unalgn    p9
#define p_y        p11
#define p_n        p12
#define p_yy        p13
#define p_nn        p14
 
#define MIN1        15
#define MIN1P1HALF    8
#define LINE_SIZE    128
#define LSIZE_SH        7            // shift amount
#define PREF_AHEAD    8
 
GLOBAL_ENTRY(memset)
{ .mmi
   .prologue
   alloc    tmp = ar.pfs, 3, 0, 0, 0
   lfetch.nt1 [dest]            //
   .save   ar.lc, save_lc
   mov.i    save_lc = ar.lc
   .body
} { .mmi
   mov    ret0 = dest            // return value
   cmp.ne    p_nz, p_zr = value, r0        // use stf.spill if value is zero
   cmp.eq    p_scr, p0 = cnt, r0
;; }
{ .mmi
   and    ptr2 = -(MIN1+1), dest        // aligned address
   and    tmp = MIN1, dest        // prepare to check for correct alignment
   tbit.nz p_y, p_n = dest, 0        // Do we have an odd address? (M_B_U)
} { .mib
   mov    ptr1 = dest
   mux1    value = value, @brcst        // create 8 identical bytes in word
(p_scr)    br.ret.dpnt.many rp            // return immediately if count = 0
;; }
{ .mib
   cmp.ne    p_unalgn, p0 = tmp, r0        //
} { .mib
   sub    bytecnt = (MIN1+1), tmp        // NB: # of bytes to move is 1 higher than loopcnt
   cmp.gt    p_scr, p0 = 16, cnt        // is it a minimalistic task?
(p_scr)    br.cond.dptk.many .move_bytes_unaligned    // go move just a few (M_B_U)
;; }
{ .mmi
(p_unalgn) add    ptr1 = (MIN1+1), ptr2        // after alignment
(p_unalgn) add    ptr2 = MIN1P1HALF, ptr2        // after alignment
(p_unalgn) tbit.nz.unc p_y, p_n = bytecnt, 3    // should we do a st8 ?
;; }
{ .mib
(p_y)    add    cnt = -8, cnt            //
(p_unalgn) tbit.nz.unc p_yy, p_nn = bytecnt, 2    // should we do a st4 ?
} { .mib
(p_y)    st8    [ptr2] = value,-4        //
(p_n)    add    ptr2 = 4, ptr2            //
;; }
{ .mib
(p_yy)    add    cnt = -4, cnt            //
(p_unalgn) tbit.nz.unc p_y, p_n = bytecnt, 1    // should we do a st2 ?
} { .mib
(p_yy)    st4    [ptr2] = value,-2        //
(p_nn)    add    ptr2 = 2, ptr2            //
;; }
{ .mmi
   mov    tmp = LINE_SIZE+1        // for compare
(p_y)    add    cnt = -2, cnt            //
(p_unalgn) tbit.nz.unc p_yy, p_nn = bytecnt, 0    // should we do a st1 ?
} { .mmi
   setf.sig fvalue=value            // transfer value to FLP side
(p_y)    st2    [ptr2] = value,-1        //
(p_n)    add    ptr2 = 1, ptr2            //
;; }
 
{ .mmi
(p_yy)    st1    [ptr2] = value             //
      cmp.gt    p_scr, p0 = tmp, cnt        // is it a minimalistic task?
} { .mbb
(p_yy)    add    cnt = -1, cnt            //
(p_scr)    br.cond.dpnt.many .fraction_of_line    // go move just a few
;; }
 
{ .mib
   nop.m 0
   shr.u    linecnt = cnt, LSIZE_SH
(p_zr)    br.cond.dptk.many .l1b            // Jump to use stf.spill
;; }
 
   TEXT_ALIGN(32) // --------------------- //  L1A: store ahead into cache lines; fill later
{ .mmi
   and    tmp = -(LINE_SIZE), cnt        // compute end of range
   mov    ptr9 = ptr1            // used for prefetching
   and    cnt = (LINE_SIZE-1), cnt    // remainder
} { .mmi
   mov    loopcnt = PREF_AHEAD-1        // default prefetch loop
   cmp.gt    p_scr, p0 = PREF_AHEAD, linecnt    // check against actual value
;; }
{ .mmi
(p_scr)    add    loopcnt = -1, linecnt        //
   add    ptr2 = 8, ptr1            // start of stores (beyond prefetch stores)
   add    ptr1 = tmp, ptr1        // first address beyond total range
;; }
{ .mmi
   add    tmp = -1, linecnt        // next loop count
   mov.i    ar.lc = loopcnt            //
;; }
.pref_l1a:
{ .mib
   stf8 [ptr9] = fvalue, 128        // Do stores one cache line apart
   nop.i    0
   br.cloop.dptk.few .pref_l1a
;; }
{ .mmi
   add    ptr0 = 16, ptr2            // Two stores in parallel
   mov.i    ar.lc = tmp            //
;; }
.l1ax:
 { .mmi
   stf8 [ptr2] = fvalue, 8
   stf8 [ptr0] = fvalue, 8
 ;; }
 { .mmi
   stf8 [ptr2] = fvalue, 24
   stf8 [ptr0] = fvalue, 24
 ;; }
 { .mmi
   stf8 [ptr2] = fvalue, 8
   stf8 [ptr0] = fvalue, 8
 ;; }
 { .mmi
   stf8 [ptr2] = fvalue, 24
   stf8 [ptr0] = fvalue, 24
 ;; }
 { .mmi
   stf8 [ptr2] = fvalue, 8
   stf8 [ptr0] = fvalue, 8
 ;; }
 { .mmi
   stf8 [ptr2] = fvalue, 24
   stf8 [ptr0] = fvalue, 24
 ;; }
 { .mmi
   stf8 [ptr2] = fvalue, 8
   stf8 [ptr0] = fvalue, 32
     cmp.lt    p_scr, p0 = ptr9, ptr1        // do we need more prefetching?
 ;; }
{ .mmb
   stf8 [ptr2] = fvalue, 24
(p_scr)    stf8 [ptr9] = fvalue, 128
   br.cloop.dptk.few .l1ax
;; }
{ .mbb
   cmp.le  p_scr, p0 = 8, cnt        // just a few bytes left ?
(p_scr) br.cond.dpnt.many  .fraction_of_line    // Branch no. 2
   br.cond.dpnt.many  .move_bytes_from_alignment    // Branch no. 3
;; }
 
   TEXT_ALIGN(32)
.l1b:    // ------------------------------------ //  L1B: store ahead into cache lines; fill later
{ .mmi
   and    tmp = -(LINE_SIZE), cnt        // compute end of range
   mov    ptr9 = ptr1            // used for prefetching
   and    cnt = (LINE_SIZE-1), cnt    // remainder
} { .mmi
   mov    loopcnt = PREF_AHEAD-1        // default prefetch loop
   cmp.gt    p_scr, p0 = PREF_AHEAD, linecnt    // check against actual value
;; }
{ .mmi
(p_scr)    add    loopcnt = -1, linecnt
   add    ptr2 = 16, ptr1            // start of stores (beyond prefetch stores)
   add    ptr1 = tmp, ptr1        // first address beyond total range
;; }
{ .mmi
   add    tmp = -1, linecnt        // next loop count
   mov.i    ar.lc = loopcnt
;; }
.pref_l1b:
{ .mib
   stf.spill [ptr9] = f0, 128        // Do stores one cache line apart
   nop.i   0
   br.cloop.dptk.few .pref_l1b
;; }
{ .mmi
   add    ptr0 = 16, ptr2            // Two stores in parallel
   mov.i    ar.lc = tmp
;; }
.l1bx:
 { .mmi
   stf.spill [ptr2] = f0, 32
   stf.spill [ptr0] = f0, 32
 ;; }
 { .mmi
   stf.spill [ptr2] = f0, 32
   stf.spill [ptr0] = f0, 32
 ;; }
 { .mmi
   stf.spill [ptr2] = f0, 32
   stf.spill [ptr0] = f0, 64
     cmp.lt    p_scr, p0 = ptr9, ptr1        // do we need more prefetching?
 ;; }
{ .mmb
   stf.spill [ptr2] = f0, 32
(p_scr)    stf.spill [ptr9] = f0, 128
   br.cloop.dptk.few .l1bx
;; }
{ .mib
   cmp.gt  p_scr, p0 = 8, cnt        // just a few bytes left ?
(p_scr)    br.cond.dpnt.many  .move_bytes_from_alignment    //
;; }
 
.fraction_of_line:
{ .mib
   add    ptr2 = 16, ptr1
   shr.u    loopcnt = cnt, 5           // loopcnt = cnt / 32
;; }
{ .mib
   cmp.eq    p_scr, p0 = loopcnt, r0
   add    loopcnt = -1, loopcnt
(p_scr)    br.cond.dpnt.many .store_words
;; }
{ .mib
   and    cnt = 0x1f, cnt            // compute the remaining cnt
   mov.i   ar.lc = loopcnt
;; }
   TEXT_ALIGN(32)
.l2:    // ------------------------------------ //  L2A:  store 32B in 2 cycles
{ .mmb
   stf8    [ptr1] = fvalue, 8
   stf8    [ptr2] = fvalue, 8
;; } { .mmb
   stf8    [ptr1] = fvalue, 24
   stf8    [ptr2] = fvalue, 24
   br.cloop.dptk.many .l2
;; }
.store_words:
{ .mib
   cmp.gt    p_scr, p0 = 8, cnt        // just a few bytes left ?
(p_scr)    br.cond.dpnt.many .move_bytes_from_alignment    // Branch
;; }
 
{ .mmi
   stf8    [ptr1] = fvalue, 8        // store
   cmp.le    p_y, p_n = 16, cnt
   add    cnt = -8, cnt            // subtract
;; }
{ .mmi
(p_y)    stf8    [ptr1] = fvalue, 8        // store
(p_y)    cmp.le.unc p_yy, p_nn = 16, cnt
(p_y)    add    cnt = -8, cnt            // subtract
;; }
{ .mmi                        // store
(p_yy)    stf8    [ptr1] = fvalue, 8
(p_yy)    add    cnt = -8, cnt            // subtract
;; }
 
.move_bytes_from_alignment:
{ .mib
   cmp.eq    p_scr, p0 = cnt, r0
   tbit.nz.unc p_y, p0 = cnt, 2        // should we terminate with a st4 ?
(p_scr)    br.cond.dpnt.few .restore_and_exit
;; }
{ .mib
(p_y)    st4    [ptr1] = value,4
   tbit.nz.unc p_yy, p0 = cnt, 1        // should we terminate with a st2 ?
;; }
{ .mib
(p_yy)    st2    [ptr1] = value,2
   tbit.nz.unc p_y, p0 = cnt, 0        // should we terminate with a st1 ?
;; }
 
{ .mib
(p_y)    st1    [ptr1] = value
;; }
.restore_and_exit:
{ .mib
   nop.m    0
   mov.i    ar.lc = save_lc
   br.ret.sptk.many rp
;; }
 
.move_bytes_unaligned:
{ .mmi
       .pred.rel "mutex",p_y, p_n
       .pred.rel "mutex",p_yy, p_nn
(p_n)    cmp.le  p_yy, p_nn = 4, cnt
(p_y)    cmp.le  p_yy, p_nn = 5, cnt
(p_n)    add    ptr2 = 2, ptr1
} { .mmi
(p_y)    add    ptr2 = 3, ptr1
(p_y)    st1    [ptr1] = value, 1        // fill 1 (odd-aligned) byte [15, 14 (or less) left]
(p_y)    add    cnt = -1, cnt
;; }
{ .mmi
(p_yy)    cmp.le.unc p_y, p0 = 8, cnt
   add    ptr3 = ptr1, cnt        // prepare last store
   mov.i    ar.lc = save_lc
} { .mmi
(p_yy)    st2    [ptr1] = value, 4        // fill 2 (aligned) bytes
(p_yy)    st2    [ptr2] = value, 4        // fill 2 (aligned) bytes [11, 10 (o less) left]
(p_yy)    add    cnt = -4, cnt
;; }
{ .mmi
(p_y)    cmp.le.unc p_yy, p0 = 8, cnt
   add    ptr3 = -1, ptr3            // last store
   tbit.nz p_scr, p0 = cnt, 1        // will there be a st2 at the end ?
} { .mmi
(p_y)    st2    [ptr1] = value, 4        // fill 2 (aligned) bytes
(p_y)    st2    [ptr2] = value, 4        // fill 2 (aligned) bytes [7, 6 (or less) left]
(p_y)    add    cnt = -4, cnt
;; }
{ .mmi
(p_yy)    st2    [ptr1] = value, 4        // fill 2 (aligned) bytes
(p_yy)    st2    [ptr2] = value, 4        // fill 2 (aligned) bytes [3, 2 (or less) left]
   tbit.nz p_y, p0 = cnt, 0        // will there be a st1 at the end ?
} { .mmi
(p_yy)    add    cnt = -4, cnt
;; }
{ .mmb
(p_scr)    st2    [ptr1] = value            // fill 2 (aligned) bytes
(p_y)    st1    [ptr3] = value            // fill last byte (using ptr3)
   br.ret.sptk.many rp
}
END(memset)
EXPORT_SYMBOL(memset)