~hc/RK356X_SDK_RELEASE.git

..	..	@@ -30,6 +30,7 @@
30	30	#include "gc/gc_9_0_offset.h"
31	31	#include "gc/gc_9_0_sh_mask.h"
32	32	#include "sdma0/sdma0_4_0_sh_mask.h"
	33	+#include "amdgpu_amdkfd.h"
33	34
34	35	static inline struct v9_mqd get_mqd(void mqd)
35	36	{
..	..	@@ -45,7 +46,7 @@
45	46	struct queue_properties *q)
46	47	{
47	48	struct v9_mqd *m;
48		- uint32_t se_mask[4] = {0}; /* 4 is the max # of SEs */
	49	+ uint32_t se_mask[KFD_MAX_NUM_SE] = {0};
49	50
50	51	if (q->cu_mask_count == 0)
51	52	return;
..	..	@@ -58,48 +59,83 @@
58	59	m->compute_static_thread_mgmt_se1 = se_mask[1];
59	60	m->compute_static_thread_mgmt_se2 = se_mask[2];
60	61	m->compute_static_thread_mgmt_se3 = se_mask[3];
	62	+ m->compute_static_thread_mgmt_se4 = se_mask[4];
	63	+ m->compute_static_thread_mgmt_se5 = se_mask[5];
	64	+ m->compute_static_thread_mgmt_se6 = se_mask[6];
	65	+ m->compute_static_thread_mgmt_se7 = se_mask[7];
61	66
62		- pr_debug("update cu mask to %#x %#x %#x %#x\n",
	67	+ pr_debug("update cu mask to %#x %#x %#x %#x %#x %#x %#x %#x\n",
63	68	m->compute_static_thread_mgmt_se0,
64	69	m->compute_static_thread_mgmt_se1,
65	70	m->compute_static_thread_mgmt_se2,
66		- m->compute_static_thread_mgmt_se3);
	71	+ m->compute_static_thread_mgmt_se3,
	72	+ m->compute_static_thread_mgmt_se4,
	73	+ m->compute_static_thread_mgmt_se5,
	74	+ m->compute_static_thread_mgmt_se6,
	75	+ m->compute_static_thread_mgmt_se7);
67	76	}
68	77
69		-static int init_mqd(struct mqd_manager mm, void *mqd,
70		- struct kfd_mem_obj *mqd_mem_obj, uint64_t gart_addr,
71		- struct queue_properties *q)
	78	+static void set_priority(struct v9_mqd m, struct queue_properties q)
	79	+{
	80	+ m->cp_hqd_pipe_priority = pipe_priority_map[q->priority];
	81	+ m->cp_hqd_queue_priority = q->priority;
	82	+}
	83	+
	84	+static struct kfd_mem_obj allocate_mqd(struct kfd_dev kfd,
	85	+ struct queue_properties *q)
72	86	{
73	87	int retval;
74		- uint64_t addr;
75		- struct v9_mqd *m;
76		- struct kfd_dev *kfd = mm->dev;
	88	+ struct kfd_mem_obj *mqd_mem_obj = NULL;
77	89
78		- *mqd_mem_obj = NULL;
79		- /* From V9, for CWSR, the control stack is located on the next page
80		- * boundary after the mqd, we will use the gtt allocation function
81		- * instead of sub-allocation function.
	90	+ /* For V9 only, due to a HW bug, the control stack of a user mode
	91	+ * compute queue needs to be allocated just behind the page boundary
	92	+ * of its regular MQD buffer. So we allocate an enlarged MQD buffer:
	93	+ * the first page of the buffer serves as the regular MQD buffer
	94	+ * purpose and the remaining is for control stack. Although the two
	95	+ * parts are in the same buffer object, they need different memory
	96	+ * types: MQD part needs UC (uncached) as usual, while control stack
	97	+ * needs NC (non coherent), which is different from the UC type which
	98	+ * is used when control stack is allocated in user space.
	99	+ *
	100	+ * Because of all those, we use the gtt allocation function instead
	101	+ * of sub-allocation function for this enlarged MQD buffer. Moreover,
	102	+ * in order to achieve two memory types in a single buffer object, we
	103	+ * pass a special bo flag AMDGPU_GEM_CREATE_CP_MQD_GFX9 to instruct
	104	+ * amdgpu memory functions to do so.
82	105	*/
83	106	if (kfd->cwsr_enabled && (q->type == KFD_QUEUE_TYPE_COMPUTE)) {
84		- *mqd_mem_obj = kzalloc(sizeof(struct kfd_mem_obj), GFP_KERNEL);
85		- if (!*mqd_mem_obj)
86		- return -ENOMEM;
87		- retval = kfd->kfd2kgd->init_gtt_mem_allocation(kfd->kgd,
	107	+ mqd_mem_obj = kzalloc(sizeof(struct kfd_mem_obj), GFP_KERNEL);
	108	+ if (!mqd_mem_obj)
	109	+ return NULL;
	110	+ retval = amdgpu_amdkfd_alloc_gtt_mem(kfd->kgd,
88	111	ALIGN(q->ctl_stack_size, PAGE_SIZE) +
89	112	ALIGN(sizeof(struct v9_mqd), PAGE_SIZE),
90		- &((*mqd_mem_obj)->gtt_mem),
91		- &((*mqd_mem_obj)->gpu_addr),
92		- (void )&((mqd_mem_obj)->cpu_ptr), true);
93		- } else
94		- retval = kfd_gtt_sa_allocate(mm->dev, sizeof(struct v9_mqd),
95		- mqd_mem_obj);
96		- if (retval) {
97		- kfree(*mqd_mem_obj);
98		- return -ENOMEM;
	113	+ &(mqd_mem_obj->gtt_mem),
	114	+ &(mqd_mem_obj->gpu_addr),
	115	+ (void *)&(mqd_mem_obj->cpu_ptr), true);
	116	+ } else {
	117	+ retval = kfd_gtt_sa_allocate(kfd, sizeof(struct v9_mqd),
	118	+ &mqd_mem_obj);
99	119	}
100	120
101		- m = (struct v9_mqd ) (mqd_mem_obj)->cpu_ptr;
102		- addr = (*mqd_mem_obj)->gpu_addr;
	121	+ if (retval) {
	122	+ kfree(mqd_mem_obj);
	123	+ return NULL;
	124	+ }
	125	+
	126	+ return mqd_mem_obj;
	127	+
	128	+}
	129	+
	130	+static void init_mqd(struct mqd_manager mm, void *mqd,
	131	+ struct kfd_mem_obj mqd_mem_obj, uint64_t gart_addr,
	132	+ struct queue_properties *q)
	133	+{
	134	+ uint64_t addr;
	135	+ struct v9_mqd *m;
	136	+
	137	+ m = (struct v9_mqd *) mqd_mem_obj->cpu_ptr;
	138	+ addr = mqd_mem_obj->gpu_addr;
103	139
104	140	memset(m, 0, sizeof(struct v9_mqd));
105	141
..	..	@@ -109,6 +145,10 @@
109	145	m->compute_static_thread_mgmt_se1 = 0xFFFFFFFF;
110	146	m->compute_static_thread_mgmt_se2 = 0xFFFFFFFF;
111	147	m->compute_static_thread_mgmt_se3 = 0xFFFFFFFF;
	148	+ m->compute_static_thread_mgmt_se4 = 0xFFFFFFFF;
	149	+ m->compute_static_thread_mgmt_se5 = 0xFFFFFFFF;
	150	+ m->compute_static_thread_mgmt_se6 = 0xFFFFFFFF;
	151	+ m->compute_static_thread_mgmt_se7 = 0xFFFFFFFF;
112	152
113	153	m->cp_hqd_persistent_state = CP_HQD_PERSISTENT_STATE__PRELOAD_REQ_MASK \|
114	154	0x53 << CP_HQD_PERSISTENT_STATE__PRELOAD_SIZE__SHIFT;
..	..	@@ -120,10 +160,7 @@
120	160
121	161	m->cp_hqd_quantum = 1 << CP_HQD_QUANTUM__QUANTUM_EN__SHIFT \|
122	162	1 << CP_HQD_QUANTUM__QUANTUM_SCALE__SHIFT \|
123		- 10 << CP_HQD_QUANTUM__QUANTUM_DURATION__SHIFT;
124		-
125		- m->cp_hqd_pipe_priority = 1;
126		- m->cp_hqd_queue_priority = 15;
	163	+ 1 << CP_HQD_QUANTUM__QUANTUM_DURATION__SHIFT;
127	164
128	165	if (q->format == KFD_QUEUE_FORMAT_AQL) {
129	166	m->cp_hqd_aql_control =
..	..	@@ -151,9 +188,7 @@
151	188	*mqd = m;
152	189	if (gart_addr)
153	190	*gart_addr = addr;
154		- retval = mm->update_mqd(mm, m, q);
155		-
156		- return retval;
	191	+ mm->update_mqd(mm, m, q);
157	192	}
158	193
159	194	static int load_mqd(struct mqd_manager mm, void mqd,
..	..	@@ -168,7 +203,15 @@
168	203	wptr_shift, 0, mms);
169	204	}
170	205
171		-static int update_mqd(struct mqd_manager mm, void mqd,
	206	+static int hiq_load_mqd_kiq(struct mqd_manager mm, void mqd,
	207	+ uint32_t pipe_id, uint32_t queue_id,
	208	+ struct queue_properties p, struct mm_struct mms)
	209	+{
	210	+ return mm->dev->kfd2kgd->hiq_mqd_load(mm->dev->kgd, mqd, pipe_id,
	211	+ queue_id, p->doorbell_off);
	212	+}
	213	+
	214	+static void update_mqd(struct mqd_manager mm, void mqd,
172	215	struct queue_properties *q)
173	216	{
174	217	struct v9_mqd *m;
..	..	@@ -227,13 +270,9 @@
227	270	m->cp_hqd_ctx_save_control = 0;
228	271
229	272	update_cu_mask(mm, mqd, q);
	273	+ set_priority(m, q);
230	274
231		- q->is_active = (q->queue_size > 0 &&
232		- q->queue_address != 0 &&
233		- q->queue_percent > 0 &&
234		- !q->is_evicted);
235		-
236		- return 0;
	275	+ q->is_active = QUEUE_IS_ACTIVE(*q);
237	276	}
238	277
239	278
..	..	@@ -247,13 +286,13 @@
247	286	pipe_id, queue_id);
248	287	}
249	288
250		-static void uninit_mqd(struct mqd_manager mm, void mqd,
	289	+static void free_mqd(struct mqd_manager mm, void mqd,
251	290	struct kfd_mem_obj *mqd_mem_obj)
252	291	{
253	292	struct kfd_dev *kfd = mm->dev;
254	293
255	294	if (mqd_mem_obj->gtt_mem) {
256		- kfd->kfd2kgd->free_gtt_mem(kfd->kgd, mqd_mem_obj->gtt_mem);
	295	+ amdgpu_amdkfd_free_gtt_mem(kfd->kgd, mqd_mem_obj->gtt_mem);
257	296	kfree(mqd_mem_obj);
258	297	} else {
259	298	kfd_gtt_sa_free(mm->dev, mqd_mem_obj);
..	..	@@ -269,71 +308,58 @@
269	308	pipe_id, queue_id);
270	309	}
271	310
272		-static int init_mqd_hiq(struct mqd_manager mm, void *mqd,
273		- struct kfd_mem_obj *mqd_mem_obj, uint64_t gart_addr,
	311	+static int get_wave_state(struct mqd_manager mm, void mqd,
	312	+ void __user *ctl_stack,
	313	+ u32 *ctl_stack_used_size,
	314	+ u32 *save_area_used_size)
	315	+{
	316	+ struct v9_mqd *m;
	317	+
	318	+ /* Control stack is located one page after MQD. */
	319	+ void mqd_ctl_stack = (void )((uintptr_t)mqd + PAGE_SIZE);
	320	+
	321	+ m = get_mqd(mqd);
	322	+
	323	+ *ctl_stack_used_size = m->cp_hqd_cntl_stack_size -
	324	+ m->cp_hqd_cntl_stack_offset;
	325	+ *save_area_used_size = m->cp_hqd_wg_state_offset -
	326	+ m->cp_hqd_cntl_stack_size;
	327	+
	328	+ if (copy_to_user(ctl_stack, mqd_ctl_stack, m->cp_hqd_cntl_stack_size))
	329	+ return -EFAULT;
	330	+
	331	+ return 0;
	332	+}
	333	+
	334	+static void init_mqd_hiq(struct mqd_manager mm, void *mqd,
	335	+ struct kfd_mem_obj mqd_mem_obj, uint64_t gart_addr,
274	336	struct queue_properties *q)
275	337	{
276	338	struct v9_mqd *m;
277		- int retval = init_mqd(mm, mqd, mqd_mem_obj, gart_addr, q);
278	339
279		- if (retval != 0)
280		- return retval;
	340	+ init_mqd(mm, mqd, mqd_mem_obj, gart_addr, q);
281	341
282	342	m = get_mqd(*mqd);
283	343
284	344	m->cp_hqd_pq_control \|= 1 << CP_HQD_PQ_CONTROL__PRIV_STATE__SHIFT \|
285	345	1 << CP_HQD_PQ_CONTROL__KMD_QUEUE__SHIFT;
286		-
287		- return retval;
288	346	}
289	347
290		-static int update_mqd_hiq(struct mqd_manager mm, void mqd,
291		- struct queue_properties *q)
292		-{
293		- struct v9_mqd *m;
294		- int retval = update_mqd(mm, mqd, q);
295		-
296		- if (retval != 0)
297		- return retval;
298		-
299		- /* TODO: what's the point? update_mqd already does this. */
300		- m = get_mqd(mqd);
301		- m->cp_hqd_vmid = q->vmid;
302		- return retval;
303		-}
304		-
305		-static int init_mqd_sdma(struct mqd_manager mm, void *mqd,
306		- struct kfd_mem_obj *mqd_mem_obj, uint64_t gart_addr,
	348	+static void init_mqd_sdma(struct mqd_manager mm, void *mqd,
	349	+ struct kfd_mem_obj mqd_mem_obj, uint64_t gart_addr,
307	350	struct queue_properties *q)
308	351	{
309		- int retval;
310	352	struct v9_sdma_mqd *m;
311	353
312		-
313		- retval = kfd_gtt_sa_allocate(mm->dev,
314		- sizeof(struct v9_sdma_mqd),
315		- mqd_mem_obj);
316		-
317		- if (retval != 0)
318		- return -ENOMEM;
319		-
320		- m = (struct v9_sdma_mqd ) (mqd_mem_obj)->cpu_ptr;
	354	+ m = (struct v9_sdma_mqd *) mqd_mem_obj->cpu_ptr;
321	355
322	356	memset(m, 0, sizeof(struct v9_sdma_mqd));
323	357
324	358	*mqd = m;
325	359	if (gart_addr)
326		- gart_addr = (mqd_mem_obj)->gpu_addr;
	360	+ *gart_addr = mqd_mem_obj->gpu_addr;
327	361
328		- retval = mm->update_mqd(mm, m, q);
329		-
330		- return retval;
331		-}
332		-
333		-static void uninit_mqd_sdma(struct mqd_manager mm, void mqd,
334		- struct kfd_mem_obj *mqd_mem_obj)
335		-{
336		- kfd_gtt_sa_free(mm->dev, mqd_mem_obj);
	362	+ mm->update_mqd(mm, m, q);
337	363	}
338	364
339	365	static int load_mqd_sdma(struct mqd_manager mm, void mqd,
..	..	@@ -347,7 +373,7 @@
347	373
348	374	#define SDMA_RLC_DUMMY_DEFAULT 0xf
349	375
350		-static int update_mqd_sdma(struct mqd_manager mm, void mqd,
	376	+static void update_mqd_sdma(struct mqd_manager mm, void mqd,
351	377	struct queue_properties *q)
352	378	{
353	379	struct v9_sdma_mqd *m;
..	..	@@ -370,12 +396,7 @@
370	396	m->sdma_queue_id = q->sdma_queue_id;
371	397	m->sdmax_rlcx_dummy_reg = SDMA_RLC_DUMMY_DEFAULT;
372	398
373		- q->is_active = (q->queue_size > 0 &&
374		- q->queue_address != 0 &&
375		- q->queue_percent > 0 &&
376		- !q->is_evicted);
377		-
378		- return 0;
	399	+ q->is_active = QUEUE_IS_ACTIVE(*q);
379	400	}
380	401
381	402	/*
..	..	@@ -431,35 +452,54 @@
431	452
432	453	switch (type) {
433	454	case KFD_MQD_TYPE_CP:
434		- case KFD_MQD_TYPE_COMPUTE:
	455	+ mqd->allocate_mqd = allocate_mqd;
435	456	mqd->init_mqd = init_mqd;
436		- mqd->uninit_mqd = uninit_mqd;
	457	+ mqd->free_mqd = free_mqd;
437	458	mqd->load_mqd = load_mqd;
438	459	mqd->update_mqd = update_mqd;
439	460	mqd->destroy_mqd = destroy_mqd;
440	461	mqd->is_occupied = is_occupied;
	462	+ mqd->get_wave_state = get_wave_state;
	463	+ mqd->mqd_size = sizeof(struct v9_mqd);
441	464	#if defined(CONFIG_DEBUG_FS)
442	465	mqd->debugfs_show_mqd = debugfs_show_mqd;
443	466	#endif
444	467	break;
445	468	case KFD_MQD_TYPE_HIQ:
	469	+ mqd->allocate_mqd = allocate_hiq_mqd;
446	470	mqd->init_mqd = init_mqd_hiq;
447		- mqd->uninit_mqd = uninit_mqd;
448		- mqd->load_mqd = load_mqd;
449		- mqd->update_mqd = update_mqd_hiq;
	471	+ mqd->free_mqd = free_mqd_hiq_sdma;
	472	+ mqd->load_mqd = hiq_load_mqd_kiq;
	473	+ mqd->update_mqd = update_mqd;
450	474	mqd->destroy_mqd = destroy_mqd;
451	475	mqd->is_occupied = is_occupied;
	476	+ mqd->mqd_size = sizeof(struct v9_mqd);
	477	+#if defined(CONFIG_DEBUG_FS)
	478	+ mqd->debugfs_show_mqd = debugfs_show_mqd;
	479	+#endif
	480	+ break;
	481	+ case KFD_MQD_TYPE_DIQ:
	482	+ mqd->allocate_mqd = allocate_mqd;
	483	+ mqd->init_mqd = init_mqd_hiq;
	484	+ mqd->free_mqd = free_mqd;
	485	+ mqd->load_mqd = load_mqd;
	486	+ mqd->update_mqd = update_mqd;
	487	+ mqd->destroy_mqd = destroy_mqd;
	488	+ mqd->is_occupied = is_occupied;
	489	+ mqd->mqd_size = sizeof(struct v9_mqd);
452	490	#if defined(CONFIG_DEBUG_FS)
453	491	mqd->debugfs_show_mqd = debugfs_show_mqd;
454	492	#endif
455	493	break;
456	494	case KFD_MQD_TYPE_SDMA:
	495	+ mqd->allocate_mqd = allocate_sdma_mqd;
457	496	mqd->init_mqd = init_mqd_sdma;
458		- mqd->uninit_mqd = uninit_mqd_sdma;
	497	+ mqd->free_mqd = free_mqd_hiq_sdma;
459	498	mqd->load_mqd = load_mqd_sdma;
460	499	mqd->update_mqd = update_mqd_sdma;
461	500	mqd->destroy_mqd = destroy_mqd_sdma;
462	501	mqd->is_occupied = is_occupied_sdma;
	502	+ mqd->mqd_size = sizeof(struct v9_sdma_mqd);
463	503	#if defined(CONFIG_DEBUG_FS)
464	504	mqd->debugfs_show_mqd = debugfs_show_mqd_sdma;
465	505	#endif