Merge commit 'v3.3.0' into upstream
[debian/gnuradio] / gnuradio-core / src / lib / filter / gri_fft_filter_ccc_sse.cc
1 /* -*- c++ -*- */
2 /*
3  * Copyright 2010 Free Software Foundation, Inc.
4  * 
5  * This file is part of GNU Radio
6  * 
7  * GNU Radio is free software; you can redistribute it and/or modify
8  * it under the terms of the GNU General Public License as published by
9  * the Free Software Foundation; either version 3, or (at your option)
10  * any later version.
11  * 
12  * GNU Radio is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15  * GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with GNU Radio; see the file COPYING.  If not, write to
19  * the Free Software Foundation, Inc., 51 Franklin Street,
20  * Boston, MA 02110-1301, USA.
21  */
22
23 #ifdef HAVE_CONFIG_H
24 #include "config.h"
25 #endif
26
27 #include <gri_fft_filter_ccc_sse.h>
28 #include <gri_fft.h>
29 #include <assert.h>
30 #include <stdexcept>
31 #include <cstdio>
32 #include <xmmintrin.h>
33 #include <fftw3.h>
34
35 gri_fft_filter_ccc_sse::gri_fft_filter_ccc_sse (int decimation,
36                                                 const std::vector<gr_complex> &taps)
37   : d_fftsize(-1), d_decimation(decimation), d_fwdfft(0), d_invfft(0)
38 {
39   d_xformed_taps = (gr_complex*)fftwf_malloc(1*sizeof(gr_complex));
40   set_taps(taps);
41 }
42
43 gri_fft_filter_ccc_sse::~gri_fft_filter_ccc_sse ()
44 {
45   fftwf_free(d_xformed_taps);
46   delete d_fwdfft;
47   delete d_invfft;
48 }
49
50 #if 0
51 static void 
52 print_vector_complex(const std::string label, const std::vector<gr_complex> &x)
53 {
54   std::cout << label;
55   for (unsigned i = 0; i < x.size(); i++)
56     std::cout << x[i] << " ";
57   std::cout << "\n";
58 }
59 #endif
60
61
62 /*
63  * determines d_ntaps, d_nsamples, d_fftsize, d_xformed_taps
64  */
65 int
66 gri_fft_filter_ccc_sse::set_taps (const std::vector<gr_complex> &taps)
67 {
68   int i = 0;
69   compute_sizes(taps.size());
70
71   d_tail.resize(tailsize());
72   for (i = 0; i < tailsize(); i++)
73     d_tail[i] = 0;
74
75   gr_complex *in = d_fwdfft->get_inbuf();
76   gr_complex *out = d_fwdfft->get_outbuf();
77
78   float scale = 1.0 / d_fftsize;
79   
80   // Compute forward xform of taps.
81   // Copy taps into first ntaps slots, then pad with zeros
82   for (i = 0; i < d_ntaps; i++)
83     in[i] = taps[i] * scale;
84
85   for (; i < d_fftsize; i++)
86     in[i] = 0;
87
88   d_fwdfft->execute();          // do the xform
89
90   // now copy output to d_xformed_taps
91   for (i = 0; i < d_fftsize; i++)
92     d_xformed_taps[i] = out[i];
93   
94   return d_nsamples;
95 }
96
97 // determine and set d_ntaps, d_nsamples, d_fftsize
98
99 void
100 gri_fft_filter_ccc_sse::compute_sizes(int ntaps)
101 {
102   int old_fftsize = d_fftsize;
103   d_ntaps = ntaps;
104   d_fftsize = (int) (2 * pow(2.0, ceil(log(ntaps) / log(2))));
105   d_nsamples = d_fftsize - d_ntaps + 1;
106
107   if (0)
108     fprintf(stderr, "gri_fft_filter_ccc_sse: ntaps = %d, fftsize = %d, nsamples = %d\n",
109             d_ntaps, d_fftsize, d_nsamples);
110
111   assert(d_fftsize == d_ntaps + d_nsamples -1 );
112
113   if (d_fftsize != old_fftsize){        // compute new plans
114     delete d_fwdfft;
115     delete d_invfft;
116     d_fwdfft = new gri_fft_complex(d_fftsize, true);
117     d_invfft = new gri_fft_complex(d_fftsize, false);
118     
119     fftwf_free(d_xformed_taps);
120     d_xformed_taps = (gr_complex*)fftwf_malloc((d_fftsize)*sizeof(gr_complex));
121   }
122 }
123
124 int
125 gri_fft_filter_ccc_sse::filter (int nitems, const gr_complex *input, gr_complex *output)
126 {
127   int dec_ctr = 0;
128   int j = 0;
129   int ninput_items = nitems * d_decimation;
130
131   for (int i = 0; i < ninput_items; i += d_nsamples){
132     
133     memcpy(d_fwdfft->get_inbuf(), &input[i], d_nsamples * sizeof(gr_complex));
134
135     for (j = d_nsamples; j < d_fftsize; j++)
136       d_fwdfft->get_inbuf()[j] = 0;
137
138     d_fwdfft->execute();        // compute fwd xform
139     
140     float *a = (float*)(d_fwdfft->get_outbuf());
141     float *b = (float*)(&d_xformed_taps[0]);
142     float *c = (float*)(d_invfft->get_inbuf());
143
144     __m128 x0, x1, x2, t0, t1, m;
145     m = _mm_set_ps(-1, 1, -1, 1);
146     for (j = 0; j < 2*d_fftsize; j+=4) {        // filter in the freq domain
147       x0 = _mm_load_ps(&a[j]);
148       t0 = _mm_load_ps(&b[j]);
149       
150       t1 = _mm_shuffle_ps(t0, t0, _MM_SHUFFLE(3, 3, 1, 1));
151       t0 = _mm_shuffle_ps(t0, t0, _MM_SHUFFLE(2, 2, 0, 0));
152       t1 = _mm_mul_ps(t1, m);
153
154       x1 = _mm_mul_ps(x0, t0);
155       x2 = _mm_mul_ps(x0, t1);
156
157       x2 = _mm_shuffle_ps(x2, x2, _MM_SHUFFLE(2, 3, 0, 1));
158       x2 = _mm_add_ps(x1, x2);
159
160       _mm_store_ps(&c[j], x2);
161     }
162
163     d_invfft->execute();        // compute inv xform
164
165     // add in the overlapping tail
166
167     for (j = 0; j < tailsize(); j++)
168       d_invfft->get_outbuf()[j] += d_tail[j];
169
170     // copy nsamples to output
171     j = dec_ctr;
172     while (j < d_nsamples) {
173       *output++ = d_invfft->get_outbuf()[j];
174       j += d_decimation;
175     }
176     dec_ctr = (j - d_nsamples);
177
178     // stash the tail
179     memcpy(&d_tail[0], d_invfft->get_outbuf() + d_nsamples,
180            tailsize() * sizeof(gr_complex));
181   }
182
183   assert(dec_ctr == 0);
184
185   return nitems;
186 }