Filtrowanie obrazu (maska RGB)

0

Witam.

Napisałem (na bazie tego: http://www.algorytm.org/przetwarzanie-obrazow/filtrowanie-obrazow.html ) prosty algorytm do filtrowania obrazu (high pass, low pass itd). Problem w tym, że... nie działa ;(.

Teoria jest taka (przynajmniej ja tak to rozumiem z powyżej zalinkowanego artykułu):

Dzielimy cały obrazek na bloki o wymiarach 3x3 pixeli. Potem modyfikujemy środkowy pixel w każdym bloku (czyli o współrzędnych 2,2) w taki sposób, że:

  1. Mnożymy wszystkie pixele w danym bloku przez ich indywidualną maskę.
  2. Sumujemy wszystkie wyniki.
  3. Otrzymaną w ten sposób liczbę dzielimy przez sumę maski.

Mój kod:

  1. Konwertuje obrazek do formatu 24 bitowego BMP.
BMP:=TBitmap.Create;
BMP.Assign(IMG.Picture.Graphic);
BMP.PixelFormat:=PF24BIT;
  1. Ustalam wartość maski dla poszczególnych pixeli w bloku 3x3:
Mask[1,1]:=-1; Mask[2,1]:=-1; Mask[3,1]:=-1;
Mask[1,2]:=-1; Mask[2,2]:=9; Mask[3,2]:=-1;
Mask[1,3]:=-1; Mask[2,3]:=-1; Mask[3,3]:=-1;

MaskSum:=
(Mask[1,1] + Mask[2,1] + Mask[3,1] +
Mask[1,2] + Mask[2,2] + Mask[3,2] +
Mask[1,3] + Mask[2,3] + Mask[3,3]);
  1. Przelatuje cały obrazek odczytując kolejne bloki po 3x3 pixeli:
for Y:=1 to BMP.Height-2 do
  begin

{LINIA GÓRNA}

    Pixel[1,1]:=BMP.ScanLine[Y-1];
    Pixel[2,1]:=BMP.ScanLine[Y-1];
    Pixel[3,1]:=BMP.ScanLine[Y-1];

{LINIA ŚRODKOWA}

    Pixel[1,2]:=BMP.ScanLine[Y];
    Pixel[2,2]:=BMP.ScanLine[Y];
    Pixel[3,2]:=BMP.ScanLine[Y];

{LINIA DOLNA}

    Pixel[1,3]:=BMP.ScanLine[Y+1];
    Pixel[2,3]:=BMP.ScanLine[Y+1];
    Pixel[3,3]:=BMP.ScanLine[Y+1];

    Inc(Pixel[2,1],1);
    Inc(Pixel[2,2],1);
    Inc(Pixel[2,3],1);

    Inc(Pixel[3,1],2);
    Inc(Pixel[3,2],2);
    Inc(Pixel[3,3],2);
  1. Dla każdego bloku (a konkretnie środkowego pixela w takim bloku) wykonuje operację:
    for X:=1 to BMP.Width-2 do
      begin

        RSum:=
        ((Pixel[1,1].rgbtRed * Mask[1,1]) + (Pixel[2,1].rgbtRed * Mask[2,1]) + (Pixel[3,1].rgbtRed * Mask[3,1]) +
        (Pixel[1,2].rgbtRed * Mask[1,2]) + (Pixel[2,2].rgbtRed * Mask[2,2]) + (Pixel[3,2].rgbtRed * Mask[3,2]) +
        (Pixel[1,3].rgbtRed * Mask[1,3]) + (Pixel[2,3].rgbtRed * Mask[2,3]) + (Pixel[3,3].rgbtRed * Mask[3,3]))
        div
        MaskSum;

        Pixel[2,2].rgbtRed:=(RSum);

        GSum:=
        ((Pixel[1,1].rgbtGreen * Mask[1,1]) + (Pixel[2,1].rgbtGreen * Mask[2,1]) + (Pixel[3,1].rgbtGreen * Mask[3,1]) +
        (Pixel[1,2].rgbtGreen * Mask[1,2]) + (Pixel[2,2].rgbtGreen * Mask[2,2]) + (Pixel[3,2].rgbtGreen * Mask[3,2]) +
        (Pixel[1,3].rgbtGreen * Mask[1,3]) + (Pixel[2,3].rgbtGreen * Mask[2,3]) + (Pixel[3,3].rgbtGreen * Mask[3,3]))
        div
        MaskSum;

        Pixel[2,2].rgbtGreen:=(GSum);

        BSum:=
        ((Pixel[1,1].rgbtBlue * Mask[1,1]) + (Pixel[2,1].rgbtBlue * Mask[2,1]) + (Pixel[3,1].rgbtBlue * Mask[3,1]) +
        (Pixel[1,2].rgbtBlue * Mask[1,2]) + (Pixel[2,2].rgbtBlue * Mask[2,2]) + (Pixel[3,2].rgbtBlue * Mask[3,2]) +
        (Pixel[1,3].rgbtBlue * Mask[1,3]) + (Pixel[2,3].rgbtBlue * Mask[2,3]) + (Pixel[3,3].rgbtBlue * Mask[3,3]))
        div
        MaskSum;

        Pixel[2,2].rgbtBlue:=(BSum);

        Inc(Pixel[1,1],1);
        Inc(Pixel[2,1],1);
        Inc(Pixel[3,1],1);

        Inc(Pixel[1,2],1);
        Inc(Pixel[2,2],1);
        Inc(Pixel[3,2],1);

        Inc(Pixel[1,3],1);
        Inc(Pixel[2,3],1);
        Inc(Pixel[3,3],1);
      end;

Efekt to niestety masa kolorowych bezładnych kropek (wyglądających jak efekt renderowania "Szum RGB" z gimpa...).

Ktoś może mi pomóc i wskazać co robię źle?

Oto cały kod:

procedure TForm1.Button1Click(Sender: TObject);
var
BMP: TBitmap;
X,Y,MaskSum,RSum,GSum,BSum: Integer;
Pixel: array [1..3, 1..3] of ^RGBTriple;
Mask: array [1..3, 1..3] of Integer;

begin
BMP:=TBitmap.Create;
BMP.Assign(IMG.Picture.Graphic);
BMP.PixelFormat:=PF24BIT;

Mask[1,1]:=-1; Mask[2,1]:=-1; Mask[3,1]:=-1;
Mask[1,2]:=-1; Mask[2,2]:=9; Mask[3,2]:=-1;
Mask[1,3]:=-1; Mask[2,3]:=-1; Mask[3,3]:=-1;

MaskSum:=
(Mask[1,1] + Mask[2,1] + Mask[3,1] +
Mask[1,2] + Mask[2,2] + Mask[3,2] +
Mask[1,3] + Mask[2,3] + Mask[3,3]);

for Y:=1 to BMP.Height-2 do
  begin
    Pixel[1,1]:=BMP.ScanLine[Y-1];
    Pixel[2,1]:=BMP.ScanLine[Y-1];
    Pixel[3,1]:=BMP.ScanLine[Y-1];

    Pixel[1,2]:=BMP.ScanLine[Y];
    Pixel[2,2]:=BMP.ScanLine[Y];
    Pixel[3,2]:=BMP.ScanLine[Y];

    Pixel[1,3]:=BMP.ScanLine[Y+1];
    Pixel[2,3]:=BMP.ScanLine[Y+1];
    Pixel[3,3]:=BMP.ScanLine[Y+1];

    Inc(Pixel[2,1],1);
    Inc(Pixel[2,2],1);
    Inc(Pixel[2,3],1);

    Inc(Pixel[3,1],2);
    Inc(Pixel[3,2],2);
    Inc(Pixel[3,3],2); 

    for X:=1 to BMP.Width-2 do
      begin

        RSum:=
        ((Pixel[1,1].rgbtRed * Mask[1,1]) + (Pixel[2,1].rgbtRed * Mask[2,1]) + (Pixel[3,1].rgbtRed * Mask[3,1]) +
        (Pixel[1,2].rgbtRed * Mask[1,2]) + (Pixel[2,2].rgbtRed * Mask[2,2]) + (Pixel[3,2].rgbtRed * Mask[3,2]) +
        (Pixel[1,3].rgbtRed * Mask[1,3]) + (Pixel[2,3].rgbtRed * Mask[2,3]) + (Pixel[3,3].rgbtRed * Mask[3,3]))
        div
        MaskSum;

        Pixel[2,2].rgbtRed:=(RSum);

        GSum:=
        ((Pixel[1,1].rgbtGreen * Mask[1,1]) + (Pixel[2,1].rgbtGreen * Mask[2,1]) + (Pixel[3,1].rgbtGreen * Mask[3,1]) +
        (Pixel[1,2].rgbtGreen * Mask[1,2]) + (Pixel[2,2].rgbtGreen * Mask[2,2]) + (Pixel[3,2].rgbtGreen * Mask[3,2]) +
        (Pixel[1,3].rgbtGreen * Mask[1,3]) + (Pixel[2,3].rgbtGreen * Mask[2,3]) + (Pixel[3,3].rgbtGreen * Mask[3,3]))
        div
        MaskSum;

        Pixel[2,2].rgbtGreen:=(GSum);

        BSum:=
        ((Pixel[1,1].rgbtBlue * Mask[1,1]) + (Pixel[2,1].rgbtBlue * Mask[2,1]) + (Pixel[3,1].rgbtBlue * Mask[3,1]) +
        (Pixel[1,2].rgbtBlue * Mask[1,2]) + (Pixel[2,2].rgbtBlue * Mask[2,2]) + (Pixel[3,2].rgbtBlue * Mask[3,2]) +
        (Pixel[1,3].rgbtBlue * Mask[1,3]) + (Pixel[2,3].rgbtBlue * Mask[2,3]) + (Pixel[3,3].rgbtBlue * Mask[3,3]))
        div
        MaskSum;

        Pixel[2,2].rgbtBlue:=(BSum);

        Inc(Pixel[1,1],1);
        Inc(Pixel[2,1],1);
        Inc(Pixel[3,1],1);

        Inc(Pixel[1,2],1);
        Inc(Pixel[2,2],1);
        Inc(Pixel[3,2],1);

        Inc(Pixel[1,3],1);
        Inc(Pixel[2,3],1);
        Inc(Pixel[3,3],1);
      end;
  end;
IMG.Picture:=nil;
IMG.Picture.Bitmap:=BMP;
end;

dodanie znaczników <code class="delphi"> - furious programming

0

a co robisz w tym miejscu:

Inc(Pixel[2,1],1);

?

na moje masz w zmiennej kolor piksela w formacie 0xRRGGBB
czyli przykładowo 0x00FFFF (0 czerwonego, max zielonego, max niebieskiego) i dodajesz do tego z d**y "1" otrzymując 0x010000 (czyli prawie 0 czerwonego, 0 zielonego, 0 niebieskiego)

Filtrację przeprowadza się osobno dla każdej składowej obrazu. Zatem jeżeli mamy obraz reprezentowany w modelu RGB, to wówczas będziemy wykonywać oddzielne przekształcenia dla składowej R, G oraz B.

0
gdgdfsgdf napisał(a):

a co robisz w tym miejscu:

Inc(Pixel[2,1],1);

?

Funkcja ScanLine odczytuje całą wskazaną linię pixeli danego obrazka (w moim przypadku Y), a wskaźnik domyślnie znajduje się na 1 pixelu w tej linii.

Gdybym zostawił tak:

Pixel[1,1]:=BMP.ScanLine[Y-1];
Pixel[2,1]:=BMP.ScanLine[Y-1];
Pixel[3,1]:=BMP.ScanLine[Y-1];

to wszystkie 3 zmiennie z tablicy wskazywałyby dokładnie na ten sam pixel w tej samej linii (1,1 w linii 1).

Dlatego też chcąc odczytać pixel o współrzędnych 2,1 (oczywiście w formacie X,Y) muszę przesunąć wskaźnik o 1 w prawo.

W pierwszej kolejności wskazuję ogólnie na linię pixeli, a potem ustawiam wskaźnik na konkretnym miejscu (1,1 lub 2,1 lub 3,1 itd).

na moje masz w zmiennej kolor piksela w formacie 0xRRGGBB
czyli przykładowo 0x00FFFF (0 czerwonego, max zielonego, max niebieskiego) i dodajesz do tego z d**y "1" otrzymując 0x010000 (czyli prawie 0 czerwonego, 0 zielonego, 0 niebieskiego)

Filtrację przeprowadza się osobno dla każdej składowej obrazu. Zatem jeżeli mamy obraz reprezentowany w modelu RGB, to wówczas będziemy wykonywać oddzielne przekształcenia dla składowej R, G oraz B.

RGBTriple którego używam (tutaj jako wskaźnika ale to bez znaczenia) przechowuje cały pixel (jego kolory składowe) i automatycznie rozbija go na wartości R G i B które potem można sobie odczytać lub zmienić. Zauważ że całą operację wykonuję dla każdego koloru z osobna (RSum, GSum, BSum itd).

dodanie znacznika <code class="delphi"> - furious programming

0

Mógłby ktoś przynajmniej skompilować to u siebie, przetestować na jakimś obrazie i napisać co mu wychodzi?

0

Mi z taką maską:

Mask[1,1]:=1; Mask[2,1]:=1; Mask[3,1]:=1;
Mask[1,2]:=1; Mask[2,2]:=1; Mask[3,2]:=1;
Mask[1,3]:=1; Mask[2,3]:=1; Mask[3,3]:=1;

Kod się kompiluje i jest efekt rozmazania - masz problem tylko z tym konkretnym filtrem czy w ogóle?

0

Tak, z taką maską (jest to podstawowy filtr low-pass) mi też działa i poprawnie tworzy efekt rozmycia (blur). Od tego właśnie zacząłem pisanie kodu i - widząc zadowalający efekt - byłem przekonany, że napisałem wszystko jak trzeba. Potem zacząłem testować inne maski i niestety wyszedł klops ;(.

Mnie się wydaje, że programistycznie tu nie ma błędu i problem wynika raczej z niewłaściwego algorytmu. Albo jak coś źle zrozumiałem z tego zalinkowanego artykułu (w co wątpię, bo w innych źródłach było podobnie), albo jest on po prostu skopany!

Krok po kroku wygląda to tak:

  1. Program widzi przerabiany obrazek w taki sposób - czyli jako siatkę pixeli:

user image

  1. W pętli wczytuje po kolei bloki o wymiarach 3x3 przeprowadza określone działanie (opisałem wyżej) i modyfikuje środkowy pixel (zaznaczony na czerwono):

user image

  1. Następnie cała maska przeskakuje o 1 kolumnę w prawo. Każdy przerobiony uprzednio pixel (zaznaczony na pomarańczowo), znajduje się więc w bloku sąsiednim i wpływa na niego:

user image

Warto zauważyć, że im więcej przerobionych pikseli, tym bardziej wpływają na inne bloki:

user image

Może właśnie w tym tkwi problem? Może te przerobione piksele nie powinny wpływać na pozostałe?

0

w oryginalnym kodzie są jeszcze dodatkowe warunki

        if GSum > 255 then        
        GSum := 255
        else if GSum < 0 then
        GSum := 0;   

do każdej składowej, wygląda to lepiej, ale szału nie ma.
Będzie najlepiej jeśli uruchomisz tamtą aplikacje, użyjesz tego samego obrazu i z debuggerem sprawdzisz czy masz wyliczane te same wartości co w swoim programie. Pułapka na LinearFiltr powinna rozjaśnić co jest grane.

0

Siedzę nad tym kolejny dzień i nadal nic... Posprawdzałem wartości w tamtym kodzie (przed sumowaniem, po sumowaniu, przed dzieleniem, po dzieleniu, przed mnożeniem, po mnożeniu itd.) - takie same jak u mnie.

Zauważyłem tylko taką różnicę, że w tamtym kodzie CHYBA (nie do końca jestem pewien bo jego czytelność jest tragiczna), zmiana koloru jest stosowana do całego bloku, nie tylko do środkowego pixela. Przerobiłem więc kod tak, że zamiast Pixel [2,2] = XXX, było Pixel [1,1] = XXX, Pixel [2,1] = XXX i tak aż do końca. Efekt? Czarny ekran (to znaczy cały obrazek na czarno). Już na prawdę nie mam pomysłu.

0

Zauważyłem tylko taką różnicę, że w tamtym kodzie CHYBA (nie do końca jestem pewien bo jego czytelność jest tragiczna), zmiana koloru jest stosowana do całego bloku, nie tylko do środkowego pixela

Zacznijmy od tego, że w tamtym kodzie zmiana stosowana jest do osobnego obrazka, a nie źródłowego - czyli to, o czym już wspomniałeś: Może te przerobione piksele nie powinny wpływać na pozostałe?

0

Nie bez trudności, ale w końcu się udało ;).

Wstawiam kod dla potomnych, gdyby ktoś kiedyś szukał.

function FixValue(Color:Integer): Byte;
begin
Result:=Color;
if Color>255 then Result:=255;
if Color<0 then Result:=0;
end;

function Filter (Source:TBitmap): TBitmap;
var
W,H,X,Y,MaskWeight,R,G,B: Integer;
SourcePixel,OutputPixel: array [1..3, 1..3] of ^RGBTriple;
Mask: array [1..3, 1..3] of Integer;

begin
Result:=TBitmap.Create;
Result.Width:=Source.Width;
Result.Height:=Source.Height;
Result.PixelFormat:=PF24BIT;

Mask[1,1]:=-1; Mask[2,1]:=-1; Mask[3,1]:=-1;
Mask[1,2]:=-1; Mask[2,2]:=18; Mask[3,2]:=-1;
Mask[1,3]:=-1; Mask[2,3]:=-1; Mask[3,3]:=-1;

MaskWeight:=0;

for Y:=1 to 3 do
for X:=1 to 3 do
MaskWeight:=(MaskWeight + Mask[X,Y]);

for H:=1 to Source.Height-2 do
  begin
    for Y:=H-1 to H+1 do
    for X:=1 to 3 do
      begin
        SourcePixel[X,Y-(H-2)]:=Source.ScanLine[Y];
        OutputPixel[X,Y-(H-2)]:=Result.ScanLine[Y];
      end;

    for X:=2 to 3 do
    for Y:=1 to 3 do
      begin
        Inc(SourcePixel[X,Y],X-1);
        Inc(OutputPixel[X,Y],X-1);
      end;

    for W:=1 to Source.Width-2 do
      begin
        R:=0;
        G:=0;
        B:=0;

        for Y:=1 to 3 do
        for X:=1 to 3 do
          begin
            R:=R + (SourcePixel[X,Y].rgbtRed * Mask[X,Y]);
            G:=G + (SourcePixel[X,Y].rgbtGreen * Mask[X,Y]);
            B:=B + (SourcePixel[X,Y].rgbtBlue * Mask[X,Y]);
          end;

        R:=FixValue(R div MaskWeight);
        G:=FixValue(G div MaskWeight);
        B:=FixValue(B div MaskWeight);

        OutputPixel[2,2].rgbtRed:=R;
        OutputPixel[2,2].rgbtGreen:=G;
        OutputPixel[2,2].rgbtBlue:=B;

        for Y:=1 to 3 do
        for X:=1 to 3 do
          begin
            Inc(SourcePixel[X,Y],1);
            Inc(OutputPixel[X,Y],1);
          end;
      end;
  end;
end;

procedure TForm1.Button1Click(Sender: TObject);
var
Source: TBitmap;
 
begin
Source:=TBitmap.Create;
Source.Assign(IMG.Picture.Graphic);
Source.PixelFormat:=PF24BIT;

IMG.Picture:=nil;
IMG.Picture.Bitmap:=Filter(Source);
end;

Kilka słów wyjaśnienia:

Problem faktycznie tkwił w tym, co sam zaobserwowałem już wcześniej. Zmodyfikowane pixele niepotrzebnie wpływały na te pozostałe, wypaczając wartość końcową obliczeń dla poszczególnych bloków. Patryk27 słusznie wskazał, że najlepiej przerobione pixele przerzucać do osobnej bitmapy, zamiast nadpisywać te pierwotne - to okazało się kluczowe.

Kod trzeba jeszcze odrobinę rozbudować, by usuwał marginesy ("pusta" ramka wokół obrazka o grubości 1px), ale z tym już chyba każdy sobie poradzi :).

Dzięki wszystkim za pomoc!

1 użytkowników online, w tym zalogowanych: 0, gości: 1