Algorytm KMP[SOLVED]

0

Witam.

Otóż, muszę napisać program, przeszukujący tekst w poszukiwaniu słowo klucza algorytmem. Samowyszukiwanie tym algorytmem posiadam i działa ono bardzo dobrze, jednak musiałem przebudować całą funkcję main() i program ten nie do końca chodzi tak jak należy. Wielokrotnie debugowałem program i poprawiałem kod optymalizując go, jednak jak działał wtedy tak działa dalej.

Oto kod

#include<iostream>
#include<cstdlib>
#include<vector>
#include<cstring>
#include<ctime>

using namespace std;

void liczKMP(char *wzorzec, int *KMP, int dlugoscwz)
{
    KMP[1] = 0;
    int i = 0 ;

    for (int j = 1; j<dlugoscwz; j++)
    { //obliczam kmp[j+1]
        while (i>0 && wzorzec[j+1]!=wzorzec[i+1])
        {
            i = KMP[i];
        }
        if (wzorzec[j+1] == wzorzec[i+1]) i++;
        KMP[j+1] = i;
    }
}
void wypisz(int numer, char *wzorzec)
{//wypisuje pozycje na ktorej byl wzorzec i wzorzec
       cout<<wzorzec <<" " <<numer <<endl;
}
void funkcjaKMP(char* wzorzec, string* tekst2, int *KMP, int dlugoscwz, int dlugosc)
{
    string h=*tekst2;
    char *tekst;
    tekst=new char[h.length()];
    for(int a=0;a<h.length();a++)
    {
        tekst[a]=tekst[a]+(char)h[a];
    }

    //cout<<h;
    liczKMP(wzorzec, KMP, dlugoscwz);
    //cout << "W funkcji funkcjaKMP()"<<endl;
    int j = 0;
    for (int i = 1; i<=dlugosc; i++)
    {
        while ((j>0)&& (wzorzec[j+1]!= tekst[i]))
        {
        j = KMP[j];
        }
        if (tekst[i]==wzorzec[j+1]) j++;
        if (j==dlugoscwz)
        {
        wypisz(i-j+1, wzorzec);
        j = KMP[j]; //szukamy dalej
        }
    }
}
//Funkcja main
//-----------------------------------------
int main()
{
//ilosc slow do wczytania
int *n;
n=new int;
//wzorce
char **wzorzec;
//tekst
vector<string> tekst;
//inne potrzebne
string napis, tekst2;
int k=21;
cin>>*n;

if(k<*n)
{k=*n;}
wzorzec=new char*[*n];
for(int x=0;x<k;x++)
{
    wzorzec[x]=new char[k];
}

    for(int v=0;v<*n;++v)
    {
        for(int x=0;x<k;++x)
        {
            wzorzec[v][x]=' ';
        }
    }
    for(int a=0;a<*n;a++)
    {
       scanf("%s", wzorzec[a]);
    }
    //wypisywanie wzorcow
	for(int y=0;y<*n;y++)
	{
		cout<<y <<" - ";
		for(int z=0;z<20;++z)
          {cout<<wzorzec[y][z];}

		cout<<endl;
	}
	//wczytywanie tekstu
	cin.clear();
    while(cin>>tekst2)
	{
	    tekst2=tekst2+" ";
	    tekst.push_back(tekst2);
	    if(*tekst2.c_str()==EOF)
	    break;
	    cin.clear();
	}
	for(int x=0;x<tekst.size();x++)
	cout<<tekst[x];
        int *KMP;
	    for(int a=0;a<*n;a++)
	    {
	            KMP=new int[strlen(wzorzec[a])+1];
                funkcjaKMP(wzorzec[a],&tekst.front(),KMP,strlen(wzorzec[a]), tekst.size());
                delete[] KMP;
        }
	//czyszczenie
	if(*n<20)
	*n=k;
	for(int x=0;x<*n;x++)
	{
	    delete wzorzec[x];
	}
	delete[] wzorzec;
	delete n;
return 0;

Zaznaczam, że wpisywałem tekst parokrotnie ręcznie ale najczęściej zwyczajnie przekierowuje standardowe wejście na jeden z plików, w jakich ma być zrobione wyszukiwanie. Plik załączam również.

Wspomnę, że kod kompiluje się dobrze i częściowe wyszukiwanie zostaje spełnione jednak nie do końca.


Edytka
Poprawiłem większość błędów jednak jest problem w kodzie. Chodzi chyba o moje magiczne przejście w funkcjaKMP z string* na char*.

0

jedno z przykazan sensownego programisty brzmi: nie optymalizuj poki wiesz ze masz bledy..

wskazujesz na "magię" przejscia ze vector<string> na string* poprzez &vect.front()
Ależ jest to calkowicie poprawne! dokładnie po to są vector'y, aby można było dobierać się do ich "żywej" zawartości tak jakby były tablicami, i operować na niej "naturalnie" poprzez wskaźniki.

...tyle że u Ciebie w tej chwili jest to jednak bez wiekszego sensu, poniewaz potem w funkcji odbierasz ów string* tylko po to aby "skopiowac" jego zawartosc do zmiennej H. po co wiec sie tak klopotac? "optymalizujesz" aby nie było kopiowania napisow? bez sensu. trzeba bylo uzyc parametru typu "string const &" ktory by Ci to zalatwil bez krzaczkow z wyciaganiem wskaznika do elementu wektora..

a tak w wiekszym ogole mowiac.... to std::string'i realizuja copy-on-write. to znaczy, ze majac kod:

string x = "mama";
string y = x;
string z = y;
z[0] = z[2] = "t";

wszystkie stringi operuja na tym samym napisie, zadna pamiec nie jest dodatkowo rezerwowana a napisy NIE sa kopiowane, az do linijki gdzie napis uleglby zmianie na "tata". Dopiero w tej linijce "string z" jakby to rzec.. "odłącza" się od stringow x i y, i robi sobie kopię. stringi x oraz y dalej zostaja spięte i operuja na tym samym napisie, string z od tej pory ma swoja kopie ze zmieniona zawartoscia.

to znaczy ze nawet jezeli Twoj parametr funkcji brzmi "f(...., string x, ...)" to taki parametr przekazuje STRING'a przez wartosc, a nie ZAWARTOSC stringa przez wartosc. taki maly kruczek językowy. string sie skopiuje ale jego zawartosc bedzie uwspolniona z oryginalnym tak dlugo, az ten-w-funkcji albo ten-na-zewnatrz nie zostanie zmodyfikowany. Jezeli Twoj parametr bedzie brzmial "string const x", pozniejsze "odpiecie" i opoznione skopiowanie zawartosci bedzie bardzo malo prawdopodobne. Jezeli Twoj parametr bedzie "string const & x", to dodatkowo nawet sam STRING nie zostanie skopiowany, tylko funkcja bedzie uzywala oryginalu pochodzacego "z jej zewnątrz".

to nie naprawia programu, ale na pierwszy rzut oka jest w tym kodzie lekki bajzel, zerkne na reszte za chwile..

0

Faktycznie, bajzel jest niemiłosierny. Złożoność obliczeniowa trochę za duża niż powinna ale tym będę martwił się później. Ogólnie wektory fajna sprawa, ale za malo mam z nimi doświadczenia więc zrezygnowałem z nich i poprawiłem kod. Aktualnie wszystko jest OK poza tym, że program nie może znaleźć żadnego ze wzorców. Oto poprawiony kod.

#include <stdio.h>
#include <iostream>
#include<vector>

using namespace std;
void liczKMP(char *wzorzec, int *KMP, int dlugoscwz)
{
    KMP[1] = 0;
    int i = 0 ;

    for (int j = 1; j<dlugoscwz; j++)
    { //obliczam kmp[j+1]
        while (i>0 && wzorzec[j+1]!=wzorzec[i+1])
        {
            i = KMP[i];
        }
        if (wzorzec[j+1] == wzorzec[i+1]) i++;
        KMP[j+1] = i;
    }
}
void wypisz(int numer, char *wzorzec)
{//wypisuje pozycję na ktorej był wzorzec i wzorzec
       cout<<wzorzec <<" " <<numer <<endl;
}
void funkcjaKMP(char* wzorzec, char *tekst, int *KMP, int dlugoscwz, int dlugosc)
{
    //cout<<"----------" <<endl;
    bool cosznaleziono = false;
    liczKMP(wzorzec, KMP, dlugoscwz);
    //cout << "W funkcji funkcjaKMP()"<<endl;
    int j = 0;
    for (int i = 1; i<=dlugosc; i++)
    {
        while ((j>0)&& (wzorzec[j+1]!= tekst[i]))
        {
        j = KMP[j];
        }
        if (tekst[i]==wzorzec[j+1]) j++;
        if (j==dlugoscwz)
        {
        cosznaleziono = true;
        wypisz(i-j+1,wzorzec);
        j = KMP[j]; //szukamy dalej
        }
    }
    if (!cosznaleziono) cout<<wzorzec <<" BRAK" <<endl;
    else printf("\n");
}

int main ()
{
    int proby;
    string tekst="";
    char **wzorzec;
    wzorzec=new char*[proby];
    for(int z=0;z<21;z++)
    {
        wzorzec[z]=new char[21];
    }
    int *KMP;
    int dlugosc=0;
    //cout<<"Podaj liczbe prob ";
    char cos;
    bool it_is=true;
    int dlugoscwz = 0;
    string tekst2;
    cin>>proby;
    int h=0;

            for(int a=0;a<proby;a++)
            {
               scanf("%s", wzorzec[a]);
            }
/*
            for(int a=0;a<proby;a++)
            {
                printf("%s\n", wzorzec[a]);
            }*/
              while(cin>>tekst2)
              {
                  tekst2=tekst2+" ";
                  tekst=tekst+tekst2;
                  dlugosc+=tekst2.length();
                  if(*tekst2.c_str()==EOF)
                  break;
              }
              char *txt_char;
              txt_char=new char[dlugosc];
              for(int i=0;i<tekst.size();i++)
              {
                 txt_char[i]=tekst[i];
              }
              /*for(int i=0;i<dlugosc;i++)
              cout<<txt_char[i];*/
    while(h<proby)
    {
        dlugoscwz=strlen(wzorzec[h]);
        KMP = new int[dlugoscwz+1];
        funkcjaKMP(wzorzec[h], txt_char, KMP, dlugoscwz, dlugosc);
        delete[] KMP;
        h++;
    }
return 0;
}
0
...
int main ()
{
    int proby;   <---- !!!!!!!!!!
    string tekst="";
    char **wzorzec;
    wzorzec=new char*[proby];   <----- !!!!!

    for(int z=0;z<21;z++)  <---- !!!
    {
        wzorzec[z]=new char[21];     <---- !!
    }
    int *KMP;
    int dlugosc=0;
    //cout<<"Podaj liczbe prob ";
    char cos;
    bool it_is=true;
    int dlugoscwz = 0;
    string tekst2;
    cin>>proby;   <---- !!!!!!!!!!
    int h=0;
....

Zaznaczylem Ci kilka grzechow.. a raczej - jeden duży. Zastanow sie, ile wynosi wartosc zmiennej "proby" w oznaczonych miejscach. Az dziw, ze program w ogole Ci jakkolwiek chodzi.

BTW. w momencie kiedy piszesz, ze "program dziala, ale dla pewnych danych nie", warto załączać z kodem programu owe dane dla których nie działa:) igły szuka się lepiej na stole niż w stogu siana:)

0

Błąd poprawiony dzięki. Zasięgnąłem paru rad jeszcze i poprawiłem kod. Co do działania programu, to były zwyczajne babole w zasadzie nie mające nic wspólnego z tym co znajduje się w tekście. Zarzucam najświeższy kod. najlepiej aby każdy z was sam sobie go odpalił i przekierował wejście na plik, który załączyłem w 1 poście i zobaczył wyniki.

#include<stdio.h>
#include<iostream>
#include<string>
#include<cstdlib>

using namespace std;
void liczKMP(char* wzorzec, int* KMP, int dlugoscwz)
{
    KMP[0]=KMP[1] = 0;
    int i = 0 ;
    for (int j = 1; j<dlugoscwz; j++)
    { //obliczam kmp[j+1]
        while (i>0 && wzorzec[j+1]!=wzorzec[i+1])
        {
            i = KMP[i];
        }
    if (wzorzec[j+1] == wzorzec[i+1]) i++;
    KMP[j+1] = i;
    }
}
void wypisz(int numer, char *wzorzec)
{//wypisuje pozycję na której był wzorzec
    cout<<wzorzec <<" " <<numer <<endl;
}

void funkcjaKMP(char *wzorzec, char *tekst, int* KMP, int dlugoscwz, int dlugosc)
{
    bool cosznaleziono = false;
    liczKMP(wzorzec, KMP, dlugoscwz);
   // cout<<"\n\n\n";
    cerr<<wzorzec <<" " <<*KMP <<" " <<dlugoscwz <<" " <<dlugosc <<endl <<endl <<endl;
    int j = 0;
    for (int i = 1; i<=dlugosc; i++)
    {
        while ((j>0)&& (wzorzec[j+1]!= tekst[i]))
        {
            j = KMP[j];
        }
        if (tekst[i]==wzorzec[j+1]) j++;
        if (j==dlugoscwz)
        {
            cosznaleziono = true;
            wypisz(i-j+1, wzorzec);
            j = KMP[j]; //szukamy dalej
        }
    }
    if(!cosznaleziono) cerr<<"Brak elementow w tekscie"<<endl;
    //for(int i=0;i<dlugosc;i++)
    //cerr<<tekst[i];
}

int main ()
{
    int proby;
    string tekst="";
    char **wzorzec;
    cin>>proby;
    wzorzec=new char*[proby];
    for(int z=0;z<21;z++)
    {
        wzorzec[z]=new char[21];
    }
    int *KMP;
    int dlugosc=0;
    char cos;
    bool it_is=true;
    int dlugoscwz = 0;
    char  znak;
    char *txt_char;
    txt_char=new char[tekst.max_size()];
    int h=0,j=0;
            for(int a=0;a<proby;a++)
            {
                cin>>wzorzec[a];
            }

            for(int a=0;a<proby;a++)
            {
                cerr<<wzorzec[a] <<endl;
            }
              while(cin.get(znak))
              {
                  txt_char[j++]=znak;
                  dlugosc++;
              }
              //for(int i=0;i<dlugosc;i++)
              //cerr<<txt_char[i];
    while(h<proby)
    {
        dlugoscwz=strlen(wzorzec[h]);
        KMP = new int[dlugoscwz+1];
        funkcjaKMP(wzorzec[h], txt_char, KMP, dlugoscwz, dlugosc);
        delete[] KMP;
        h++;
    }
return 0;
}

Z góry dzięki za pomoc.

0

Robiąc pewne odpowiednie wpisy w moim programie dowiedziałem się gdzie leży problem. Mianowicie chodzi o funkcję 'funkcjeKMP' i o to jak ona wyznacza gdzie leży tekst. Podam przykład. W jednym tekście (mającym 5306 znaków) wyszukuje słowa nunc. słowo to po raz pierwszy pojawia się w tekście na miejscu 762. TEraz kiedy patrze w moje "logi" otrrzymuje coś takiego
763<-i j->0
764<-i j->1
765<-i j->2

co oznacza, że znalazło pierwszy znak wzorca na miejscu 763 - chociaż de fakto jest ono na miejscu762. Kolejną sprawa jest to, że słowo ma to 4 znaki długości. Natomiast słowo uznaje się za znalezione gdy zmienna j osiągnie długość słowa. Niestety zmienna j nigdy nie osiąga wartości długości znaku. Załącze w tym poście kod programu i plik, z opisanymi miescami słów w tekście i plik, z którego wczytuje na standardowe wejście wszelkie dane.

Aby mieć możliwość przejrzenia wszystkich wartości proponuję przerzucić sobie dane wyjściowe na plik bo jest ich naprawdę dużo :)

Kodzik :)

#include<stdio.h>
#include<iostream>
#include<string>
#include<cstdlib>

using namespace std;
void liczKMP(char* wzorzec, int* KMP, int dlugoscwz)
{
    KMP[1] = 0;
    int i = 0 ;
    for (int j = 1; j<dlugoscwz; j++)
    { //obliczam kmp[j+1]
        while (i>0 && wzorzec[j+1]!=wzorzec[i+1])
        {
            i = KMP[i];
        }
    if (wzorzec[j+1] == wzorzec[i+1]) i++;
    KMP[j+1] = i;
    }
}
void wypisz(int numer, char *wzorzec)
{//wypisuje pozycję na której był wzorzec
    cout<<wzorzec <<" " <<numer <<endl;
}

void funkcjaKMP(char *wzorzec, char *tekst, int dlugoscwz, int dlugosc)
{
    bool cosznaleziono = false;
    int *KMP;
    if(dlugoscwz>2)
    dlugoscwz--;
    KMP=new int[strlen(wzorzec)+1];
    liczKMP(wzorzec, KMP, dlugoscwz);
    cerr<<wzorzec <<" " <<*KMP <<" " <<dlugoscwz <<" " <<dlugosc <<endl;
    int j = 0;
    //cout<<wzorzec <<endl;
    for (int i = 0; i<dlugosc; i++)
    {
        while ((j>0)&& (tekst[i]!=wzorzec[j+1]))
        {
            j = KMP[j];
            //cout<<i <<"<-i j->" <<j <<endl;
        }
        if (tekst[i-1]==wzorzec[j])
        {
            if(tekst[i]==wzorzec[j+1] && dlugoscwz<=2)
            {j++;i++;}
            //if(j&&j==dlugoscwz-2)
            //cout<<i-1 <<"<-i j->" <<j <<endl;
            j++;
        }
        if (j==dlugoscwz)
        {
            cosznaleziono = true;
            wypisz(i-j, wzorzec);
            j = KMP[j]; //szukamy dalej
        }

    }
    if(!cosznaleziono) cerr<<"Brak elementow w tekscie"<<endl;
    //for(int i=0;i<dlugosc;i++)
    //cerr<<tekst[i];
}

int main ()
{
    int proby;
    string tekst="";
    char **wzorzec;
    cin>>proby;
    wzorzec=new char*[proby];
    for(int z=0;z<20;z++)
    {
        wzorzec[z]=new char[20];
    }
    int dlugosc=0;
    int dlugoscwz = 0;
    char  znak;
    char *txt_char;
    txt_char=new char[tekst.max_size()];
    int h=0,j=0;
            for(int a=0;a<proby;a++)
            {
                cin>>wzorzec[a];
            }

            for(int a=0;a<proby;a++)
            {
                cerr<<wzorzec[a] <<endl;
            }
              while(cin.get(znak))
              {
                  txt_char[j++]=znak;
                  dlugosc++;
              }
              //for(int i=0;i<dlugosc;i++)
              //cerr<<txt_char[i];
    while(h<proby)
    {
        dlugoscwz=strlen(wzorzec[h]);
        funkcjaKMP(wzorzec[h], txt_char, dlugoscwz, dlugosc);
        h++;
    }
return 0;
}
0

Ok problem znaleziony. Poprawny kod w poście powyżej.

Dziękuję bardzo wszystkim za pomoc w rozwiązaniu problemu :)

1 użytkowników online, w tym zalogowanych: 0, gości: 1