Nauka języków

0

"Naukowcy z Cornell University i Uniwersytetu w Tel Awiwie opracowali nowy algorytm, dzięki któremu komputer sam może odkryć reguły rządzące gramatyką danego języka.

Uczonym z USA i Izraela udało się już sprawdzić algorytm w praktyce. Dzięki odpowiedniemu programowi komputery skanowały teksty w różnych językach, w tym angielskie i chińskie, po czym same odkrywały reguły gramatyczne. Oczywiście, wcześniej nie wprowadzano żadnych informacji na temat gramatyki danego języka.

Jak się okazało, komputery świetnie radziły sobie z tym, z czym ludzie mają często duży problem. Po opanowaniu gramatyki, program mógł także wygenerować nowe zdania, na dodatek zupełnie sensowne. Co ciekawe, algorytm sprawdzał się także w odniesieniu do bardziej abstrakcyjnych "języków", takich jak zapis nutowy oraz sekwencje aminokwasowe w białkach.

"Algorytm - metoda obliczeniowa - którą opracowaliśmy w celu nauki języka i jego przetwarzania, polega na analizie fragmentu tekstu, wyszukaniu powtarzających się w nim wzorców lub reguł, a następnie wygenerowaniu nowego materiału" - wyjaśnia Shimon Edelman, profesor psychologii na Cornell University i jeden ze współautorów algorytmu.

Opracowanie przedstawionej metody może mieć duże znaczenie praktyczne. Przewiduje się wykorzystanie algorytmu do analizy mowy, w psycholingwistyce oraz w dziedzinach związanych z badaniami biomedycznymi - proteomice (badanie białek) i genomice (badanie informacji genetycznej na poziomie całego organizmu)."

http://www.cc-team.org/index.php?name=news&show=455&PHPSESSID=e5fcf14e435732a6e4dfe801ed2dd6b2

Ma ktoś może więcej informacji o tym algorytmie i jego działaniu ? Szukałem po googlach jednak nie znalazłem żadnych konkretnych informacji a te podane w tym newsie są bardzo ogólne.

0

dobre pytanie
tez mnie to zaciekawilo jak przeczytalem newsa pare dni temu, jednak watpie by ow algorytm tak od razu byl ogolnodostepny :(

0

A jak, ktos oplaca naukowcow i ich zachcianki po to by potem non-profit oddawali wynalazki :-/

0
Mabakay napisał(a)

A jak, ktos oplaca naukowcow i ich zachcianki po to by potem non-profit oddawali wynalazki :-/

nie chodzi mi o to zeby ten algorytm sobie skopiować, tylko o troche informacji o nim, bo mnie to zainteresowało.

0

Zapewne jedną z informacji na temat tego algorytmu jest fakt, że odpalenie go na zwykłym komputerze (PC), by przeanalizował jakiś język, to samobójstwo (zapewne potrzebuje gigantycznej mocy obliczeniowej). Oczywiście są to tylko moje domysły :) .

0

Nie sądzę, by było to AŻ tak koszmarnie męczące. Programy w stylu 3DStudioMax czy nowoczesne gry zadowalają sie obecnym sprzętem, więc czemu program do analizy języka miałby nie wystarczyć? Wszystko jest kwestią czasu - czy czas obliczenia to tylko chwila, czy wyjście na kawę, czy wyjazd na wakacje..

0

a pomysleliscie o jednej rzeczy?
co jesli taki algorytm wpadlby w niepowolane rece. Kiedys byla mowa o wirusie, ktory uzywa internetowych translatorow do tlumaczenia tekstu, ktory potem wysyla w emailu razem z owym przetlumaczonym tekstem na adres email potencjalnej ofiary. Co jesli ktos moglby to zaimplementowac w swoim szkodniku? Wtedy zakladajac, iz wiekszosc adresow email znalezionych przez szkodnika w komputerze ofiary bedzie prowadzila do osob mowiacych w tym samym jezyku, moglby on wyszukiwac teksty na komputerze ofiary, analizowac je i tworzyc calkiem sensowne wiadomosci email zalaczajac siebie do nich. Wtedy byloby wieksze prawdopodobienstwo iz ofiara otworzy zalacznik. Co wiecej, co gdyby korzystajac z tego samego algorytmu wirus potrafil sam zmieniac swoj kod tak aby byc trudniejszym do wykrycia i rozbudowywac sie. Moze to myslenie w stylu sci fi ale mnie sie wydaje ono bardzo realne

0
CyberKid napisał(a)

a pomysleliscie o jednej rzeczy?
co jesli taki algorytm wpadlby w niepowolane rece. Kiedys byla mowa o wirusie, ktory uzywa internetowych translatorow do tlumaczenia tekstu, ktory potem wysyla w emailu razem z owym przetlumaczonym tekstem na adres email potencjalnej ofiary. Co jesli ktos moglby to zaimplementowac w swoim szkodniku?

Nie jest to możliwe :d z jednego prostego powodu a mianowicie jak taki wirus miałby byś przesyłany :/ bo nie widzi mi sie żeby np. 50MB szkodnik + kilku gigowa baza danych mogła się przesłać do kilkudziesięciu adresatów ;P

Ja bym tego nie zauważył [rotfl]
Tak jak i tego że wykonanie tych obliczen pochłonęło by ogromną ilość czasu na pececie (bo co to 4 GHz w porównaniu do superkomputerów, a poza tym prawda jest taka że średnia prędkośćprocka u moich kumpli nie przekracza 1,5GHz a niektórzy mają nawet po 400MHz 8-0

Więc jak można czegoś takiego nie zauważyć [green]
Chyba że odbierasz na codzień kilku gigowe maile :D

PS. Ciekawe jak WP czy Onet przeżyłyby spamowanie kilkugigowymi wirusami [sciana]

0
Niedowiarek napisał(a)

Nie jest to możliwe :d z jednego prostego powodu a mianowicie jak taki wirus miałby byś przesyłany :/ bo nie widzi mi sie żeby np. 50MB szkodnik + kilku gigowa baza danych mogła się przesłać do kilkudziesięciu adresatów ;P

Nie musi mieć tyle - jak Cyberkid słusznie zauważył, robale używają INTERNETOWYCH translatorów, a więc taki potencjalny szkodnik mógłby tworzyć treść emaila zdalnie :).

//DOPISANE do postu poniżej :
A co, nie można mieć procesora 4GHz? Gwarantuję, że można [diabel] .

//DOPISANE do postu A.P.
Oczywiście, że chodziło :) .

0
Niedowiarek napisał(a)

Tak jak i tego że wykonanie tych obliczen pochłonęło by ogromną ilość czasu na pececie (bo co to 4 GHz w porównaniu do superkomputerów, a poza tym prawda jest taka że średnia prędkośćprocka u moich kumpli nie przekracza 1,5GHz a niektórzy mają nawet po 400MHz 8-0

Tak dla scislosci, Twoj procek to 2,4GHz a nie 4GHz.

0
Niedowiarek napisał(a)

PS. Ciekawe jak WP czy Onet przeżyłyby spamowanie kilkugigowymi wirusami [sciana]

Bez problemu.

Watek zlazl totalnie z toru...

0

Szczawik: Ale zauważ jedną rzecz: programy typu 3DSMax korzystają ze wsparcia sprzętowego do konkretnie tego typu obliczeń (rendering 3D), a na procku 2,4 GHz i przy 256 MB ramu wyrenderowanie kilkusekundowego filmiku dobrej jakości to już jest wyjście na kawę (taką całkiem sporą i wliczając zagotowanie wody na tą kawę i jej zaparzenie). Wiem to z własnego doświadczenia.

Natomiast taki językowy algorytm musiałby analizować olbrzymie ilości tekstu, mieć gigantyczną bazę danych itp. Przecież do tej pory wszystkie programy mają olbrzymie problemy z gramatyką, nawet jak im się ją zaprogramuje (przykładem mogą być elektroniczne tłumacze). Tak więc nie sądzę, aby taki programik mógł w realnym do zniesienia czasie pracować na przeciętnym pececie i rozpracować jakiś język.

P.S. berl: chyba chodziło o 4 GHz, nie 400 GHz? :)

0

Niedowiarek chyba za malo wiesz. Zwaz na to iz pare/parenascie lat temu nikt nie przypuszczal ze bedzie mogl w domu ogladac filmy sciagniete z internetu a na dodatek przechowywac mase ich na dysku twardym a o plytach DVD to juz w ogole nikt by sobie nie pomyslal. Kiedys Bill Gates na konferencji prasowej czy jakos tak powiedzial ze komputery osobiste nigdy nie beda potrzebowaly wiecej niz pareset kB pamieci RAM itd...
Tak wiec moge spokojnie zalozyc, ze za pare/parenascielat bedziemy sobie slali duze zalaczniki w mailach bo bedziemy mieli o wiele szybsze lacza z o wiele szybszymi komputerami i o wiele pojemniejszymi dyskami.

swoja droga wracajac do tematu, to czy taki algorytm musi chlonac az tyle zasobow? moze sie myle ale zazwyczaj skomplikowane problemy maja banalne rozwiazania. Poza tym watpie by Izrael byl wposazony w super duper komputery a dodatkowo na poparcie swoich domyslen przytocze maly cytat: "Jak się okazało, komputery świetnie radziły sobie z tym, z czym ludzie mają często duży problem"

0

Ja nie moge [sciana] Znowu ktos wynalazl kolo... Przeciez algorytmy i programy (co prawda w wersjach najwyzej prototypowych, ale zawsze) potrafiace wyciagnac z odpowiednio duzej liczby tekstow zasady gramatyczne istnieja juz najmniej dwadziesciakilka lat :/ Toz to nie jest zadne odkrycie, a jedynie ktos mogl poskladac do kupy kilka kawalkow. W kazdym razie na pewno nie jest to nic "przelomowego".
Poza tym bierne poznanie zasad gramatyki, a wygenerowanie zgodnie z tymi zasadami sensownego tekstu i to jeszcze trzymajacego sie kontekstu to zupelnie inne bajki.
Ciekaw tez jestem w jakim stopniu radza sobie te algorytmy z jezykami fleksyjnymi z bogata morfologia i rozbudowanym slowotworstwem. Na przyklad z polskim ;) Bo takie algorytmy dla angielskiego i chinskiego to naprawde zadne osiagniecie... Toz to sa jezyki o gramatyce szczatkowej.

0
CyberKid napisał(a)

Niedowiarek chyba za malo wiesz. [...]

Bleh...

  1. Nikt nie bedzie sie pakowal w wirusy ktore beda mialy takie rozmiary, bo wirusy robia ludzie ktorzy znaja sie na Sieci i wiedza do czego mozna wykorzystac jej zasoby.
  2. Staly wzrost rozmiaru danych jest rownolegly do nowych metod ich kompresji, wiec bez przesady z tymi TB danych po kabelku ;).

swoja droga wracajac do tematu, to czy taki algorytm musi chlonac az tyle zasobow? moze sie myle ale zazwyczaj skomplikowane problemy maja banalne rozwiazania.

Tego nie napisal Ziom21 czy tez LordZX18 tylko inzynierowie z lbami na karku, bo takim wlasnie ludziom sie placi za to ze siedza, chleja kawe i opracowuja podobne klocki. Jesli moznaby to zrobic w 15 linijkach kodu i dostosowac do mocy domowych pentium, to tak by wlasnie zrobiono.

Poza tym watpie by Izrael byl wposazony w super duper komputery

To sie mylisz. Z 50 odpowiednio polaczonych PS2 mozna zrobic bardzo wydajna jednostke. Zreszta, Izrael to nie 3 swiat, tylko potezne naklady na rozwoj technologii i zbrojenia + dawna wspolpraca z USA i GBR.

a dodatkowo na poparcie swoich domyslen przytocze maly cytat: "Jak się okazało, komputery świetnie radziły sobie z tym, z czym ludzie mają często duży problem"

Zwiazku nie stwierdzam ;).

0
roSzi napisał(a)

To sie mylisz. Z 50 odpowiednio polaczonych PS2 mozna zrobic bardzo wydajna jednostke. Zreszta, Izrael to nie 3 swiat, tylko potezne naklady na rozwoj technologii i zbrojenia + dawna wspolpraca z USA i GBR.

to akurat wiem :) ale nasuwa mi sie jedno skojarzenie. Otoz skoro ci ludzie maja za zadanie tworzyc nowe technologie to na pewno nie po to aby uzywac je w swoich zamknietych laboratoriach :] Tak czy siak moja mysl z napisaniem owego wirusa to na dzien dzisiejszy czyste sci fi, ale jak to zwykle bywa sci fi czesto po paru/parunastu latach staje sie rzeczywistoscia

0

Widze, ze zignorowaliscie moja wypowiedz ;)

Taki wirus nie powstanie przez dlugi czas nie dlatego, ze wymaga jakichs niesamowitych zasobow, tylko dlatego, ze metody generacji tekstu (w tym sensownego tlumaczenia) wciaz sa w powijakach. Ekstrakcja gramatyki z korpusu to pikus w porownaniu z wygenerowaniem sensownego tekstu (nie mam na mysli jednego zdania, tylko tekst ciagly).
W swietle powyzszego mysle, ze zastanawiacie sie nad wirusami "lingwistycznymi" co najmniej o kilka lat za wczesnie ;P

0

Coś podobnego -> http://alice.pandorabots.com/

1 użytkowników online, w tym zalogowanych: 0, gości: 1