Współczesna technologia zrewolucjonizowała sposób, w jaki robimy rzeczy. Nawet najbardziej podstawowa wersja smartfonów w kieszeniach większości ludzi lub inteligentnych urządzeniach domowych w naszych salonach ma imponującą ilość możliwości-szczególnie, gdy weźmie się pod uwagę, możesz je kontrolować po prostu, dzięki sztucznej inteligencji (AI). Ale nawet gdy komputery pomogły ułatwić nasze życie, wchodzą również na nowe terytorium, ponieważ stają się w stanie naśladować ludzkie zachowania, a nawet myśleć same. A teraz jedna nowa przerażająca forma sztucznej inteligencji może doskonale symulować twój głos po usłyszeniu go przez zaledwie trzy sekundy. Czytaj dalej, aby dowiedzieć się więcej o przełomowej technologii.
Przeczytaj to następne: nigdy nie ładuj telefonu z Androidem w ten sposób, mówią eksperci.
Wszyscy polegaliśmy na maszynach, aby nasze codzienne życie łatwiej w ten czy inny sposób. Ale co, jeśli komputer mógłby wkroczyć i naśladować sposób mówienia bez tego, że nawet nie zauważasz innych?
W zeszłym tygodniu naukowcy z Microsoft ogłosili, że opracowali nową formę sztucznej inteligencji tekstu na mowę, którą nazwali Vall-E, raporty Ars Technica. Technologia może symulować głos osoby za pomocą trzyosekundowego klipu audio, nawet podnosząc i zachowując emocjonalny ton oryginalnego głośnika i akustyczne dźwięki środowiska, w którym nagrywają. Zespół twierdzi, że model może być przydatny w tworzeniu automatycznych wokalizacji tekstu-nawet wiąże się z potencjalnym ryzykiem wysoce wyrafinowanych dupków podobnych do filmów DeepFake.
W swoim artykule omawiając nową technologię, Microsoft Dubs Vall-E „Model języka nerwowego kodeku.„Oznacza to, że chociaż tradycyjne oprogramowanie tekstowe (TTS) przyjmuje pisane słowa i manipuluje fali do generowania wokalizacji, sztuczna inteligencja może wybrać subtelne elementy głosu i konkretnych podpowiedzi dźwiękowych, które pomagają w tworzeniu wiarygodnej rekreacji a osoba mówiąca w dowolnym wyroku, który jest do niego zaspokojony, zgodnie z interesującą inżynierią witryny.
„Aby zsyntetyzować spersonalizowaną mowę (e.G., Zero-Shot TTS), Vall-E generuje odpowiednie tokeny akustyczne uwarunkowane na tokenach akustycznych 3-sekundowego zapisania nagrania i monitowania fonema, które ograniczają odpowiednio informacje o głośnikach i treści ”, zespół wyjaśnia w swoim papierowym. „Wreszcie, wygenerowane tokeny akustyczne są używane do syntezy końcowego przebiegu z odpowiednim dekoderem kodeka neuronowego."
Powiązane: Aby uzyskać więcej aktualnych informacji, zapisz się do naszego codziennego biuletynu.
Aby opracować nowy model, zespół twierdzi, że zużył około 60 000 godzin zarejestrowanej mowy w języku angielskim z ponad 7 000 indywidualnych mówców z biblioteki audio zgromadzonej przez meta. W większości przypadków nagrania zostały pobrane z odczytów audiobooków publicznych przechowywanych na Librivox, informuje Ars Technica. W swoich próbach zespół powiedział, że Vall-E potrzebuje głosu w trzy-sekundowej próbce, aby ściśle przypominać jeden z głosów z danych szkoleniowych, aby uzyskać przekonujący wynik.
Zespół prezentuje teraz swoją pracę, publikując określone przykłady oprogramowania w akcji na stronie GitHub. Każdy z nich zawiera trzyosekundowy klip głosu głośnika czytającego losowy tekst i „gruntowa prawda”, który jest nagranym przykładem głośnika czytania zdania do porównania. Następnie przedstawiają „podstawowe” nagranie, aby pokazać, w jaki sposób typowe oprogramowanie TTS generowałoby mówienie audio i wersję nagrania „vall-e” w celu porównania z dwoma poprzednimi.
Chociaż wyniki nie są całkowicie idealne, prezentują kilka bardzo przekonujących przykładów, w których mowa generowana maszynowo brzmi szokująco człowiekiem. Naukowcy dodają również, że oprócz naśladowania fleksji i emocji, oprogramowanie może również powtórzyć środowisko, w którym bazowy dźwięk jest rejestrowany na przykład, dzięki czemu ktoś mówi na zewnątrz, w pokoju echo lub podczas rozmowy telefonicznej.
Zespół badawczy kończy swój artykuł, mówiąc, że planuje zwiększyć ilość danych szkoleniowych, aby pomóc modelowi poprawić jego style mówienia i stać się lepszym w naśladowaniu ludzkiego głosu. Ale na razie Microsoft powstrzymał się również od udostępnienia nowego oprogramowania dla programistów lub ogółu społeczeństwa do testowania potencjalnie ze względu na jego zdolność do oszukiwania ludzi lub wykorzystywania do nikczemnych celów. AE0FCC31AE342FD3A1346EBBB1F342FCB
„Ponieważ Vall-E może zsyntetyzować mowę, która utrzymuje tożsamość głośników, może wiązać się z potencjalnym ryzykiem niewłaściwego użycia modelu, takiego jak identyfikacja głosu fałszowania lub podszywanie się pod konkretnym głośnikiem”-napisali autorzy w swoich wnioskach. „Aby ograniczyć takie ryzyko, możliwe jest zbudowanie modelu wykrywalności w celu rozróżnienia, czy klip audio został zsyntetyzowany przez Vall-E. Będziemy również wprowadzić w życie zasady AI Microsoft podczas dalszego opracowywania modeli."